目录
第四章统计描述 ............................................................................................................... 2
4.2 频数分析 ........................................................................................................... 2 描述性统计量 ........................................................................................................... 2 (探索性数据分析)操作步骤 ............................................................................... 4 第五章 统计推断 ............................................................................................................. 6
单样本t检验 ........................................................................................................... 6 5.3 两独立样本t检验 ........................................................................................... 7 5.4 配对样本t检验 ............................................................................................... 8 第六章 方差分析 ............................................................................................................. 9
6.2.2 单因素单变量方差分析(One-way ANOVA)(操作步骤) ...................... 10 6.3.3 多因素单变量方差分析操作步骤 ............................................................. 14 6.3.5 不考虑交互效应的多因素方差分析 ......................................................... 17 6.3.6 引入协变量的多因素方差分析 ................................................................. 18 第八章 相关分析 ........................................................................................................... 19
8.2 连续变量相关分析实例 ................................................................................. 20 8.3 离散变量相关分析的实例(列联表) ......................................................... 22 第九章 回归分析 ........................................................................................................... 24
9.1.3 线性回归(操作步骤) ............................................................................. 26
1.多重共线性检验 ....................................................................................... 26 2.使用变量筛选的方法克服多重共线性...................................................... 29 二、曲线估计(操作步骤) ................................................................................. 32 二项Logistic回归(操作步骤) ....................................................................... 35 第十章 聚类分析 ........................................................................................................... 39
10.3.1 K-均值操作步骤: ................................................................................... 39 10.4.1 系统聚类法操作步骤 ............................................................................... 43 第十一章 判别分析 ....................................................................................................... 47
11.3.1 操作步骤 ................................................................................................... 48 第十二章 因子分析 ....................................................................................................... 53
操作步骤 ................................................................................................................. 56 第十三章 主成分分析 ................................................................................................... 64
13.2 操作步骤 ....................................................................................................... 65 第十四章 相应分析 ....................................................................................................... 69
相应分析实例(操作步骤) ................................................................................. 70 第十五章 典型相关分析 ............................................................................................... 75
操作步骤: ............................................................................................................. 75
精选文档.
.
第四章统计描述
统计描述是指如何搜集、整理、分析、研究并提供统计资料的理论和方法,用于说明总体的情况和特征。 4.1 基本概念和原理 频数分布 集中趋势指标
算数平均值:适用于 定比数据、定距数据 中位数:适用于 定比数据、定距数据和定序数据
众数:适用于 定比数据、定距数据、定序数据和定类数据 离散程度指标
作用:(1)它可以表明现象的平衡程度和稳定程度;(2)离散性指标可以表明平均指标的代表性,数据离散程度越大,则该分布的平均指标的代表性就越小。方差、标准差、均值标准误差、极差。
均值标准误差:也叫抽样标准误差,是样本均值的标准差,反映了样本均值与总体均值之间的差异程度。 反映分布形态的描述性指标 偏度、峰度
4.2 频数分析
Analyze——Descriptive Statistics——Frequencies
Analyze——Descriptive Statistics——Frequencies
精选文档.
.
输出结果:
精选文档.
.
4.4 探索性数据分析
基本思路:在统计分析时应尽量减少数据中存在的少量异常值对分析结果的影响。 只讲Explore命令: (1)异常值检验 (2)分布正太性检验 (3)方差齐性检验
检验各观测变量在控制变量不同水平下的方差是否相等。
(探索性数据分析)操作步骤
Analyze——Descriptive Statistics——Explore
精选文档.
.
齐性检验
精选文档.
.
第五章 统计推断
统计推断内容:参数估计、假设检验。
参数估计:研究一个随机变量,推断它的数量特征和变动模式。 假设检验:检验随机变量的数量特征和变动模式是否符合事先所做的假设。
共同特点:对总体都不很了解,都是利用部分样本所提供的信息对总体的数量特征做出估计或判断。
所以,统计推断的过程必定伴有某种程度的不确定性,需要用概率来表示其可靠程度。 5.1 参数估计
用于对总体均值进行检验。前提:样本来自的总体服从或近似服从正态分布。
Analyze——Compare means——One-Sample T Test,
精选文档.
.
上表1给出了资产负债率描述统计量。从表可知,上市公司资产负债率平均为0.4677,标准差为0.16773,均值标准误差为0.00945。
上表2给出了单样本t检验结果。从表中可以看到t统计量为-3..413,自由度为314,p值为0.01。由于p值小于显著性水平0.05,所以拒绝上市公司资产负债率平均为0.5的原假设。 另外,单样本t检验还
5.3 两独立样本t检验
对两个不同总体均值之间的差异性(样本均值之差)是否显著进行检验。 前提:样本来自的总体服从或近似服从正态分布;两样本相互独立。 注意:要检验方差齐性。(自带)
Analyze——Compare means——Dependent-Sample T Test,
输出结果:
精选文档.
.
5.4 配对样本t检验
利用来自某两个总体的配对样本,推断两个总体的均值是否存在显著差异。 特征:第一,两组样本的样本数相同;第二,两组样本观测值的先后顺序一一对应。 例如:检验某学校学生进行培训前后学生学习成绩有无显著变化。 两个样本具有一对一的配对关系
Analyze——Compare means——Paird-Sample T Test
输出结果:
精选文档.
.
第六章 方差分析
也是一种假设检验,它是对全部样本观测值的变动进行分解,将某种控制因素下各组样本的观测值之间可能存在的由该因素导致的系统性误差与随机误差加以比较,据以推断各组样本之间是否存在显著差异。若存在显著差异,则说明该因素对各总体的影响是显著的。
方差分析的主要目的是通过对方差的比较来检验多个均值之间差异的显著性。
可以看作t检验的扩展,只比较两个均值时与t检验等价。 方差分析有三个基本概念:观测变量、因素和水平。
观测变量(因变量):实际测量的、作为结果的变量,是进行方差分析所研究的对象。
因素(自变量):作为原因的、把观测结果分成几个组以进行比较的变量,例如奖金水平。
水平:因素的不同表现,即每个自变量的不同取值称为因素的水平。 根据观测变量的个数分类:单变量方差分析和多变量方差分析; 根据因素的个数分类:单因素方差分析和多因素方差分析。
只有一个因素变量的方差分析称为单因素方差分析。
研究多个因素变量对因变量的影响的方差分析称为多因素方差分析,其中最简单的情况是双因素方差分析。
6.2 单因素单变量方差分析(One-way ANOVA)
单因素方差分析:模型中有一个自变量(因素)和一个观测变量。 其实就是关于在一个影响因素的不同水平下,观测变量均值差异的显著性检验。 SST=SSB+SSE
SST:观测变量的总离差平方和 SSB:组间离差平方和 SSE:组内离差平方和
MSBSSB/(r1)F
MSESSE/(nr)方差分析需满足的假设条件:
样本是独立的随机样本。
各样本皆来自正态总体。对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本。
精选文档.
.
总体方差具有齐性,即各总体方差相等。各组观察数据是从具有相同方差的总体中抽取的。
某汽车经销商为研究东部、西部和中部地区市场上汽车销量是否存在显著差异
原假设:H0:u1u2...ur
单因素单变量方差分析(One-way ANOVA)(操作步骤)
Analyze——Compare means——One-Way ANOVA
精选文档.
.
输出结果:(假设一般为没有显著性差异)
描述 销量 N 西 中 东 总数 10 9 7 26 均值的 95% 置信区间 均值 标准差 标准误 下限 上限 极小值 120 135 145 120 极大值 194 198 224 224 方差齐性检验 销量 Levene 统计量 df1 2 df2 23 显著性 .302 ANOVA
销量
组间
(组合) 线性项
未加权的 加权的 偏差
平方和
df
2 1 1 1
均方
F
.003
显著性
.013 .004 .004 .954
精选文档.
.
组内 总数 23 25 对比系数
地区
对比 1 2
西
1 .5
中
1 -1
东
-1 .5
对比检验 销量 假设方差相等 对比 1 2 不假设等方差 1 2 对比值 a 标准误 t .058 .061 df 23 23 显著性(双侧) .000 .954 .000 .952 .58 a .58 a. 对比系数总和不为零。 在此之后检验
多重比较 因变量:销量 LSD 95% 置信区间 (I) 地区 西 (J) 地区 中 东 中 西 东 东 西 中 Tamhane 西 中 东 中 西 东 东 西 中 均值差 (I-J) * 标准误 显著性 .107 .004 .107 .118 .004 .118 .199 .054 .199 .436 .054 .436 下限 上限 .61 * *. 均值差的显著性水平为。
精选文档.
.
6.3 多因素单变量方差分析
同时研究多种因素对观测变量的影响,就是多因素方差分析。
例如,研究汽车销量问题,对汽车销量的影响很可能不仅受地区因素的影响,还受广告、居民收入以及消费偏好等其他因素的影响。 交互效应:各个因素不同水平的搭配所产生的新的影响。 主效应:各个因素对观测变量的单独影响。 SSTSSASSBSSABSSE SST:观测变量的总变动
SSA:因素A引起的观测变量的变动 SSB:因素B引起的观测变量的变动
SSAB:因素A和因素B的交互效应引起的观测变量的变动 SSE:随机因素引起的观测变量的变动
如果其中某种因素引起的观测变量的变动占观测变量总变动的比例足够大,则可以认为该因素变量对观测变量的影响是显著的。
MSASSA/(r1)FA
MSESSE/rs(l1)FBMSBSSB/(r1) MSESSE/rs(l1)MSABSSAB/(r1)(s1) MSESSE/rs(l1)FAB
固定效应、随机效应和协变量 根据可控性分为:固定效应、随机效应
精选文档.
.
固定效应:因素变量的各个水平可以严格控制,它们对观测变量的影响是固定的。如产品定价、广告类型。
随机效应:因素变量的各个水平无法严格控制,它们对观测变量的影响是随机的。如气候条件等。
协变量:像居民收入这样的无法控制其水平的连续型变量在方差分析中通常叫做协变量。 操作步骤
1. 提出零假设和备择假设。双因素方差分析可以同时检验两组或三组零假设和备择假设。
要说明因素A有无显著影响,就是检验如下假设: H0:因素A不同水平下观测变量的总体均值无显著差异。 H1:因素A不同水平下观测变量的总体均值存在显著差异。 要说明因素B有无显著影响,就是检验如下假设: H0:因素B不同水平下观测变量的总体均值无显著差异。 H1:因素B不同水平下观测变量的总体均值存在显著差异。
在有交互效应的双因素方差中,要说明两个因素的交互效应是否显著,还要检验第三组零假设和备择假设:
H0:因素A和因素B的交互效应对观测变量的总体均值无显著差异。 H1:因素A和因素B的交互效应对观测变量的总体均值存在显著差异。
多因素单变量方差分析操作步骤
Analyze——General Linear Model——Univariate
精选文档.
.
结果输出:
主体间因子
地区
1 2 3
广告
1 2 3
值标签 西 中 东
N
10 9 7
描述性统计量 8 8 10
因变量:销量 地区 西 广告 1 2 3 总计 均值 标准 偏差 N 3 4 3 10 精选文档.
.
中 1 2 3 总计 .000 3 2 4 9 2 2 3 7 8 8 10 26 东 1 2 3 总计 总计 1 2 3 总计 误差方差等同性的 Levene 检验a 因变量:销量 F df1 8 Df2 17 Sig. .054 检验零假设,即在所有组中因变量的误差方差均相等。 a. 设计 : 截距 + region + ad + region * ad 主体间效应的检验
因变量:销量 源 校正模型 截距 region ad region * ad 误差 总计 校正的总计
(以上三个之
和)
a. R 方 = .725(调整 R 方 = .595)
III 型平方和
a
df
8 1 2 2 4 17 26 25
均方
F
.508
Sig. .001 .000 .001 .001 .731
Model:用户建立的模型能够解释的变差。
有两种方法可以衡量用户建立的模型对观测变量的解释程度:一是通过观察Corrected Model对应的F统计量和p值;二是通过观察Corrected Model和Corrected Total对应变差的比值,即可决系数(R Squared)。
精选文档.
.
当引入的因素较多时,应该观察修正的可决系数(Adjusted R Squared)。本模型Corrected Model对应的F统计量为,p值为,可决系数为,说明模型整体对观测变量有一定的解释能力。
修正可决系数只有,说明模型的拟合程度还不够理想,可能还有某个显著影响销售量的变量没有引入进来。
概要文件图
不考虑交互效应的多因素方差分析
Analyze——General Linear Model——Univariate
输出结果:
精选文档.
.
主体间效应的检验
因变量:销量 源 校正模型 截距 region ad 误差 总计 校正的总计
III 型平方和
a
df
4 1 2 2 21 26 25
均方
F
Sig. .000 .000 .000 .000
a. R 方 = .692(调整 R 方 = .633)
引入协变量的多因素方差分析
Analyze——General Linear Model——Univariate
精选文档.
.
输出结果:
主体间效应的检验 因变量:销量 源 校正模型 截距 region ad income 误差 总计 校正的总计 III 型平方和 a df 5 1 2 2 1 20 26 25 均方 F .699 Sig. .000 .000 .509 .058 .015 a. R 方 = .772(调整 R 方 = .715)
第八章 相关分析
任何事物的存在都不是孤立的,而是相互联系、相互制约的。说明客观事物相互间关系的密切程度并用适当的统计指标表示出来,这个过程就是相关分析。
相关关系是不完全确定的随机关系。在存在相关关系的情况下,当一个或几个相互联系的变量取一定的值时,与之相应的另一变量的值虽然不确定,但它仍然按某种规律在一定范围内变化。
精选文档.
.
值得注意,事物之间有相关,不一定是因果关系,也可能仅是伴随关系。 按照数据度量尺度不同,相关分析方法分类: 连续变量(之间的相关性):Pearson简单相关系数 定序变量:Spearman秩相关系数或Kendall秩相关系数 定类变量:列联表分析法 连续变量的相关分析
|r |越接近于1,说明相关性越好;|r |越接近于0,说明
相关性越差。
在实际分析中,相关系数大都是利用样本数据计算的,因而带有一定的随机性,因此也需要对相关关系的显著性进行检验。 定序变量的相关分析
要用秩相关的非参数方法来实现
定类变量的相关分析
关于双尾检验与单尾检验的选择问题:
Two-tailed:双尾检验,如果事先不知道相关方向(正相关还是负相关),可以选择此项;
One-tailed:单尾检验,如果事先知道相关方向可以选择此项。
8.2 连续变量相关分析实例
例:上市公司财务分析
Analyze——Correlate——Bivariate
精选文档.
.
输出结果:
描述性统计量
资产收益率 净资产收益率 每股收益率 q
均值 .024768 .041942 .168933
标准差 .0475865 .1256143 .3176631 .25231
N 315 315 315 315
相关性 资产收益率 Pearson 相关性 显著性(双侧) 平方与叉积的和 协方差 N 净资产收益率 Pearson 相关性 显著性(双侧) 平方与叉积的和 协方差 N 每股收益率 Pearson 相关性 资产收益率 1 净资产收益率 .808** .000 每股收益率 .824** .000 .012 315 .877** .000 .035 315 1 q .011 .849 .041 .000 315 .983 .000 315 .711 .002 315 .808** .000 .005 315 .824** .005 315 1 .016 315 .877** 精选文档.
.
显著性(双侧) 平方与叉积的和 协方差 N q Pearson 相关性 显著性(双侧) 平方与叉积的和 协方差 N **. 在 .01 水平(双侧)上显著相关。 .000 .012 315 .011 .849 .041 .000 315 .000 .035 315 .983 .000 315 .101 315 .199 315 .199 315 1 .064 315 8.3 离散变量相关分析的实例(列联表)
Analyze——Descriptive Statistics——Crosstabs 补充:偏相关分析——Partial 过程
偏相关分析也称为净相关分析,它在控制其他变量的线性影响的条件下分析两变量间的线性相关,所采用的工具是偏相关系数(净相关系数)。 控制变量个数为1 时,偏相关系数称为一阶偏相关;当控制两个变量时,偏相关系数称为二阶偏相关;当控制变量的个数为零时,偏相关系数称为零阶偏相关,也就是简单相关系数。 Analyze——Correlate——Partial
输出结果:
相关性
精选文档.
.
控制变量
投入高级职称的人年数
课题总数
相关性 显著性(双侧) df
论文数
相关性 显著性(双侧) df
课题总数
. 0 .461 28
论文数
.461 28 . 0
距离分析——Distances过程
距离分析是用来描述同一变量内观测值之间或者是多个变量之间的相似或不相似程度的统计方法。
在距离分析中,通常用距离指标d来描述观测值或变量间的不相似程度,用相似指标来描述观测值或变量间的相似程度。
距离指标越小,说明两观测值或变量越近似;相似指标值越大,说明两观测值或变量越近似。
Analyze——Correlate——Distance
输出结果:
近似矩阵 Euclidean 距离 北京 天津 石家庄 沈阳 大连 长春 精选文档.
.
北京 天津 石家庄 沈阳 大连 长春 .000 .000 .000 .000 .000 .000 这是一个不相似性矩阵
第九章 回归分析
相关分析与回归分析的区别:
(1)相关分析研究的变量之间是对等的关系,而回归分析研究的变量有被解释变量和解释变量之分。
(2)相关分析研究的变量都是随机变量,而回归分析中被解释变量是随机变量,解释变量是非随机的。回归分析的一个重要目的就是通过给定的解释变量来预测被解释变量。
(3)相关分析不能指出变量间相互关系的具体形式,而回归分析可以通过一个数学表达式来确定变量之间相关的具体形式。 回归分析的一般步骤:
(1)确定回归方程中的解释变量和被解释变量 (2)做散点图,观察变量间的趋势,确定回归模型 (3)对回归系数进行估计,建立回归方程 (4)对回归方程进行各种检验 (5)利用回归方程进行预测 9.1 线性回归 (一)线性回归模型 数学模型:
yib0b1xi1b2xi2...bkxiki
使用普通最小二乘法(Ordinary Least Square ,OLS )对回归系数进行估计。
(二)回归方程的评价与检验 1 .回归方程的拟合优度检验
(被解释变量的总变动中能够被回归方程解释的变动) 最常用的指标是可决系数:可决系数、调整的可决系数 2 .回归方程整体显著性检验
精选文档.
.
用于检验被解释变量与所有解释变量之间的线性关系是否显著。 3 .回归系数显著性检验
通过t 统计量对每个回归系数的显著性进行检验 4 .残差正态性检验
可使用P-P、Q-Q 图、Kolmogorov-Smirnov检验法来完成 5 .序列相关性检验
若残差序列图呈随机走势,或散点图呈随机分布,则可以认为不存在序列相关;若残差序列图呈连续上升或连续下降的变化,或散点图中et和
et1呈正相关分布,则可以认为存在正的序列相关;若残差序列图呈升降
交替的变化,或散点图中et和et1呈负相关分布,则可以认为存在负的序列相关。 6 .异方差检验
异方差常常表现为残差随某个解释变量取值的变化而变化,因此,检验随机扰动项是否存在异方差可以通过绘制被解释变量与解释变量的散点图来简单地判断。
若散点图呈带状分布,则不存在异方差;若随着解释变量的增大,被解释变量波动逐渐增大或减小,则很可能存在异方差现象。 7 .多重共线性检验(▲) 检验多重共线性的方法:
(1)容忍度(tolerance )(越小,存在多重共线性) (2)方差膨胀因子(VIF)
方差膨胀因子是容忍度的倒数,方差膨胀因子大于10 时,就认为存在多重共线性。
(3)特征根(Eigenvalue )与方差比(Variance Proportions) 若最大特征根的值远远大于其他特征根的值,说明解释变量间存在多重共线性。
通过对解释变量协方差矩阵进行矩阵分解,每个特征根可以解释各个解释变量方差的一部分。若对于几个不同的解释变量,某个特征根能够解释的方差比例都很高(一般认为都超过50%),则可以认为这几个解释变量之间存在较强的共线性。
(4)条件指数(Condition Index )
精选文档.
.
一般认为,条件指数大于10 时,则可能存在共线性问题;若条件指数大于100 时,则存在严重的共线性问题。 (三)解释变量的筛选问题 (1)Enter
将所有变量全部引入模型中。 (2)Remove
建立模型时,根据设定的条件剔除部分解释变量。 (3)Forward
向前筛选法
与被解释变量有最大相关的变量首先进入方程,如果该解释变量没有通过F 检验,则变量筛选过程结束,方程中没有引入任何变量;如果通过 F 检验,则在剩余的变量中寻找具有最大偏相关系数的变量,将其引入方程,并再次进行 F 检验,如果通过检验,则保留该变量在模型中,并继续寻找下一个候选变量,否则变量筛选过程结束,方程中仅有一个解释变量;依次类推,直至所有满足判据的变量都被引入到模型为止。 (4)Backward
向后筛选法
与向前筛选法的顺序相反,向后筛选法首先将所有变量都引入模型,然后剔除最不显著的变量。如果剩余变量都通过显著性检验,则变量筛选过程结束;否则按同样的标准继续剔除不显著的变量,直至剩余的解释变量都满足显著性检验为止。 (5)Stepwise
逐步筛选法,是向前筛选法与向后筛选法的结合
每一次按照向前筛选法的标准引入变量后,都要按照向后筛选法的标准对已经引入的所有变量进行检验,剔除掉由于新变量的引入而变得不再显著的变量。
线性回归(操作步骤)
例子: 中国电信业务总量的计量模型 经初步分析,影响中国电信业务总量(y )变化的主要因素是邮政业务总量(X1)、总人口数(X2 )、市镇人口占总人口的比重(X3)、人均GDP(X4 )、全国居民人均消费水平(X5 )。
1.多重共线性检验
Analyze—Regression—Linear
精选文档.
.
(其他为默认值) 输出结果:
Variables Entered/Removedb Variables
Model 1
Entered 人均消费水平, 市镇人口比重, 邮政业务总量, 中国人口数, 人均GDP
a. All requested variables entered. b. Dependent Variable: 电信业务总量
Variables Removed
Method . Enter
Model Summary Adjusted R Model 1 R .996a R Square .992 Square .978 Std. Error of the Estimate a. Predictors: (Constant), 人均消费水平, 市镇人口比重, 邮政业务总量, 中国人口数, 人均GDP ANOVAb
Model 1
Regression Residual Total
Sum of Squares
df
5 3 8
Mean Square
F
Sig. .002a
a. Predictors: (Constant), 人均消费水平, 市镇人口比重, 邮政业务总量, 中国人口数, 人均GDP b. Dependent Variable: 电信业务总量
Coefficientsa
精选文档.
.
Standardized Unstandardized Coefficients Model 1 (Constant) 邮政业务总量 中国人口数 市镇人口比重 人均GDP 人均消费水平 a. Dependent Variable: 电信业务总量 B Std. Error Coefficients Beta t .589 .359 Sig. .803 .112 .744 .498 .628 .990 Collinearity Statistics Tolerance VIF .005 .001 .009 .001 .001 模型整体显著而单个系数不能通过t检验,这正是解释变量之间存在多重共线性的常见特征 Collinearity Diagnosticsa(多重共线性诊断) Variance Proportions EigenvalCondition (ConstanDimensioModel 1 n 1 2 3 4 5 6 ue(特征Index(条t)(方差比邮政业务根) .174 .006 .000 件指数) 例) .00 .00 .00 .00 .01 .99 总量 .00 .00 .07 .01 .16 .77 中国人口数 .00 .00 .00 .00 .00 市镇人口比重 .00 .00 .00 .02 .38 .60 人均GDP .00 .00 .00 .22 .58 .20 人均消费水平 .00 .00 .00 .32 .65 .02 a. Dependent Variable: 电信业务总量 从方差比例上看,第5 个特征根解释了人均GDP方差的58%,同时解释了人均消费水平方差的65%,说明这两个变量之间可能存在多重共线性;第 6 个特征根同时解释了邮政业务总量方差的77%、人口总数方差的100% 和市镇人口比重方差的60%,说明这3 个变量之间可能存在多
精选文档.
.
重共线性。
Analyze—Regression—Linear
Variables Entered/Removedb Variables Model 1 Entered 人均消费水平, 市镇人口比重, 邮政业务总量, 中国人口数, 人均GDP 2 . 人均消费水平 Backward (criterion: Probability = .100). of F-to-remove >Variables Removed Method . Enter 精选文档.
.
3 . 中国人口数 Backward (criterion: Probability = .100).
of
F-to-remove >
4 . 市镇人口比重 Backward (criterion: Probability = .100).
of
F-to-remove >
a. All requested variables entered. b. Dependent Variable: 电信业务总量
Model Summary
Adjusted R
Model 1 2 3 4
R .996a .996b .996c .994d
R Square
.992 .992 .991 .989
Square
.978 .984 .986 .985
Std. Error of the
Estimate
a. Predictors: (Constant), 人均消费水平, 市镇人口比重, 邮政业务总量, 中国人口数, 人均GDP
b. Predictors: (Constant), 市镇人口比重, 邮政业务总量, 中国人口数, 人均GDP
c. Predictors: (Constant), 市镇人口比重, 邮政业务总量, 人均GDP d. Predictors: (Constant), 邮政业务总量, 人均GDP
精选文档.
.
ANOVAe Model 1 Regression Residual Total 2 Regression Residual Total 3 Regression Residual Total 4 Regression Residual Total Sum of Squares df 5 3 8 4 4 8 3 5 8 2 6 8 Mean Square F Sig. .002a .000b .000c .000d a. Predictors: (Constant), 人均消费水平, 市镇人口比重, 邮政业务总量, 中国人口数, 人均GDP b. Predictors: (Constant), 市镇人口比重, 邮政业务总量, 中国人口数, 人均GDP c. Predictors: (Constant), 市镇人口比重, 邮政业务总量, 人均GDP d. Predictors: (Constant), 邮政业务总量, 人均GDP e. Dependent Variable: 电信业务总量 Coefficientsa Standardized Unstandardized Coefficients Model 1 (Constant) 邮政业务总量 中国人口数 市镇人口比重 人均GDP 人均消费水平 2 (Constant) 邮政业务总量 中国人口数 市镇人口比重 人均GDP 3 (Constant) 邮政业务总量 市镇人口比重 人均GDP B Std. Error .998 Coefficients Beta t .589 .359 .591 .419 .999 Sig. .803 .112 .744 .498 .628 .990 .762 .041 .697 .407 .133 .364 .000 .255 .007 Collinearity Statistics Tolerance VIF .005 .001 .009 .001 .001 .006 .001 .010 .008 .050 .043 .054 精选文档.
.
4 (Constant) 邮政业务总量 人均GDP .900 .000 .000 .001 .073 .073 a. Dependent Variable: 电信业务总量 Collinearity Diagnosticsa Variance Proportions EigenvaluModel Dimension 1 1 2 3 4 5 6 2 1 2 3 4 5 3 1 2 3 4 4 1 2 3 e .174 .006 .000 .138 .005 .116 .005 .087 .005 Condition Index (Constant) .00 .00 .00 .00 .01 .99 .00 .00 .00 .01 .99 .00 .00 .00 .01 .96 .02 邮政业务总量 .00 .00 .07 .01 .16 .77 .00 .00 .08 .03 .89 .00 .02 .67 .32 .00 .02 .98 中国人口数 .00 .00 .00 .00 .00 .00 .00 .00 .00 市镇人口比重 .00 .00 .00 .02 .38 .60 .00 .00 .00 .25 .75 .00 .00 .00 人均GDP .00 .00 .00 .22 .58 .20 .00 .00 .10 .03 .87 .00 .01 .72 .26 .00 .01 .98 人均消费水平 .00 .00 .00 .32 .65 .02 a. Dependent Variable: 电信业务总量
二、曲线估计(操作步骤)
Analyze—Regression—Curve Estimation
精选文档.
.
输出结果:
Model Summary Adjusted R R .840 R Square .705 Square .705 Std. Error of the Estimate .185 The independent variable is Horsepower. ANOVA Regression Residual Total Sum of Squares df 1 390 391 Mean Square .034 F Sig. .000 The independent variable is Horsepower. Coefficients Standardized ln(Horsepower) (Constant) Unstandardized Coefficients B Std. Error .027 Coefficients Beta t Sig. .000 .000 The dependent variable is ln(Miles per Gallon). 精选文档.
.
二项Logistic回归(考) 二项Logistic模型的评价和检验 1 .回归方程整体显著性的检验
H0:01...k0
(1)对数似然比检验
若p 值小于给定的显著性水平,则拒绝原假设,认为回归方程整体显著。 (2)Hosmer-Lemeshow检验
若p 值小于给定的显著性水平,则拒绝原假设,认为回归方程整体显著。 2 .回归系数显著性检验 使用Wald统计量进行检验。 原假设是j0
若p值小于给定的显著性水平 ,则拒绝原假设,认为第j个回归系数显著不为0 。
3 .模型拟合优度评价
常用统计量:Cox-Snell R2统计量和Nagelkerke R2统计量。 Cox-Snell R2统计量:值越大,表明模型的拟合优度越高。
Cox-Snell R2统计量的缺点:其取值范围无法确定,不利于不同模型之间的比较。
精选文档.
.
Nagelkerke R2统计量(Cox-Snell R2统计量的改进)的取值范围为0~1 ,其值越接近于1 表明模型拟合优度越高,越接近于0 表明模型拟合优度越低。 4 .错判矩阵 总体正确率
f11f22代表了预测正确的样本所占比例,该值越大
f11f12f21f22表明模型的预测能力越高。
二项Logistic回归(操作步骤)
例:为了研究上市公司发生财务困境的可能性,以“是否被ST”为被解释变量,以被ST两年前的各项财务指标为解释变量。 Analyze—Regression—Binary Logistic 分析——回归——二元Logistic
精选文档.
.
输出结果:
案例处理汇总
未加权的案例a 选定案例
包括在分析中 缺失案例
N 140 0
百分比
.0
精选文档.
.
总计 未选定的案例 总计 140 0 140 .0 a. 如果权重有效,请参见分类表以获得案例总数。 因变量编码 初始值 非ST ST
内部值
0 1
块 0: 起始块
分类表a,b
步骤 0
已预测
是否st
已观测 是否st
非ST ST
总计百分比
非ST
0 0
ST
70 70
百分比校正
.0
a. 模型中包括常量。 b. 切割值为 .500
方程中的变量 步骤 0 常量 B .000 S.E, .169 Wals .000 df 1 Sig. Exp (B) 不在方程中的变量
步骤 0
变量
x1 x2 x3
总统计量
得分
df
1 1 1 3
Sig. .000 .000 .000 .000
块 1: 方法 = 输入
模型系数的综合检验(整体显著性检验)
步骤 1
步骤 块 模型
卡方
df
3 3 3
Sig. .000 .000 .000
精选文档.
.
模型汇总(模型拟合优度)
Cox & Snell R
步骤 1
-2 对数似然值
a
方
.457
Nagelkerke R 方
.610
a. 因为参数估计的更改范围小于 .001,所以估计在迭代次数 6 处终止。
= Hosmer 和 Lemeshow 检验 =(整体显著性检验) 步骤 1
卡方
df
8
Sig.
.028
Hosmer 和 Lemeshow 检验的随机性表(整体显著性检验)
步骤 1
1 2 3 4 5 6 7 8 9 10
是否st = 非ST 已观测
13 14 14 11 10 3 1 1 2 1
期望值
.858 .213
是否st = ST 已观测
1 0 0 3 4 11 13 13 12 13
期望值
.210 .973
总计
14 14 14 14 14 14 14 14 14 14
(上:列联表)
分类表a(错判矩阵)
步骤 1
已预测
是否st
已观测 是否st
非ST ST
总计百分比
非ST
61 8
ST
9 62
百分比校正
a. 切割值为 .500
方程中的变量(回归系数显著性)
步骤 1a
x1 x2
B
S.E,
.991
Wals
df
1 1
Sig. .002 .022
Exp (B)
.104
精选文档.
.
x3 常量 .852 1 1 .000 .049 .000 .186 a. 在步骤 1 中输入的变量: x1, x2, x3. 方程中的变量(回归系数显著性)解析:
p(1)ln1.6815.13x12.266x227.327x3
1p(2)Exp(B)指第j 个解释变量增加一单位导致发生比变动倍数ej的估计值。
(3)从回归系数的符号看,负债比率与上市公司被ST的概率呈正相关,总资产周转率和总资产利润率与上市公司被ST的概率呈负相关。 (4) 3 个系数对应的p 值均小于0.05 ,都能通过显著性检验。 (5) 3 个解释变量都是相对指标,在实际中并没有增加一个单位的可能,所以,中给出的ej并没有实际的指导意义。
(6)第j 个解释变量增加0.01 单位导致发生比变为原来的e(7)3 个解释变量对应的e0.01j0.01j倍。
指标分别为1.05 、0.98 和0.76 。
(8)上市公司资产负债率增加一个百分点,将导致公司出现财务困境的概率变为原来的1.05 倍。
(9)总资产周转率增加一个百分点,将导致公司出现财务困境的概率变为原来的0.98 倍。
(10)总资产利润率增加一个百分点,将导致公司出现财务困境的概率变为原来的0.76 倍。
第十章 聚类分析
K-均值聚类法和系统聚类法的联系与区别:
K-均值聚类法和系统聚类法都一样,都是以距离的远近亲疏为标准进行聚类的,但是两者的不同之处也是明显的:系统聚类对不同的类数产生一系列聚类结果,而K-均值法只能产生指定类数的聚类结果。 10.3 K-均值聚类法
K-均值操作步骤:
Analyze——Classify——K-Means Cluster
精选文档.
.
“迭代”为(默认值)
精选文档.
.
输出结果:
初始聚类中心
第一产业产值 第二产业产值 第三产业产值
聚类
1
2
3
迭代历史记录 聚类中心内的更改
迭代 1 2 3
1
.000 2
.000 .000 3
.000 a
a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 3。初始中心间的最小距离为。
聚类成员
案例号 1 2 3 4 5 6
地区 北 京 天 津 河 北 山 西 内蒙古 辽 宁
聚类
3 2 3 2 2 3
距离
精选文档.
.
7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
吉 林 黑龙江 上 海 江 苏 浙 江 安 徽 福 建 江 西 山 东 河 南 湖 北 湖 南 广 东 广 西 海 南 重 庆 四 川 贵 州 云 南 西 藏 陕 西 甘 肃 青 海 宁 夏 新 疆
2 3 3 1 1 3 3 2 1 3 3 3 1 2 2 2 3 2 2 2 2 2 2 2 2
最终聚类中心
第一产业产值 第二产业产值 第三产业产值
聚类
1
2
3
最终聚类中心间的距离
聚类 1 2 3
1(达到) 2(欠发达) 3(中等)
ANOVA
精选文档.
.
第一产业产值 第二产业产值 第三产业产值 聚类 均方 df 2 2 2 均方 误差 df 28 28 28 F Sig. .000 .000 .000 F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。 每个聚类中的案例数 聚类
1 2 3
有效 缺失
.000
10.4 系统聚类法的实例
系统聚类法操作步骤
Analyze——Classify——Hierachical Cluster
精选文档.
.
精选文档.
.
输出结果:
聚类
平均联结(组之间)
精选文档.
.
群集成员
案例 1: 1 2: 2 3: 3 4: 4 5: 5 6: 6 7: 7 8: 8 9: 9 10: 10 11: 11 12: 12 13: 13 14: 14 15: 15 16: 16 17: 17 18: 18 19: 19 20: 20
2 2 2 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 4 3 2 2 2 2 4 3 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 2 2 2 3 2 2 2 2 2 1 1 1 4 群集
1 3 群集
1 2 群集
1 精选文档.
.
第十一章 判别分析
判别分析的概念:
判别分析是多元统计分析中用于判别样本所属类型的一种统计方法。它要解决的问题是在一些已知研究对象用某种方法已分成若干类的情况下,确定新的观察数据属于已知类别中的哪一类。
判别分析与聚类分析不同:
判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。对于聚类分析来说,一批给定样品要划分的类型事先并不知道,需要通过聚类分析来加以确定。
正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。
四种常用的判别方法 距离判别法
精选文档.
.
Fisher判别法 Bayes判别法 逐步判别法
三、费歇尔(Fisher)判别法
Fisher判别法是Fisher于1936年提出来的,该方法对总体的分布并无特定的要求。
四、贝叶斯(Bayes)判别法
贝叶斯判别法首先计算待判样品属于各个总体的条件概率,比较这k个概率的大小,然后将新样品判归为来自概率最大的总体,这种判别法称为Bayes判别法。 11.3 判别分析实例
例子:使用Fisher判别法和Bayes判别法对上市公司是否可能发生财务困境进行判别。
数据:145家上市公司的财务数据,其中有140家已知分类情况,5家上市公司为待判样品。
操作步骤
Analyze——Classify——Discriminant 分析——分类——判别
精选文档.
.
输出结果:
精选文档.
.
判别
分析案例处理摘要
未加权案例 有效 排除的
缺失或越界组代码 至少一个缺失判别变量 缺失或越界组代码还有至少一个缺失判别变量 合计
合计
5 145
N 140 5 0 0
百分比
.0 .0
组统计量 有效的 N(列表状态) 是否st 非ST 资产负债率 总资产周转率 总资产利润率 ST 资产负债率 总资产周转率 总资产利润率 合计 资产负债率 总资产周转率 总资产利润率 未加权的 70 70 70 70 70 70 140 140 140 已加权的
分析 1
典型判别式函数摘要
特征值 函数 1 特征值 .746 a方差的 % 累积 % 正则相关性 .654 a. 分析中使用了前 1 个典型判别式函数。 Wilks 的 Lambda
Wilks 的
函数检验 1
Lambda
.573 卡方
df
3 Sig. .000
精选文档.
.
标准化的典型判别式函数系数
资产负债率 总资产周转率 总资产利润率
函数 1
.329 .721
结构矩阵
总资产利润率 资产负债率 总资产周转率
函数 1 .856 .415 判别变量和标准化典型判别式函数之间的汇聚组间相关性 按函数内相关性的绝对大小排序的变量。
典型判别式函数系数
资产负债率 总资产周转率 总资产利润率 (常量) 非标准化系数
函数 1
组质心处的函数
函数
是否st 非ST ST
1 .858 在组均值处评估的非标准化典型判别式函数
分类统计量
分类处理摘要
已处理的 已排除的
缺失或越界组代码 至少一个缺失判别变量
145 0 0
精选文档.
.
分类处理摘要
已处理的 已排除的
缺失或越界组代码 至少一个缺失判别变量
用于输出中
145 0 0 145
组的先验概率
用于分析的案例
是否st 非ST ST 合计
先验 .500 .500 未加权的
70 70 140 已加权的
分类函数系数
资产负债率 总资产周转率 总资产利润率 (常量)
是否st 非ST
ST
Fisher 的线性判别式函数
第一组:y1=+x1+x2+x3 第二组:y2=+x1+x2x3
将各样品的变量值代入上述两个Bayes判别函数,得到两个函数值。比较两个函数值,哪个函数值大就可以判断该样品应判入哪一类。
例如:本例中第一个待判样品公司——“国投电力”的自变量值分别为
将其带入判别函数,得到 y1
比较两值y1>y2,据此得出第一个判别样品应该属于第一组,即非ST类。
分类结果(错判矩阵)
a
初始
计数
预测组成员
是否st 非ST ST
未分组的案例
非ST
59 9 4 ST
11 61 1 合计
70 70 5 精选文档.
.
% 非ST ST 未分组的案例 a. 已对初始分组案例中的 85.7% 个进行了正确分类。
Dis-1:判别样品所属组别的值;
Dis1-1:将样品各变量值带入判别函数所得的fisher判别函数值;
Dis1-2 和Dis2-2:分别代表样品属于第一组和第二组的Bayes后验概率值。
第十二章 因子分析
主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。
主成分分析:原始变量的线性组合表示新的综合变量,即主成分。 因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。
12.1 因子分析的理论与方法 因子分析的基本思想
因子分析的基本思想是把每个研究变量分解为几个影响因素变量,将每个原始变量分解成两部分因素,一部分是由所有变量共同具有的少数几个公共因子(F)组成的,另一部分是每个变量独自具有的因素,即特殊因子()。
因子分析的数学模型
X1a11a12Xaa22221Xapp1ap2或XAF A为因子载荷阵
a1mF11a2mF22Fapmmp精选文档.
.
因子载荷阵的求解(主成分分析法) 步骤:
2.计算协差阵的特征根为12...p0,相应的单位特征向量
T1,T2,...Tp
的特征根和特征向量计算因子载荷阵: A(1T1,2T2,...,pTp)
提取前m个特征根和对应的特征向量,构成仅包含m个因子的因子载荷阵:
A(1T1,2T2,...,mTm) 因子载荷阵的统计意义 (1)因子载荷
因子载荷aij是第i个变量(Xi)与第j个公共因子(Fj)的相关系数。反映了Xi与Fj的相关性,它一方面表示Xi对Fj的依赖程度,绝对值越大,密切程度越高,另一方面也反映了变量Xi对公共因子Fj的相对重要性。
(2)变量共同度
变量Xi的共同度是因子载荷矩阵的第i行的元素的平方和。记为
2haij。 2ij1mVar(Xi)ai21Var(F1)2ai21...aimVar(i)2aimVar(Fm)Var(i)
hi2i2上式表明,变量Xi的方差由两部分组成:第一部分为共同度hi,它描述了全部公共因子对变量Xi的方差贡献率,反映了变量Xi的方差中能够被全体因子解释的部分。第二部分为特殊因子i对变量Xi的方差的贡献率,也就是变量的方差中没有被全体因子解释的部分。变量共同度越高,说明该因子分析模型的解释能力越高 (3)因子的方差贡献
因子载荷矩阵中各列元素的平方和
2Sjaij
i1p2称为所有Fj(j1,要性的一个尺度。
,m)对
Xi的方差贡献和。它是衡量每一个因子相对重
精选文档.
.
因子旋转(正交变换) (一)为什么要进行因子旋转
进行因子分析的数学目的不仅仅要找出公共因子以及对变量进行分组,更重要的要知道每个公共因子的意义,以便进行进一步的分析,如果每个公共因子的含义不清,则不便于进行实际的解释。
因子旋转的目的是使因子载荷阵的结构简化,使各个因子的载荷值尽可能地向0和1两个极值转化。
因子分析的步骤
1. 选择分析的变量
用定性分析和定量分析的方法选择变量,因子分析的前提条件是观测变量间有较强的相关性。如果变量之间无相关性或相关性较小的话,它们不会有公共因子。 因子分析的前提条件:
计算相关系数矩阵
计算反映像相关矩阵(Anti-image correlation matrix) 巴特利特球度检验(Bartlett test of sphericity) KMO(Kaiser-Meyer-Olkin)检验
反映象相关矩阵(Anti-image correlation matrix)
观察反映象相关矩阵,如果反映象相关矩阵中除主对角元素外,其他大多数元素的绝对值均较小,对角线上元素的值较接近1,则说明这些变量的相关性较强,适合进行因子分析。 巴特利特球度检验(Bartlett test of sphericity) H0:相关系数矩阵是一个单位阵
如果概率p值小于用户指定的显著性水平,拒绝原假设,适合作因子分析。
反之,接受原假设,不适合作因子分析。 KMO(Kaiser-Meyer-Olkin)检验
Kaiser给出了常用的KMO度量标准:以上表示非常适合;表示适合;表示一般;表示不太适合;以下表示极不适合。 2. 将原始变量数据标准化
3. 求解标准化变量的相关系数矩阵
4. 求解相关系数矩阵R的特征根、特征向量和贡献率 5.提取公共因子
这一步要确定因子求解的方法和因子的个数。需要根据研究者的设计方案或有关的经验或知识事先确定。因子个数的确定可以根据因子方差的大小,只取方差大于1(或特征值大于1)的那些因子,因为方差小于1
精选文档.
.
的因子其贡献可能很小。或者按照因子方差累积贡献率大于80%的原则。
6.因子旋转
通过坐标变换使每个原始变量在尽可能少的因子之间有密切的关系,这样因子解的实际意义更容易解释,并为每个潜在因子赋予有实际意义的名字。
7.计算因子得分
有了因子得分值,则可以在许多分析中使用这些因子,例如进行多指标综合评价、以因子的得分做聚类分析的变量、做回归分析中的解释变量。
多指标综合评价
ˆviFˆ vb2 Fiijii1i1ppm其中,bij为旋转后的因子载荷
操作步骤
例:2003年沪、深两市48家上市公司的13个财务指标数据。
Analyze——Data Reduction——Factor 分析——降维——因子分析
精选文档.
.
精选文档.
.
输出结果:
因子分析
表(1)(2)给出了原始变量之间的相关检验结果。
精选文档.
.
相关矩阵(1) 相关 (相流动比率 关系数矩速动比率 阵) 总资产周转率 存货周转率 营运资本 每股收益 净利润增长率 每股收益增长率 主营业务毛利率 主营业务利润率 成本费用利润率 净资产收益率 总资产利润率 Sig.(单流动比率 侧)(相关速动比率 系数显著总资产周转率 性检验的存货周转率 p值) 营运资本 每股收益 净利润增长率 每股收益增长率 主营业务毛利率 主营业务利润率 成本费用利润率 总资产周转流动比率 速动比率 .861 .733 .127 .112 .153 .084 .158 .240 .177 .172 .861 .105 .082 .917 .351 .261 .263 .233 .345 .427 .378 .409 .000 率 .105 .746 .136 .602 .327 .337 .357 .397 .587 .581 .359 .240 .240 .289 .000 .007 .036 .036 .055 .008 .001 存货周转率 营运资本 每股收益 .082 .746 .121 .522 .306 .319 .009 .318 .408 .538 .541 .130 .289 .000 .000 .178 .000 .012 .010 .455 .006 .003 .733 .917 .136 .121 .354 .266 .242 .192 .307 .367 .348 .393 .000 .000 .178 .206 .206 .000 .017 .014 .477 .014 .002 .127 .351 .602 .522 .354 .598 .560 .470 .777 .777 .933 .952 .194 .007 .000 .000 .007 .007 .034 .049 .095 .017 .005 净利润增长率 .112 .261 .327 .306 .266 .598 .958 .197 .363 .464 .625 .565 .224 .036 .012 .017 .034 .000 .000 .000 .000 .000 .000 精选文档.
每股收益增长率 .153 .263 .337 .319 .242 .560 .958 .223 .293 .533 .633 .546 .150 .036 .010 .014 .049 .000 .000 主营业务毛利率 .084 .233 .009 .192 .470 .197 .223 .499 .643 .530 .553 .285 .055 .455 .477 .095 .000 .090 .064 主营业务利润率 .158 .345 .357 .318 .307 .777 .363 .293 .499 .819 .834 .819 .142 .008 .006 .014 .017 .000 .006 .022 .000 成本费用利润率 .240 .427 .397 .408 .367 .777 .464 .533 .643 .819 .906 .867 .050 .001 .003 .002 .005 .000 .000 .000 .000 .000 净资产收益率 .177 .378 .587 .538 .348 .933 .625 .633 .530 .834 .906 .965 .114 .004 .000 .000 .008 .000 .000 .000 .000 .000 .000 总资 .000 .359 .130 .000 .194 .224 .150 .285 .142 .050 .000 .090 .006 .000 .064 .022 .000 .000 .000 .000 . 净资产收益率 总资产利润率 .114 .121 .004 .002 .000 .000 .000 .000 .008 .003 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 精选文档.
.
KMO 和 Bartlett 的检验(2)
取样足够度的 Kaiser-Meyer-Olkin 度量。 Bartlett 的球形度检验
近似卡方 df Sig.
.718
78 .000
公因子方差(3)
流动比率 速动比率 总资产周转率 存货周转率 营运资本 每股收益 净利润增长率 每股收益增长率 主营业务毛利率 主营业务利润率 成本费用利润率 净资产收益率 总资产利润率
初始
提取
.877 .965 .858 .825 .878 .890 .973 .980 .784 .809 .885 .974 .956
提取方法:主成份分析。
解释的总方差(4)
初始特征值
方差
成份 1 2 3 4 5 6 7 8 9 10 11 12 13
合计
.443 .286 .263 .149 .106 .044 .031 .017 .006
的 %
.819 .336 .239 .127 .046
累积 %
合计
提取平方和载入
方差的 %
累积 %
合计
旋转平方和载入
方差的 %
累积 %
提取方法:主成份分析。
精选文档.
.
成份矩阵a(5)(旋转前的因子载荷阵)
1
净资产收益率 总资产利润率 每股收益 成本费用利润率 主营业务利润率 净利润增长率 每股收益增长率 总资产周转率(X3) 存货周转率 流动比率(X1) 速动比率(X2) 营运资本 主营业务毛利率 提取方法 :主成份。 a. 已提取了 4 个成份。
.970 .957 .924 .894 .802 .678 .676 .581 .542 .309 .543 .519 .529
2
成份
3 .869 .793 .735 .062
.364 .366 .419 .393 .148 .155 .206
4 .008 .088 .056 .006 .151
.424 .418 .055 .131 .160
X10.309F10.869F20.148F30.055F4 X20.543F10.793F20.155F30.131F4 X30.581F10.406F20.419F30.424F4 … …
精选文档.
.
旋转成份矩阵a(6)(旋转后的因子载荷阵)
1
成本费用利润率 主营业务利润率 主营业务毛利率 总资产利润率 净资产收益率 每股收益 速动比率 流动比率 营运资本 总资产周转率 存货周转率 每股收益增长率 净利润增长率 提取方法 :主成份。
.848 .845 .843 .793 .782 .724 .221 .047 .174 .183 .176 .232 .236
2
成份
3
.214 .157 .032 .193 .163 .150 .950 .925 .909 .013
.110 .104
.235 .255
.445 .431 .470 .051
.109 .895 .880 .157 .166
4 .254 .069 .049 .302 .387 .350 .104 .050 .101 .152 .134 .943 .938
旋转法 :具有 Kaiser 标准化的正交旋转法。 a. 旋转在 5 次迭代后收敛。
成份转换矩阵(7)
成份 1 2 3 4
1 .724
.028
2 .334 .891 .246 .185
3 .423
.529 .598
4 .430
.440
提取方法 :主成份。
旋转法 :具有 Kaiser 标准化的正交旋转法。
成份(因子)得分系数矩阵(8)
1
流动比率 速动比率 总资产周转率 存货周转率 营运资本 每股收益 净利润增长率 每股收益增长率 主营业务毛利率
.135
.384
2
成份
3
.374 .370 .016
.360
.016 .477 .469 .058 .097
4
.015 .554 .560
精选文档.
.
主营业务利润率 成本费用利润率 净资产收益率 总资产利润率 提取方法 :主成份。
.274 .239 .158 .172
.058 .080
.035
旋转法 :具有 Kaiser 标准化的正交旋转法。 构成得分。
F10.069X10.042X20.115X30.105X40.067X50.135X60.112X70.114X80.384X90.274X100.239X110.158X120.172X13F20.374X10.370X20.016X30.008X40.360X50.020X60.037X70.035X80.096X90.021X100.011X110.025X120.007X13F3... F1...
成份(因子)得分协方差矩阵(9) 成份 1 2 3 4 1 .000 .000 .000 2 .000 .000 .000 3 .000 .000 .000 4 .000 .000 .000 提取方法 :主成份。 旋转法 :具有 Kaiser 标准化的正交旋转法。 构成得分。
第十三章 主成分分析
(原始数据标准化后的线性组合) 主成分分析的概念
• 主成分分析是把原来多个变量转化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。 • 即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。
我们进行主成分分析的目的之一是希望用尽可能少的主成分F1,F2,…,Fk(k≤p)代替原来的p个指标。到底应该选择多少个主成分,在实际工作中,主成分个数的多少取决于能够反映原来变量85%以上的信息量
精选文档.
.
为依据,即当累积贡献率≥85%时的主成分的个数就足够了。最常见的情况是主成分为2到3个。 利用SPSS进行主成分分析的步骤 1.指标数据的标准化。
(1)可以利用“Descriptive statistics”中的“Descriptives”进行标准化。
(2)也可以不进行标准化,SPSS在进行主成分分析时会自动进行标准化。
2. 指标之间的相关性判定:用SPSS软件中的表“Correlation Matrix”(相关系数矩阵)判定。
3. 确定主成分个数 k:用SPSS软件中表“Total Variance Explained”(总方差解释)的主成分方差累计贡献率≥85%或80%确定主成分个数k。
4.确定主成分Fi的表达式:将表“Component Matrix”(初始因子载荷阵)中的第i列向量除以第i个特征根的平方根,得到第i个主成分Fi的变量系数向量。
5. 对主成分Fi进行解释。
例:为了研究中国2005年第1、2季度31个省、自治区、直辖市城镇居民家庭收支基本情况,收集了以下5个指标: ——X1:平均每户人口(人) ——X2:平均每户就业人口(人) ——X3:平均每一就业者负担人数(人) ——X4:平均每人实际收入(元) ——X5:平均每人消费性支出(元)
13.2 操作步骤
Analyze——Data Reduction——Factor 分析——降维——因子分析
精选文档.
.
精选文档.
.
输出结果:(要提取因子数设为2)
因子分析
相关矩阵
相关
x1 x2 x3 x4 x5
Sig.(单侧)
x1 x2 x3 x4 x5
x1
.530 .242
.038
x2 .530
.319 .357 .001
x3 .242
.095 .000
x4
.319
.968 .393 .040 .009
x5 .038 .357
.968
.419 .024 .013 .000
.001 .095 .393 .419
.000 .040 .024
.009 .013
.000
公因子方差
x1 x2 x3 x4
初始
提取
.876 .876 .536 .852
精选文档.
.
x5 .826
提取方法:主成份分析。
解释的总方差
初始特征值
成份 1 2 3 4 5
合计
.961 .047 .027
方差的 %
.932 .535
累积 %
合计
提取平方和载入 方差的 %
累积 %
提取方法:主成份分析。
成份矩阵a
x1 x2 x3 x4 x5
成份
1(a1)
.121 .708
.873 .882
2(a2)
.928 .612 .125
提取方法 :主成份。 a. 已提取了 2 个成份。
根据因子载荷矩阵中的数据计算特征向量矩阵。 方法1:Transform—Compute 方法2:在Excel中计算
t1=a1/sqrt(); t2=a2/sqrt() X1 X2 X3 X4 X5 t1 .075 .441 .544 .550 t2 .787 .519 .106 F10.075X10.441X20.450X30.544X40.550X5 F20.787X10.519X20.106X30.254X40.187X5
精选文档.
.
由于是以相关系数矩阵为出发点进行因子分析,所以,主成分表达式中的各变量X1~X5应该是经过标准化变换后的标准变量。
(1)数据标准化
Analyze——Descriptive Statistics——Descriptives
求出标准化后的zx1,zx2,…,zx5.
(2)再次调用Compute命令,调出Compute Variable对话框,分别输入等式:
F10.075ZX10.441ZX20.450ZX30.544ZX40.550ZX5 F20.787ZX10.519ZX20.106ZX30.254ZX40.187ZX5
就可以计算得到两个主成分。
第十四章 相应分析
总结 方法原理
将数据整理为交叉表,进行变量变换。
分别对行变量和列变量进行因子分析,得到各自的因子分解方式和各类别的评分。
将行、列变量的因子分析结果结合起来观察,研究两变量各级别的关系。 要点:
是多维图示分析技术的一种
与因子分析有关(分类资料的因子分析)
通过图形直观展示两个/多个分类变量各类间的关系 研究较多分类变量间关系时较佳 各个变量的类别较多时较佳 结果直观、简单
精选文档.
.
14.2相应分析实例(操作步骤)
操作步骤:
(例)美国大选的部分数据,要求对选民的最高学历水平和所支持的总统候选人进行相关分析
Analyze—Data Reduction—Correspondence Analysis
精选文档.
.
输出结果:
对应表(二维列联表)
RS HIGHEST DEGREE
VOTE FOR CLINTON, BUSH, PEROT Bush Perot Clinton 有效边际
lt high
high
junior
graduate school school college bachelor degree 有效边际 55 12 122 189 349 159 439 947 48 26 58 132 146 62 178 386 63 19 111 193 661 278 908 1847
行简要表(行轮廓矩阵)
RS HIGHEST DEGREE
VOTE FOR CLINTON, BUSH, PEROT Bush Perot Clinton 质量
lt high
junior
graduate
有效边
school high school college bachelor degree 际
.083 .043 .134 .102 .528 .572 .483 .513 .073 .094 .064 .071 .221 .223 .196 .209 .095 .068 .122 .104
精选文档.
.
列简要表(列轮廓矩阵)
VOTE FOR CLINTON, BUSH, PEROT
Bush Perot Clinton 有效边际
lt high
high
RS HIGHEST DEGREE junior
graduate
school school college bachelor degree 质量
.291 .063 .646 .369 .168 .464 .364 .197 .439 .378 .161 .461 .326 .098 .575 .358 .151 .492
摘要(相应分析总览表) 惯量比例 置信奇异值 相关 维数 1 2 总计 a. 8 自由度 奇异值 .138 .016 惯量 .019 .000 .019 卡方 Sig. 解释 .987 .013 a累积 .987 标准差 .021 .024 2 .061 .000 Singular Value :奇异值,是惯量的平方根,反映的是行与列各水平在二维图中分量的相关程度,是对行与列进行因子分析产生的新的综合变量的典型相关系数。
Inertia :惯量(也就是特征根),为每一维到其重心的加权距离的平方。它度量的是行列关系的强度。
Chi Square :卡方统计量(原假设为行列变量相互独立)
Proportion of Inertia:惯量比例,是各维度(公因子)分别解释总惯量的比例及累积百分比,类似于因子分析中公因子解释能力的说明。
卡方统计量为,对应的概率p 值接近于0,有理由拒绝原假设,认为行列变量之间存在显著相关性,对应分析是意义的。
从该表可以看出,第一维的惯量比例占了总比例的% ,第二维的惯量比例仅占% ,因此只要用第一维度就可以解释行列变量之间所有的关系,(但为了说明分析的过程,仍然保留两个维度。) 概述行点(行点总览表) VOTE FOR CLINTON, BUSH, PEROT 质量 1 .193 .664 2 .198 .053 惯量 .002 .009 .008 .019 维中的得分 点对维惯量 1 .097 .481 .422 2 .545 .368 .087 1 .929 .990 .997 贡献 维对点惯量 2 .071 .010 .003 总计 aBush .358 Perot .151 Clinton .492 有效总计 a. 对称标准化 精选文档.
.
概述列点(列点总览表) 维中的得分 RS HIGHEST DEGREE 质量 1 .169 .362 .153 2 .087 .018 .344 惯量 .011 .002 .001 .001 .004 点对维惯量 1 .598 .106 .068 .036 .192 2 .048 .010 .525 .394 .023 1 .999 .999 .905 .869 .998 贡献 维对点惯量 2 .001 .001 .095 .131 .002 总计 alt high school .102 high school .513 junior college .071 bachelor .209 graduate degree 有效总计 a. 对称标准化 .104 .019 (a) (b) 行变量的因子载荷折线图 (c)
(d)
列变量的因子载荷折线图
精选文档.
.
精选文档.
.
第十五章 典型相关分析
典型相关分析是研究两组变量之间相关关系的一种多元统计分析方法,它能揭示出两组变量之间的内在联系。也是一种降维技术。
操作步骤:
1 .选择菜单File——New——Syntax,新建一个语句窗口。INCLUDE ' D:\\Program File s\\SPSSInc\\SPSS16\\Canonical correlation.sps'. CANCORR SET1=x1 x2 x3 x4 / SET2=y1 y2 y3 / .
2 .单击语句窗口Run 菜单中的All子菜单项,运行典型相关宏命令,得出结果。
输出结果: 矩阵
Run MATRIX procedure: Correlations for Set-1
x1 x2 x3 x4 x1 1.0000 .7697 .5811 .1022
Correlations for Set-2 y1 y2 y3 y1 1.0000 .8865 .8614 y2 .8865 1.0000 .7465
Correlations Between Set-1 and Set-2 y1 y2 y3 x1 .7582 .8043 .5401 x2 .8572 .7830 .7171 x3 .8864 .7638 .8684 x4 .0687 .1169 .0147
Canonical Correlations(典型相关系数) 1 .957 2 .582 3 .180
Test that remaining correlations are zero:(典型相关系数的显著性检验) Wilk's Chi-SQ DF Sig.(只有第一对是显著的)
精选文档.
.
1 .054 29.186 12.000 .004(显著) 2 .640 4.459 6.000 .615(不显著) 3 .967 .331 2.000 .848(不显著)
Standardized Canonical Coefficients for Set-1(第一组典型变量的未标准化系数) 1 2 3
x4 -.189 .051 .027
Raw Canonical Coefficients for Set-1()(第一组典型变量的标准化系数)
1 2 3 x1 -.031 -.139 .130
x3 -.058 .089 .101 x4 -.071 .019 .010
Standardized Canonical Coefficients for Set-2(第二组典型变量的未标准化系数) 1 2 3
Raw Canonical Coefficients for Set-2(第二组典型变量的标准化系数) 1 2 3
y2 -.021 -.155 .215 y3 -.021 .227 .189
Canonical Loadings for Set-1 1 2 3 x1 -.795 -.592 .062
x3 -.933 .309 .014 x4 -.075 -.238 .195
由于本例中,各指标的量纲并不相同,所以主要通过观察标准化的典型变量的系数来分析两组变量的相关关系。
来自身体形态指标的第一典型变量V1 为 V1=-X1-X2-X3-X4
由于X3(抽烟量)的系数-绝对值最大,反映身体形态的典型变量主要由抽烟量决定。 而来自健康状况指标的第一典型变量U2为
精选文档.
.
U2=-Y1-Y2-Y3
由于Y1(脉搏)的系数-绝对值最大,反映健康状况的典型变量主要由脉搏决定。
Canonical Loadings for Set-1(载荷值) 1 2 3 x1 -.795 -.592 .062
x3 -.933 .309 .014 x4 -.075 -.238 .195
Cross Loadings for Set-1 1 2 3 x1 -.761 -.344 .011
x3 -.893 .180 .002 x4 -.072 -.139 .035
Canonical Loadings for Set-2 1 2 3
y2 -.916 -.304 .262 y3 -.891 .406 .206
Cross Loadings for Set-2 1 2 3 y1
y2 -.876 -.177 .047 y3 -.852 .236 .037
来自身体形态指标的第一典型变量V1在X3上的载荷值的绝对值最大,反映身体形态的
典型变量主要由抽烟量决定;来自健康状况指标的第一典型变量U1在Y1上的载荷值的绝对值最大,说明健康状况的典型变量主要由脉搏所决定。
同时,由于两个典型变量中抽烟量和脉搏的系数是同号的(同为负号),反映抽烟量和脉搏的正相关,即日抽烟越多则每分钟的脉搏跳动次数也越多。抽烟对身体健康有害,这和客观事实是相符的。
Redundancy Analysis:(两组典型变量的典型冗余分析) Proportion of Variance of Set-1 Explained by Its Own Can. Var. Prop Var CV1-1 .576 CV1-2 .129 CV1-3 .053
精选文档.
.
Proportion of Variance of Set-1 Explained by Opposite Can.Var. Prop Var CV2-1 .527 CV2-2 .044 CV2-3 .002
Proportion of Variance of Set-2 Explained by Its Own Can. Var. Prop Var CV2-1 .874 CV2-2 .086 CV2-3 .041
Proportion of Variance of Set-2 Explained by Opposite Can. Var. Prop Var CV1-1 .800 CV1-2 .029 CV1-3 .001
在进行典型相关分析时,我们也想了解每组变量提取出的典型变量所能解释的样本总方差的比例,从而定量测度典型变量所包含的原始信息量的大小,这就是典型变量的冗余分析。
表中的数据分别是身体形态变量被自身的典型变量解释的方差比例、身体形态变量被健康状况的典型变量解释的方差比例、健康状况变量被自身的型变量解释的方差比例、健康状况变量被身体形态的典型变量解释的方差比例。
表中的数据表明,提取的第一对典型变量可以代表原始变量的大部 分信息。
------ END MATRIX -----
创建
创建序列 非缺失值的个案数 SET_NUM 1 序列名 VARSEQ 第一个 1 最后一个 4 有效个案数 创建函数 4 CSUM(VARSEQ) 1 VARSEQ 5 7 3 CSUM(VARSEQ)
精选文档.
因篇幅问题不能全部显示,请点此查看更多更全内容