1. 首页
  2. 综合百科
  3. 主成分分析例题详解及分析(多元统计分析题库及答案)

主成分分析例题详解及分析(多元统计分析题库及答案)

简介:关于主成分分析例题详解及分析(多元统计分析题库及答案)的相关疑问,相信很多朋友对此并不是非常清楚,为了帮助大家了解相关知识要点,小编为大家整理出如下讲解内容,希望下面的内容对大家有帮助!
如果有更好的建议或者想看更多关于综合百科技术大全及相关资讯,可以多多关注茶馆百科网。

主成分分析(PCA)是一种分析和简化数据集的技术。

通过降维技术将多个变量转化为少数几个主成分(综合变量)的统计分析方法。这些主成分可以反映原始变量的大部分信息,它们通常表示为原始变量的某种线性组合。

主成分分析(PCA)常用于降低数据集的维数,同时保持数据集中方差贡献最大的特征。这是通过保留低阶主分量并忽略高阶主分量来实现的。这种低阶组件通常可以保留数据的最重要方面。

主成分分析是卡尔皮尔逊在1901年发明的,用于分析数据和建立数学模型。其方法主要是通过协方差矩阵的特征分解得到数据的主成分(即特征向量)及其权重(即特征值)。

主成分的用途:

(1)变量的降维

(2)主成分的解释(如果主成分有意义)

主成分分析法从冗余特征中提取主成分,在不损失模型质量的情况下,提高了模型的训练速度。

如上图所示,我们把样本到红色向量的距离称为投影误差。以二维投影到一维投影为例,PCA就是寻找一条直线,使每个特征的投影误差足够小,从而尽可能保留原特征的信息。PCA是一种有损压缩方法,因为它只保留特征的主要成分。

PCA分析的一般步骤

1.根据研究问题选择初始分析变量。

2.根据初始变量的特征,判断主成分是从协方差矩阵还是相关矩阵中得到;

3.求协方差矩阵或相关矩阵的特征值和对应的标准特征向量;

4.判断是否有明显的多重共线性,如果有,返回步骤(1);

5.得到主成分的表达式,确定主成分的个数,选择主成分;

6.结合主成分分析和深入研究。

PCA的目标是用一组不太相关的变量代替大量的相关变量,同时尽可能保留初始变量的信息。这些衍生变量称为主成分,是观察变量的线性组合。

主成分分析法优缺点

优点

它可以消除评价指标之间的相关性。因为主成分分析法是对原始数据的指标变量进行变换后形成独立的主成分,而且实践证明指标之间的相关性越高,主成分分析效果越好。

It可以减少指标选择的工作量。对于其他评价方法来说,由于评价指标之间的相关性很难消除,所以选择指标需要花费大量的精力,而主成分分析法可以消除这种相关性,所以选择指标相对容易。

在主成分分析中,主成分是按照方差顺序排列的。在分析问题时,可以舍弃一些主成分,只取方差较大的主成分来表示原始变量,从而减少计算工作量。用主成分分析法进行综合评价时,由于选取的原则是累计贡献率85%,所以不会因为节省工作量而遗漏关键指标,从而影响评价结果。

缺点

在主成分分析中,首先要保证提取的前几个主成分的累计贡献率达到较高水平(即降维后变量的信息必须保持在较高水平),其次,这些提取的主成分必须能够给出符合实际背景和意义的解释(否则,主成分将是空的,没有实际意义)。

主成分的解释一般都有些模糊,不像原变量那样清晰准确,这是在降低变量维数的过程中不得不付出的代价。因此,提取的主成分数M通常应明显小于原始变量数P(除非P本身很小),否则“优点”为

某公司经理打算招聘一名员工,要求他有很高的工作热情、自主性、积极性和责任感。为此,经理专门设计了一份测试问卷,有25个相关问题,从315名候选人中寻找最合适的人选。

在这25个相关问题中:

Qu3-Qu8、Qu12和Qu13衡量工作热情。

Qu2,Qu14-Qu19测量自主权

Qu20-Qu25衡量工作热情。

Qu1,Qu9-Qu11测量工作责任心

每个问题都有五个等级:非常同意“同意”,同意“同意某事”,不确定“未定”,不同意“不同意某事”,非常不同意“不同意”。

管理者要根据这25个问题来判断应聘者在这四个方面的能力。现在他已经收集了候选人的问卷信息,部分数据如下:

分析师希望将多个变量归纳成几条信息进行分析,即降低数据结果的维度。针对这种情况,可以进行主成分提取,但首先需要满足两个假设:

假设1:观察变量为连续变量或有序分类变量,如本研究中的测量变量均为有序分类变量。

假设2:变量之间存在线性相关性。

主成分分析案例

SPSS操作

(1)

在主页面点击Analyze→Dimension Reduction →Factor

(2) 将变量Qu1-Qu25放入Variables栏

(3) 点击Deive,点选Statistics栏的Initial solution选项,并点选Correlation Matrix栏的Coefficients、KMO and Bartlett’s test of sphericity、Reproduced和Anti_image选项

(4) 点击Continue→Extraction,点击Display栏中的Scree plot选项

(5) 点击Continue→Rotation,点选Method栏的Varimax选项,并点选Display栏的Rotated solution和Loading plot(s)选项

(6) 点击Continue→Scores,点击Save as variables,激活Method栏后点击Regression选项

(7) 点击Continue→Options,点击 Sorted by size和Suppress small coefficients选项,在Absolute value below栏内输入“.3”点击Continue→OK

经上述操作,SPSS输出相关矩阵表如下:

该表主要用于判断各变量之间的线性相关关系,从而决定变量的取舍,即如果某一个变量与同一分组中其他变量之间的关联性不强,我们就认为该变量与其他变量测量的内容不同,在主成分提取中不应该纳入该变量。一般来说,如果相关系数大于等于0.3,我们就认为变量之间存在较好的线性相关性。

从本研究的结果来看,在分别对应聘者工作积极性(Q3-Q8,Q12,Q13)、工作自主性 (Q2,Q14-19)、工作热情(Q20-25)和工作责任感(Q1,Q9-11)的测量中,每组变量之间的相关系数均大于0.3,说明各组变量之间具有线性相关关系,提示满足假设2。

KMO检验对数据结构的总体分析

KMO检验主要用于主成分提取的数据情况。KMO检验系数分布在0到1之间,如果系数值大于0.6,则认为样本符合数据结构合理的要求。

部分学者认为,只有当KMO检验系数值大于0.8时,主成分分析的结果才具有较好的实用性,具体系数对应关系如下:

SPSS输出本研究结果如下:

本研究的KMO检验系数为0.833,根据系数对应关系表,我们认为本研究数据结构很好(meritorious),具有相关关系,满足假设2。

KMO检验对各变量的单独分析

 

SPSS输出各变量的KMO检验结果如下:

整理后各题KMO值:

KMO检验对单个变量的分析结果也在0到1之间分布,如果系数大于0.5,则认为单个变量满足要求;如果系数大于0.8,则认为单个变量结果很好。

分析结论中,任一变量的KMO检验结果均大于0.7,即各变量结果一般,但满足假设2。

Bartlett’s检验

Bartlett’s检

Bartlett’s检验的零假设是研究数据之间的相关矩阵是一个完美矩阵,即所有对角线上的系数为1,非对角线上的系数均为0。

在完美矩阵情况下,各变量之间没有相关关系,即不能将多个变量简化为少数的成分,没有进行主成分提取的必要。因此,我们希望拒绝Bartlett’s检验的零假设。

SPSS输出结果如下:

Bartlett’s检验的P值小于0.001,拒绝零假设,即认为研究数据可以进行主成分提取,满足假设2。

结果解释

对主成分结果的分析主要从公因子方差(communalities)、提取主成分和强制提取主成分三个方面进行。

公因子方差结果

SPSS输出公因子方差结果如下:

研究中有多少个变量数据结果就会输出多少个成分,本研究中共有25个变量,就会对应产生25个成分。

“Extraction”栏提示当只保留选中的成分时,变量变异被解释的程度。

提取主成分

研究中有多少个变量,主成分提取就会产生多少个主成分。我们通过选取主成分对数据进行降维,但同时也要注意尽可能多地包含对数据变异的解释。

一般来说,结果输出的第一主成分包含最多的数据变异,第二主成分次之,之后的主成分包含的变异程度依次递减。SPSS输出结果如下:

本研究中共有25个变量,那总特征值(eigenvalues of variance)是25,即每个变量自身的特征值为1。

Total栏提示的是各主成分对数据变异的解释程度。

以第一主成分为例,其特征值为6.730,占总体变异的6.730/25×100 = 26.919% (% of Variance栏)。同理,第二主成分的特征值为3.342,占总体变异的13.369%,以此类推。

一般来说,如果某一项主成分的特征值小于1,那么我们就认为该主成分对数据变异的解释程度比单个变量小,应该剔除。本研究结果如下:

第五主成分的特征值为1.049,大于1;而第六主成分的特征值为0.951,小于1,即应该保留前五位的主成分,剔除剩余部分。

结论

本研究采用主成分分析,通过25项问题调查315位应聘者的工作能力。

研究变量之间存在线性相关关系(每组变量之间的相关系数均大于0.3),数据结构合理(KMO检验系数为0.833,单个变量的KMO检验系数均大于0.7,Bartlett’s检验结果为P<0.001),提示研究数据可以进行主成分提取。< span=””>

主成分提取结果:研究提取前四位主成分。提取后的主成分累计解释59.9%的数据变异,分别反映应聘者的工作积极性、工作自主性、工作热情和工作责任感(如下图)

本文主要介绍了关于主成分分析例题详解及分析(多元统计分析题库及答案)的相关养殖或种植技术,综合百科栏目还介绍了该行业生产经营方式及经营管理,关注综合百科发展动向,注重系统性、科学性、实用性和先进性,内容全面新颖、重点突出、通俗易懂,全面给您讲解综合百科技术怎么管理的要点,是您综合百科致富的点金石。
以上文章来自互联网,不代表本人立场,如需删除,请注明该网址:http://seotea.com/article/730101.html