主成分分析(Principal Components Analysis,PCA)是一种广泛用于数据集简化和分析的统计方法。
通过降维技术,主成分分析将多个相关变量转化为少数几个主成分,这些主成分能够概括原始数据的绝大部分信息。它们通常是原始变量的线性组合,有效地反映了数据的主体特征。
PCA常用于减少数据集的维度,同时保持对方差贡献最大的特征。这一过程通过保留低阶主成分而忽略高阶主成分来实现,低阶成分往往能保留数据的最重要方面。
主成分分析由卡尔·皮尔逊于1901年提出,用于分析数据并建立数学模型。该方法通过对协方差矩阵进行特征分解,得出数据的主成分(即特征向量)及其权值(即特征值)。
主成分的目的:
(1)变量的降维
(2)主成分的解释,在主成分有意义的情况下
主成分分析法从冗余特征中提取主要成分,在保证模型质量的前提下,提升模型训练速度。
如上图所示,我们将样本到红色向量的距离称作投影误差。PCA的目标是寻找一条直线,使各个特征的投影误差足够小,从而保留原始特征的信息。由于PCA只保留主成分,它是一种有损的压缩方式。
PCA分析步骤:
1. 根据研究问题选择初始分析变量。
2. 根据初始变量的特性,判断是依据协方差阵还是相关矩阵求主成分。
3. 求协方差阵或相关阵的特征值与相应的标准特征向量。
4. 判断是否存在多重共线性,若存在则回到步骤一。
5. 得到主成分的表达式,确定主成分个数,并选取主成分。
6. 结合主成分对研究问题进行分析。
主成分分析法的优缺点:
优点:
↘ 可消除评估指标间的相关影响,使指标彼此独立。
↘ 可减少指标选择的工作量。
↘ 主成分按方差大小依次排列,便于我们舍弃部分次要的主成分,简化计算过程。
缺点:
↘ 在主成分分析中,我们需要确保提取的主成分的累计贡献率达到一个较高水平,以保持信息量的足够。这些被提取的主成分应具有明确的实际背景和意义。
↘ 主成分的解释可能具有一定的模糊性,不如原始变量那么清晰和确切,这是在进行维数降低过程中的必然代价。
↘ 当主成分的因子负荷符号有正有负时,综合评价函数的含义可能不够明确。
主成分分析案例:
某公司为员工,设计了一个包含25项问题的测试问卷,旨在评估应聘者的工作积极性、自主性、热情和责任感。收集数据后,可利用主成分分析对数据进行降维和处理。
此处仅列举部分变量及其测量内容:
工作积极性:Qu3-Qu8、Qu12、Qu13。
工作自主性:Qu2、Qu14-Qu19。