因子分析(Exploratory Factor Analysis,EFA)是一种常用的统计方法,用于探索和识别一组变量之间的潜在因子结构。在实际应用中,因子分析可以帮助研究人员了解不同指标之间的内在关系,通常用于减少数据的维度或进行数据压缩。例如,当面对20个量表题项时,因子分析能够帮助确定这些题项应当归属于几个不同的维度。用户在进行因子分析时,可以根据自己的需求设定因子个数。如果未明确设定,系统则会根据特征根值大于1的标准自动确定因子数量。
因子分析的基本过程
在进行因子分析时,数据通常以列为指标、行为样本的形式呈现。如果处理的是面板数据,例如包含100家公司、每家公司有10年数据的数据集,则会有1000个样本。在这种情况下,需要单独设置公司名称和年份这两列来标识数据的面板结构。因子分析关注的主要是指标数据,因此无论是否为面板数据,它的分析方式并不有所不同。需要注意的是,样本量一般要求至少是分析项数量的五倍。以下是一个简单的数据格式示例。
步骤一:上传数据
用户需要登录系统并进入SPSSAU页面,在页面右上角找到并点击“上传数据”按钮,选择已经处理好的数据文件进行上传。上传完成后,数据便可以进行进一步分析。
步骤二:拖拽分析项
接着,在“进阶方法”模块选择“因子”分析方法,将相关的定量分析项拖拽到右侧的分析框中。确认后点击“开始分析”按钮,即可启动因子分析。
补充说明:
如果用户已经有预期想要提取的因子个数,可以提前设置。勾选“因子得分”和“综合得分”选项后,分析框中会生成新的变量,名称通常为“CompScore*”代表综合得分,或“FactorScore*”代表因子得分。因子得分可以用于后续的聚类分析、回归分析等,而综合得分则适合用来进行排名或比较。
因子个数的设置
通常在进行因子分析时,研究者会基于主观预期来确定因子个数。例如,在分析一组包含14个量表题项的数据时,研究者可能预期这些题项可以归为4个维度(A、B、C、D)。但需要注意的是,个别项可能并不完全适合,因此可能需要删除某些项。
第一次分析:
分析结果显示:
A1A4四项指标高度相关,所有因子载荷系数都大于0.4,说明它们应当归为同一维度。A1A4被归入同一因子。
B1~B4中,B2、B3和B4对应因子1,但B1却与因子2相关。这意味着B1与因子1存在“张冠李戴”现象,因此应将B1删除。而B2既可以对应因子1也可以对应因子2,这种“纠缠不清”现象不宜急于处理。
C1~C3的三个项完全对应因子2,且没有其他异常,因此无需调整。
D1~D3的情况稍有不同:D3存在“张冠李戴”现象,需要删除;而D2则表现为“纠缠不清”,它可以同时归属于因子1或因子4,需要进一步关注。
B1和D3项应当删除,A1、A2、B2和D2则表现为“纠缠不清”,暂时不做删除。完成这些修改后,可以进行第二轮分析。
第二次分析:
经过第一次修正,A1因存在明显的“张冠李戴”问题,应被删除。A2和D2的“纠缠不清”现象仍需观察。
第三次分析:
在第三轮分析中,D2虽然可以同时属于因子2和因子4,但由于D维度目前只有两项,最终决定将D2归入因子4。经过这一调整,最终得出A、B、C和D四个维度,它们与各自的量表项之间有了较为明确的匹配关系,因子分析圆满结束。
其他细节
“纠缠不清”现象通常是指某些题项可以归属到多个因子,这种情况在因子分析中较为常见,处理时可以根据具体情况做出决定,例如删除或者保留这些项。
“张冠李戴”现象则是指某个题项显然属于一个因子,但却错误地与另一个因子匹配,这种情况应当立即删除相关项。
检验和结果解释
在因子分析的过程中,KMO检验和Bartlett球形度检验是两个非常重要的步骤。KMO值越接近1,表明数据适合进行因子分析,通常要求KMO大于0.6。在我们的分析中,KMO值为0.876,远高于0.6,表明数据适宜进行因子分析。Bartlett检验的p值也小于0.05,进一步确认了数据的适用性。
方差解释率:
方差解释率用于判断提取的因子是否能够有效解释原始数据的变异性。在本次分析中,提取的4个因子的累积方差解释率为78.213%,这意味着这4个因子能够解释数据的78.213%的信息量,说明因子分析的结果是成功的。
旋转后的因子载荷:
通过因子旋转后的数据,我们可以发现各项指标的共同度都高于0.4,说明各个因子与相关指标之间的关联性较强,因子提取效果良好。
因子数量的判断
通常,我们可以通过观察碎石图来帮助判断提取的因子个数。在碎石图中,因子数量的选择通常取决于折线的变化。当折线从陡峭变得平缓时,平缓前的因子数量就是建议提取的因子个数。实际操作中,因子个数的选择还需要结合研究领域的专业知识和分析项与因子的匹配情况进行综合判断。
后续应用
因子分析不仅用于维度压缩,还常常作为进一步分析的基础,例如回归分析、聚类分析等。在实际研究中,因子分析的结果往往需要与其他方法结合使用,如层次分析法(AHP)或熵值法等,用于权重计算或度分析。
因子分析是一项多轮迭代的过程,旨在通过系统的数学模型来提取数据中的潜在结构,最终实现数据的降维与信息的浓缩。