SPSSAU在线SPSS分析软件
决策树模型 DecisionTree SPSSAU
决策树模型详解
决策树(Decision Tree)是研究类别归属和预测关系的模型。例如,是否抽烟、是否喝酒、年龄、体重等个人特征可能影响“是否患癌症”的判断。这些特征称为“特征”或自变量(影响因素X),“是否患癌症”称为标签或因变量(被影响项Y)。
决策树首先可以对年龄进行划分,如以70岁为界,年龄大于70岁时可能更易归类为“患癌症”。接着对体重进行划分,如大于50公斤为界,大于此体重时更可能被划分为“患癌症”。此过程循环进行,特征之间的逻辑组合后(如年龄、体重等条件组合),会对应到是否患癌症的标签上。
此模型为预测模型,需要数据分为两组:训练数据和测试数据。训练数据用于建立模型关系,得到对应关系后,使用测试数据验证模型的优劣。通常,训练数据和测试数据的比例可为9:1、8:2、7:3等。若数据量较少,可考虑调整比例。
决策树模型构建时,需注意模型构建和模型预测两项。若训练数据得到的模型优秀,可考虑保存并部署使用。当决策树模型构建完成后可进行预测,如新来一个病人,他是否会患癌症及患癌的可能性多高。
对于特征质量判断,决策树模型可以排序特征的预测作用重要性,如上述四个特征对“是否患癌症”的预测重要性,从而筛选出最有用的特征项。
在构建决策树模型时,参数设置至关重要。良好的参数设置能带来优秀的模型评估结果。但需注意过拟合情况,即训练数据表现优秀但测试数据表现糟糕。为避免过拟合,需特别注意参数的相关设置。
案例
1. 背景
使用经典的“鸢尾花分类数据集”进行案例演示。该数据集包含150个样本、4个特征属性和1个标签(鸢尾花类别)。
2. 理论
决策树模型的原理包括节点标准、节点划分方式等。其中节点标准涉及计算方式如gini系数和entropy系数。
3. 操作步骤
训练集比例通常设为80%进行训练,余下20%用于验证。可对数据进行标准化处理如正态标准化。参数设置包括节点标准、划分方式等。
4. SPSSAU输出结果详解
SPSSAU输出包括基本信息汇总、决策树结构图等七项结果。特别地,混淆矩阵用于查看测试集的预测效果,模型汇总表则汇总各项参数值。
5. 文字分析要点
分析决策树结构图、特征重要性、模型拟合效果等。着重解读训练集和测试集的拟合效果,避免过拟合现象。
6. 深入剖析点
包括是否需要进行数据标准化处理、训练集比例选择、参数设置、保存预测值、算法详情、处理定类数据、剪枝优化方式和判断模型合格的标准等。