whytree分析图_使用原因树分析问题的优点

2025-02-1714:15:25营销方案0

我们深入探讨了一篇论文《为何基于树的模型在表格数据分析中依然表现优异于深度学习》。该论文揭示了一个被全球机器学习从业者在众多领域所观察到的事实,那就是,基于树的模型在处理表格数据时表现远超于深度学习/网络。

这篇论文进行了一系列精心设计的预处理操作。例如,虽然删除缺失数据可能会对树的性能产生一定影响,但随机森林对于数据缺失的情况却具有很高的适应性。特别是当数据集包含大量特征和维度时,随机森林的稳健性和优势表现得尤为突出,因为某些更“先进”的解决方案更容易出现问题。尽管我个人倾向于谨慎使用过多的预处理技术,以免丢失数据集的细微差别,但论文中的预处理步骤基本上都能得到一致的数据集。重要的是在评估最终结果时采用统一的处理方法。

论文还采用随机搜索来进行超参数调优,这已成为行业标准。不过据我经验来看,贝叶斯搜索在更广泛的搜索空间中能够表现出更佳的搜索效果。

现在让我们深入探讨一个核心问题——为何树基方法能够胜过深度学习?

若我猜测原因,或许与网络中使用的梯度有关。梯度依赖于可微分的搜索空间,这些空间定义上是平滑的,却难以捕捉尖锐点和某些随机函数的变化。我建议学习更基础的概念如进化算法和传统搜索等AI技术,因为这些概念在网络失效的情况下往往能带来好的结果。

关于基于树的方法(如随机森林)与深度学习者之间决策边界差异的具体示例,请参见下图。图中展示了RandomForest能够学习到MLP无习的x轴(对应日期特征)上的不规则模式。这显示了默认超参数的差异,这是网络的常见问题,但找到成功学习这些模式的超参数实际上并不容易。

另一个关键因素在于处理大型数据集中的多个关系编码。若向网络输入不相关的特征,结果可能不尽人意(且会导致更多的计算资源浪费)。这就是为什么在数据探索(EDA)和领域探索上投入大量时间至关重要。这有助于理解特征的性质,并确保模型的顺利运行。

减少大量特征可以缩小模型之间的性能差距。这清楚地表明了树型模型的一大优势——它们能够判断特征的有用性并避免无用特征的影响。当向数据集中添加随机特征时,网络的性能下降幅度明显大于树基模型。特别是ResNet在无用特征的影响下更为明显。尽管可能有人认为transformer的改进得益于其内部的注意力机制,但这种机制在一定程度上确实有所帮助。

从决策树的设计方式来看这一现象也就不难理解了。任何学过AI课程的人都知道决策树中的信息增益和熵的概念。这使得决策树能够通过比较剩余的特征来选择最佳路径。

回到主题上来,关于表格数据的最后一个要点是旋转不变性使得随机森林(RF)的表现优于网络(NN)。尽管网络在处理旋转操作后的数据集时表现不会发生变化,但在处理具有最佳数据偏差的原始数据时却能够为模型提供更好的性能。这是因为在获得最佳数据偏差的过程中可能会混合具有非常不同统计特性的特征,而这并不能被旋转不变的模型所恢复。

  • 版权说明:
  • 本文内容由互联网用户自发贡献,本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 295052769@qq.com 举报,一经查实,本站将立刻删除。