基于秩一致性的多视图聚类 多视图 图像 聚类 加密方法

2025-01-3013:48:19创业资讯0

层次聚类法是数据挖掘中的一种重要方法,它通常分为自底向上和自顶向下两种方式。这两种方法的原理相似,只是运算方向相反。自底向上,又称合并法,是将每个样本看作一个独立的类,然后通过计算距离,将距离相近的样本合并为一类,直到达到预设的聚类数或目标。而自顶向下的方法则相反,它先将所有样本看作一类,然后逐步成更小的类别。无论采用哪种方法,关键在于距离的定义。

1. 最短距离法以两个样本间最短的距离作为两个类的距离。相对地,最长距离法则取两个样本间最长的距离。

2. 中间距离法涉及其他概念的计算方式。

3. 类平均法通过计算类内样本的平均值来定义类之间的距离。

4. 重心法利用类内样本的重心作为代表点进行计算。

5. 离差平方和法,又称Ward最小方差法,基于方差分析思想,合理的分类应使同类样本间离差平方和较小,类与类间离差平方和较大。该方法适用于大样本量或复杂变量类型的数据集,但要求样品间的距离为欧氏距离。

与层次聚类不同,K-Means聚类是一种快速聚类法,适用于大样本量数据或前期数据清洗工作。该方法需分析师指定聚类数量K,并迭代更新中心点及类别归属,直至达到稳定状态。K-Means聚类计算量小、效率高、对硬件依赖低,但其应用范围较窄,需预先确定聚类数,对初始点位置敏感,易受异常值影响,且仅适用于连续变量聚类。

两步聚类法结合了K-Means和系统聚类方法,先进行快速聚类后进行系统聚类选择合适的分类数量。在使用聚类方法时,结合业务理解进行数据变换和维度分析至关重要。聚类结果需谨慎解读和修正以贴近业务需求。

关于问题:

1. 答案:A 解析:层次聚类能形成聚类树形图谱,便于直观确定类之间的划分。

2. 答案:ABC 解析:K均值聚类法的缺陷包括对初始点位置敏感、无法通过分析方法确定聚类个数以及易受异常值影响。

3. 答案:BD 解析:在定位刷信用级别的违规者时,不应进行改变原有分布形态的变量转换,如百分位秩转换和分箱处理。

  • 版权说明:
  • 本文内容由互联网用户自发贡献,本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 295052769@qq.com 举报,一经查实,本站将立刻删除。