目录
百战程序员,全站22050+开发课程+文档 ,学习精选优质好课快人一步!观看视频 快捷键ALT+N

Python全系列 教程

3567个小节阅读:5929.3k

收藏
全部开发者教程

鸿蒙应用开发

C语言快速入门

JAVA全系列 教程

面向对象的程序设计语言

Python全系列 教程

Python3.x版本,未来主流的版本

人工智能 教程

顺势而为,AI创新未来

大厂算法 教程

算法,程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务 教程

目前业界流行的框架组合

web前端全系列 教程

通向WEB技术世界的钥匙

大数据全系列 教程

站在云端操控万千数据

AIGC全能工具班

A

A A

White Night

阅读(510)
赞(0)

二、系统聚类

1、简介

系统聚类是实际工作中使用的最多的一种聚类方法,它具有十分明显的优点:可以对样品聚类,也可以对变量聚类,变量可以是连续性或分类变量,提供的距离测量方法和结果表示方法也十分丰富。但是由于它要反复计算距离,当样本量太大或变量太多时,采用此法运算速度明显减慢。

2、基本思想

将n个样品或变量看成不同的n类,然后将距离接近(针对样品聚类)或性质接近(针对变量聚类)的两类合并为一类;再从这n-1类中找到最接近的两个类合并,以此类推,直到所有的样品或变量被合为一类。整个过程可以绘成聚类图,按图和具体问题来决定分类。

3、示例分析

有10名学生参加测试,测试10个指标,试对这十个指标进行聚类。

  1. 导入数据

  2. image-20211013101656755

  3. image-20211013101728131

  4. image-20211013101815989

    • 集中计划。显示在每个阶段合并的个案或聚类、所合并的个案或聚类之间的距离以及个案(或变量)与聚类相联结时所在的最后一个聚类级别。
    • 近似值矩阵。给出各项之间的距离或相似性。
    • 聚类成员。显示在合并聚类的一个或多个阶段中,每个个案被分配所属的聚类。可用的选项有单个解和一定范围的解。如方案范围选择2到4,显示分为2、3和4类时的结果。
  5. image-20211013101902998

  6. image-20211013101929409

    1.聚类方法。可用的选项有组间联接、组内联接、最近邻元素、最远邻元素、质心聚类法、中位数聚类法和Ward法。一般聚类方法组间联接是最好的;ward法聚类出来会比较平均

    • Between-groups linkage:组间平均距离法。系统默认选项。合并两类的结果使所有的两类的平均距离最小。
    • Within-groups linkage:组内平均距离法。当两类合并为一类后,合并后的类中的所有项之间的平均距离最小。
    • Nearest neighbor:最近距离法。采用两类间最近点间的距离代表两类间的距离。
    • Furthest Neighbor:最远距离法。用两类之间最远点的距离代表两类之间的距离。
    • Centroid clustering:重心法。定义类与类之间的距离为两类中各样品的重心之间的距离。
    • Median clustering:中位数法。定义类与类之间的距离为两类中各 样品的中位数之间的距离。
    • Ward’s method:ward最小离差平方和法。聚类中使类内各样品的离差平方和最小,类间的离差平方和尽可能大。

    2.测量。允指定聚类中使用的距离或相似性测量。

    2.1、区间

    • Euclidean distance:欧氏距离。
    • Squared Euclidean distance:欧氏距离平方。两项之间的距离是每个变量值之差的平方和。系统默认项。
    • Cosline:余弦相似性测度,计算两个向量间夹角的余弦
    • Pearson conelation:皮尔逊相关系数。它是线性关系的测度,范围是-1~ 1。
    • Chebychev:切比雪夫距离。
    • Block:曼哈顿(Manhattan)距离,两项之间的距离是每个变量值之差的绝对值总和。
    • Minkowski:闵科夫斯基距离。
    • Customized:自定义距离。

    度量标准 :个案--平方欧式距离最好,变量--皮尔逊相关性最好

    2.2、计数。可用的选项有卡方测量和phi平方测量。

    2.3、二分类。可用的选项有Euclidean距离、平方Euclidean距离等

    3、转换值。在计算近似值之前为个案或值进行数据值标准化(对二分类数据不可用)。可用的标准化方法有z得分、范围1至1、范围0至1、1的最大量级、1的均值和使标准差为1。

    4、转换测量。在计算了距离测量之后应用这些转换。可用的选项有绝对值、更改符号和重新调整到0–1范围。

    本案例的评价数据均为高测度的定距数据。所以在分层聚类过程中,对距离的计算方式,可以借助平方欧式距离法

  7. 点击“确定”,在输出窗口查看输出结果

  8. image-20211013102023935

  9. image-20211014092910442

  10. image-20211013102043879

在集中计划表中列出了变量逐步聚类的过程。首先将1和8聚为一类,依次是4和10,1和4。

  1. image-20211013133803379

    从上图中可以看到聚类过程以及聚类结果。每个待分类变量占据一列,在列与列之间预留分隔列,系统借助分隔列的填充长度说明相邻两列之间的聚类关系。在上图中,上体长和下体长之间的分隔列基本被填满了,说明这两个变量是非常密切的,属于比较早被聚合的列。而腰围和体重之间填充较少,说明这两列之间距离较远,是最后才聚合的。

北京市昌平区回龙观镇南店村综合商业楼2楼226室

©2014-2023 百战卓越(北京)科技有限公司 All Rights Reserved.

京ICP备14032124号-2