Python全系列 教程
3567个小节阅读:5929.3k
目录
鸿蒙应用开发
C语言快速入门
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
系统聚类是实际工作中使用的最多的一种聚类方法,它具有十分明显的优点:可以对样品聚类,也可以对变量聚类,变量可以是连续性或分类变量,提供的距离测量方法和结果表示方法也十分丰富。但是由于它要反复计算距离,当样本量太大或变量太多时,采用此法运算速度明显减慢。
将n个样品或变量看成不同的n类,然后将距离接近(针对样品聚类)或性质接近(针对变量聚类)的两类合并为一类;再从这n-1类中找到最接近的两个类合并,以此类推,直到所有的样品或变量被合为一类。整个过程可以绘成聚类图,按图和具体问题来决定分类。
有10名学生参加测试,测试10个指标,试对这十个指标进行聚类。
导入数据
1.聚类方法。可用的选项有组间联接、组内联接、最近邻元素、最远邻元素、质心聚类法、中位数聚类法和Ward法。一般聚类方法组间联接是最好的;ward法聚类出来会比较平均
2.测量。允指定聚类中使用的距离或相似性测量。
2.1、区间
度量标准 :个案--平方欧式距离最好,变量--皮尔逊相关性最好
2.2、计数。可用的选项有卡方测量和phi平方测量。
2.3、二分类。可用的选项有Euclidean距离、平方Euclidean距离等
3、转换值。在计算近似值之前为个案或值进行数据值标准化(对二分类数据不可用)。可用的标准化方法有z得分、范围1至1、范围0至1、1的最大量级、1的均值和使标准差为1。
4、转换测量。在计算了距离测量之后应用这些转换。可用的选项有绝对值、更改符号和重新调整到0–1范围。
本案例的评价数据均为高测度的定距数据。所以在分层聚类过程中,对距离的计算方式,可以借助平方欧式距离法
点击“确定”,在输出窗口查看输出结果
在集中计划表中列出了变量逐步聚类的过程。首先将1和8聚为一类,依次是4和10,1和4。
从上图中可以看到聚类过程以及聚类结果。每个待分类变量占据一列,在列与列之间预留分隔列,系统借助分隔列的填充长度说明相邻两列之间的聚类关系。在上图中,上体长和下体长之间的分隔列基本被填满了,说明这两个变量是非常密切的,属于比较早被聚合的列。而腰围和体重之间填充较少,说明这两列之间距离较远,是最后才聚合的。