Python全系列 教程
3567个小节阅读:5930.9k
目录
鸿蒙应用开发
C语言快速入门
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
二阶聚类法可以基于类别变量和连续变量进行聚类,可以自动确定最终的分类个数,可以处理大型数据集。
二阶聚类,或TwoStep聚类,也常被称为两步聚类,是一种探索性的分析工具。整个聚类过程分为前后两个大的板块来完成。
第一步对所有记录进行距离考察,构建CF分类特征树,同一个树节点内的记录相似度高,相似度差的记录则会生成新的节点。
第二步,在分类树的基础上,使用凝聚法对节点进行分类,每一个聚类结果使用BIC或者AIC进行判断,得出最终的聚类结果。
同其他统计方法一样,二阶聚类也有严苛的适用条件,它要求模型中的变量独立,类别变量是多项式分布,连续变量须是正态分布。
示例:汽车生产厂商需要有效的方法评价当前市场情况,了解市场需要,找到受市场欢迎的,有市场竞争力的车型配置。
将采用种类、价格、引擎型号、马力、轴距、宽度、长度、限重、储油量、燃料效率共10个变量对有效记录进行自动聚类。
导入数据
将类别型变量“种类”点选进分类变量框中,将“价格”、“销量”等9个连续型变量点选入连续变量框内;
在下方的距离测量中勾选“对数似然(L)”,作为聚类变量相似度的测量形式;在聚类准则中勾选“施瓦兹贝叶斯准则(BIC)”,作为聚类个数的判断依据。
点击右上角的“选项”按钮,在弹出的二阶聚类选项对话框中将上一步9个连续型变量点选入右侧的待标准化计数(T)选框中。,目的是对9个变量自动进行标准化处理,统一测量尺度。
点击“继续”返回上一界面,点击“输出”按钮,在弹出的二阶聚类输出对话框中勾选“透视表”,这样最后的结果会出现在结果查看器中;勾选“图表和表”,这样输出的结果会出现在模型查看器中;勾选“创建聚类成员变量”,可以得到聚类的最终结果。
点击“确定”,在输出窗口中查看输出结果:
在自动聚类表中,有BIC值,BIC变化量,BIC变化比率,距离测量比率。BIC值越小,BIC变化比率越高说明模型较好。从表格中聚类数目3,BIC最小值为885.924,BIC变化比率是0.367,该模型较好
从聚类分布中可以看到,聚类1的个案数为62,聚类2的个案数为39,聚类3的个案数为51,组合个案数位152,排除个案数位5,总计位157。
从聚类概要质心表中可以看到,每个聚类类别中各个变量的平均值,标准偏差。
从频率类型表中可以看到,聚类1是汽车频率61,聚类2是货车频率39,聚类3是汽车频率51。说明聚类1和聚类3主要是汽车,聚类2主要是货车。