目录
百战程序员,全站22050+开发课程+文档 ,学习精选优质好课快人一步!观看视频 快捷键ALT+N

Python全系列 教程

3567个小节阅读:5930.9k

收藏
全部开发者教程

鸿蒙应用开发

C语言快速入门

JAVA全系列 教程

面向对象的程序设计语言

Python全系列 教程

Python3.x版本,未来主流的版本

人工智能 教程

顺势而为,AI创新未来

大厂算法 教程

算法,程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务 教程

目前业界流行的框架组合

web前端全系列 教程

通向WEB技术世界的钥匙

大数据全系列 教程

站在云端操控万千数据

AIGC全能工具班

A

A A

White Night

阅读(301)
赞(0)

三、二阶聚类分析

二阶聚类法可以基于类别变量和连续变量进行聚类,可以自动确定最终的分类个数,可以处理大型数据集。

二阶聚类,或TwoStep聚类,也常被称为两步聚类,是一种探索性的分析工具。整个聚类过程分为前后两个大的板块来完成。

第一步对所有记录进行距离考察,构建CF分类特征树,同一个树节点内的记录相似度高,相似度差的记录则会生成新的节点。

第二步,在分类树的基础上,使用凝聚法对节点进行分类,每一个聚类结果使用BIC或者AIC进行判断,得出最终的聚类结果。

同其他统计方法一样,二阶聚类也有严苛的适用条件,它要求模型中的变量独立,类别变量是多项式分布,连续变量须是正态分布。

示例:汽车生产厂商需要有效的方法评价当前市场情况,了解市场需要,找到受市场欢迎的,有市场竞争力的车型配置。

将采用种类、价格、引擎型号、马力、轴距、宽度、长度、限重、储油量、燃料效率共10个变量对有效记录进行自动聚类。

  1. 导入数据

  2. image-20211013143950624

  3. 将类别型变量“种类”点选进分类变量框中,将“价格”、“销量”等9个连续型变量点选入连续变量框内;

    image-20211013163455080

    在下方的距离测量中勾选“对数似然(L)”,作为聚类变量相似度的测量形式;在聚类准则中勾选“施瓦兹贝叶斯准则(BIC)”,作为聚类个数的判断依据。

  4. 点击右上角的“选项”按钮,在弹出的二阶聚类选项对话框中将上一步9个连续型变量点选入右侧的待标准化计数(T)选框中。,目的是对9个变量自动进行标准化处理,统一测量尺度。

    image-20211013163623152

  5. 点击“继续”返回上一界面,点击“输出”按钮,在弹出的二阶聚类输出对话框中勾选“透视表”,这样最后的结果会出现在结果查看器中;勾选“图表和表”,这样输出的结果会出现在模型查看器中;勾选“创建聚类成员变量”,可以得到聚类的最终结果。

    image-20211013163707657

  6. 点击“确定”,在输出窗口中查看输出结果:

  7. image-20211013163744324

    在自动聚类表中,有BIC值,BIC变化量,BIC变化比率,距离测量比率。BIC值越小,BIC变化比率越高说明模型较好。从表格中聚类数目3,BIC最小值为885.924,BIC变化比率是0.367,该模型较好

  8. image-20211013163839797

    从聚类分布中可以看到,聚类1的个案数为62,聚类2的个案数为39,聚类3的个案数为51,组合个案数位152,排除个案数位5,总计位157。

  9. image-20211013163933043

    从聚类概要质心表中可以看到,每个聚类类别中各个变量的平均值,标准偏差。

  10. image-20211013163956724

    从频率类型表中可以看到,聚类1是汽车频率61,聚类2是货车频率39,聚类3是汽车频率51。说明聚类1和聚类3主要是汽车,聚类2主要是货车。

  11. image-20211013164046164

北京市昌平区回龙观镇南店村综合商业楼2楼226室

©2014-2023 百战卓越(北京)科技有限公司 All Rights Reserved.

京ICP备14032124号-2