Python全系列 教程
3567个小节阅读:5930.2k
目录
鸿蒙应用开发
C语言快速入门
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
发生在美国沃尔玛连锁超市的真实案例:尿布与啤酒这两种风马牛不相及的商品居然
摆在一起,而这也明显增加了这两种商品的销售额。
原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为
孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。
上表所示的购物篮数据即是一个事务库,该事务库记录的是用户行为的数据。
上表事务库中的每一条记录被称为一笔事务。在购物篮事务中,每一次购物行为即为一
笔事务,例如第一行数据“用户1购买商品A,B,C”即为一条事务。
在购物篮事务中,每样商品代表一个项,项的集合称为项集。每样商品的组合构成项
集,例如“A,B”、 “A,C”、 “B,C”、 “A,B,C”都是一个项集,其实也就是不同商品的组合。
关联规则是形如X → Y的表达式,X称为前件,Y称为后件。
注意X和Y不是指单一的商品,而是指上面提到的项集,比如其形式可以为:{A, B} →
{C},其含义就是如果购买商品A和B的用户也会买C。
项集的支持度定义为包含该项集的事务在所有事务中所占的比例。
比如项集{A, B} 在购物篮事务中总共出现了3次(第1、2、4条数据),而整个事务库中
一共有5条事务,即5条数据,因此项集{A, B}的支持度为3÷5=0.6。
支持度大于等于人为设定的阈值(该阈值也称为最小支持度)的项集即为频繁项集,其
实也就是指该项集在所有事务中出现的较为频繁。
例如阈值或者说最小支持度设为50%时,因为上面得到项集{A, B}的支持度60%,所以
它是频繁项集。
置信度表示在关联规则的先决条件X发生的条件下,关联结果Y发生的概率
在购物篮事务当中,关联规则X → Y的置信度为购买商品X的基础上购买商品Y的概率
P(Y|X),据公式有:
寻找强关联规则的主要步骤:
提升度表示先购买X对Y的概率的提升作用,用来判断规则是否有实际价值,即使用规则
后商品在购物车中出现的频率是否高于商品单独出现在购物车中的频率。如果大于1说明规
则有效,小于1则无效,等于1则表示X与Y相互独立。
满足最小支持度和最小置信度的规则,叫做“强关联规则”。然而,强关联规则里,又分
为有效的强关联规则和无效的强关联规则。具体划分情况如下:
若Lift(X→Y)>1,则规则“X→Y”是有效的强关联规则。
若Lift(X→Y)<1,则规则“X→Y”是无效的强关联规则。
若Lift(X→Y) =1,则表示X与Y相互独立。
注意:
关联规则分析与协同过滤算法都可以用来作为推荐系统的实现,但仍有区别:
- 协同过滤算法是基于用户或商品之间的距离或相似度进行推荐
- 关联规则分析是通过寻找强关联规则后进行推荐
1. 关于项集,下列说法正确的是:
A 在购物篮事务中,每样商品代表一个项集
B 项的集合称为项集
C 支持度小于人为设定的阈值的项集即为频繁项集
D 以上说法均不正确
2. 关于支持度与置信度,下列说法正确的是_______:
A 寻找强关联规则时,不会使用到支持度与置信度
B 包含某项集的事务在所有事务中所占的比例,即为该项集的置信度
C 在关联规则的先决条件X发生的条件下,关联结果Y发生的概率,即为支持度
D 以上说法均不正确
1=>B 2=>D