Python全系列 教程
3567个小节阅读:5930.3k
目录
鸿蒙应用开发
C语言快速入门
JAVA全系列 教程
面向对象的程序设计语言
Python全系列 教程
Python3.x版本,未来主流的版本
人工智能 教程
顺势而为,AI创新未来
大厂算法 教程
算法,程序员自我提升必经之路
C++ 教程
一门通用计算机编程语言
微服务 教程
目前业界流行的框架组合
web前端全系列 教程
通向WEB技术世界的钥匙
大数据全系列 教程
站在云端操控万千数据
AIGC全能工具班
A A
White Night
无论是基于用户还是基于物品的协同过滤算法,其本质都是寻找数据之间的相似度。本
节介绍计算相似度的三种常见方法:
使用两向量夹角θ的余弦值cosθ来表示两个向量的相似度,称为余弦相似度。余弦相似
度的范围是:[-1,1],夹角越小,余弦值越接近于1,两个向量越靠近,两者越相似。两个向
量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两
个向量指向完全相反的方向时,余弦相似度的值为-1。
余弦相似度公式为:
其中,<a,b>表示的是向量a和向量b的内积,||a||和||b||分别表示向量a和向量b的模(长度)。
例如,向量a=(X~1~,Y~1~),向量b=(X~2~,Y~2~),代入余弦相似度公式可以得到:
可以将其推广至n维向量空间:
若向量a=(X~1~,X~2~,X~3~,...,X~n~),向量b=(Y1,Y2,Y3,...,Yn),其夹角的余弦值(余弦相似度)可
以表示为:
皮尔逊相关系数r是用来描述两个数值型变量间线性相关强弱程度的统计量,r的绝对值
越大表明相关性越强。r取值范围为[-1,1],为正代表两个变量存在正相关,为负代表两个变
量存在负相关,r=0,说明两个变量之间无线性相关关系。要计算变量X与Y的皮尔逊相关系
数,其计算公式如下:
其中S~X~和S~Y~分别为变量X和变量Y的标准差,COV(X,Y)为变量X和变量Y的协方差
1. 关于余弦相似度,下列说法正确的是:
A 余弦相似度的范围是:[0,1]
B 夹角越小两个向量越不同
C 两向量的夹角θ称为余弦相似度
D 两个向量指向完全相反的方向时,余弦相似度的值为-1
2. 关于皮尔逊相关系数,下列说法正确的是:
A 取值范围为[-1,1]
B r=0,说明两个变量之间无任何相关关系
C r的绝对值越大表明相关性越弱
D 以上说法均不正确
1=>D 2=>A