目录
百战程序员,全站22050+开发课程+文档 ,学习精选优质好课快人一步!观看视频 快捷键ALT+N

Python全系列 教程

3567个小节阅读:5930.3k

收藏
全部开发者教程

鸿蒙应用开发

C语言快速入门

JAVA全系列 教程

面向对象的程序设计语言

Python全系列 教程

Python3.x版本,未来主流的版本

人工智能 教程

顺势而为,AI创新未来

大厂算法 教程

算法,程序员自我提升必经之路

C++ 教程

一门通用计算机编程语言

微服务 教程

目前业界流行的框架组合

web前端全系列 教程

通向WEB技术世界的钥匙

大数据全系列 教程

站在云端操控万千数据

AIGC全能工具班

A

A A

White Night

阅读(492)
赞(0)

相似度计算的常用方法

image-20230108120218416

无论是基于用户还是基于物品的协同过滤算法,其本质都是寻找数据之间的相似度。本

节介绍计算相似度的三种常见方法:

  • 欧式距离
i=1n(Xi(a)Xi(b))2
  • 余弦相似度

使用两向量夹角θ的余弦值cosθ来表示两个向量的相似度,称为余弦相似度。余弦相似

度的范围是:[-1,1],夹角越小,余弦值越接近于1,两个向量越靠近,两者越相似。两个向

量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两

个向量指向完全相反的方向时,余弦相似度的值为-1。

image-20230108121040956

余弦相似度公式为:

cosθ=<a,b>||a||||b||

其中,<a,b>表示的是向量a和向量b的内积,||a||和||b||分别表示向量a和向量b的模(长度)。

例如,向量a=(X~1~,Y~1~),向量b=(X~2~,Y~2~),代入余弦相似度公式可以得到:

cosθ=X1X2+Y1Y2X12+Y12X22+Y22

可以将其推广至n维向量空间:

若向量a=(X~1~,X~2~,X~3~,...,X~n~),向量b=(Y1,Y2,Y3,...,Yn),其夹角的余弦值(余弦相似度)可

以表示为:

cosθ=x1y1+x2y2+x3y3+...+xnynx12+x22+x32+...+xn2y12+y22+y32+...+yn2
  • 皮尔逊相关系数

皮尔逊相关系数r是用来描述两个数值型变量间线性相关强弱程度的统计量,r的绝对值

越大表明相关性越强。r取值范围为[-1,1],为正代表两个变量存在正相关,为负代表两个变

量存在负相关,r=0,说明两个变量之间无线性相关关系。要计算变量X与Y的皮尔逊相关系

数,其计算公式如下:

r=Cov(X,Y)SXSY

其中S~X~和S~Y~分别为变量X和变量Y的标准差,COV(X,Y)为变量X和变量Y的协方差

实时效果反馈

1. 关于余弦相似度,下列说法正确的是:

A 余弦相似度的范围是:[0,1]

B 夹角越小两个向量越不同

C 两向量的夹角θ称为余弦相似度

D 两个向量指向完全相反的方向时,余弦相似度的值为-1

2. 关于皮尔逊相关系数,下列说法正确的是:

A 取值范围为[-1,1]

B r=0,说明两个变量之间无任何相关关系

C r的绝对值越大表明相关性越弱

D 以上说法均不正确

答案

1=>D 2=>A

 

北京市昌平区回龙观镇南店村综合商业楼2楼226室

©2014-2023 百战卓越(北京)科技有限公司 All Rights Reserved.

京ICP备14032124号-2