相似度的几种常见计算方法
相似度的计算现有的关于相似度计算的方法,基本上都是基于向量的,也即计算两个向量之间的距离,距离越近越相似。下面是几种常见的相似度计算方法。
1.杰卡德相似系数
Jaccard(杰卡德)相似性系数主要用于计算符号度量或布尔值度量的样本间的相似度。 Jaccard(杰卡德)系数等于样本集交集的个数和样本集并集个数的比值。 Jaccard(杰卡德)距离是用两个集合中不同元素所占元素的比例来衡量两个集合(样本)的区分度。 Jaccard系数主要的应用的场景有: 1).过滤相似度很高的新闻,或者网页去重 2).考试防作弊系统 3).论文查重系统
2.余弦相似度
是通过计算两个向量的夹角余弦值来评估他们的相似度。 如图,假设 = (x1,y1), = (x2,y2),则余弦相似度的计算公式为: 余弦相似度主要的应用的场景有: 1)推荐系统中的协同过滤 2)计算文本的相似性
3.通过距离计算相似度
二维空间中,假设 = (x1,y1), = (x2,y2) 1)欧式距离 2)曼哈顿距离 以上的都为二位向量,多维的可进行类比。
4.皮尔逊相关系数
一般用于计算两个定距变量间联系的紧密程度。假设有两个变量X,Y,则它们之间的相关系数为: 最终计算出的相关系数的含义可以有如下理解: 1)当相关系数为0时,X和Y两变量无关系。 2)当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。 3)当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。 当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于: 1)两个变量之间是线性关系,都是连续数据。 2)两个变量的总体是正态分布,或接近正态的单峰分布。 3)两个变量的观测值是成对的,每对观测值之间相互独立。