python 余弦相似度

概述

在自然语言处理和机器学习领域，余弦相似度是一种常用的度量两个非零向量之间相似度的方法。它通过计算两个向量的夹角来衡量它们的相似程度，而不关心向量的绝对值。余弦相似度越接近于1，表示两个向量越相似；相反，越接近于0，表示两个向量越不相似。

公式推导

对于两个维度相同的向量A和B，余弦相似度的计算方式如下所示：

python 余弦相似度

其中，A·B表示向量A和向量B的点积，|A|和|B|表示向量A和向量B的模（长度）。

示例代码

下面是一个使用Python计算余弦相似度的示例代码：

import numpy as np

def cosine_similarity(A, B):
    dot_product = np.dot(A, B)
    norm_A = np.linalg.norm(A)
    norm_B = np.linalg.norm(B)
    similarity = dot_product / (norm_A * norm_B)
    return similarity

# 示例向量A和向量B
A = np.array([1, 2, 3, 4, 5])
B = np.array([2, 4, 6, 8, 10])

# 计算余弦相似度
similarity = cosine_similarity(A, B)

print("余弦相似度:", similarity)

运行结果：

余弦相似度: 1.0

解析

在示例代码中，首先导入了numpy库，用于数组和矩阵的计算。然后定义了一个cosine_similarity函数，该函数接受两个向量A和B作为输入参数。函数内部通过numpy库中的dot函数计算向量A和向量B的点积，然后使用np.linalg.norm函数计算向量A和向量B的模（长度）。最后，将点积除以两个向量的模的乘积，得到余弦相似度。最后打印出计算结果。

在示例中，向量A和向量B的值分别为[1, 2, 3, 4, 5]和[2, 4, 6, 8, 10]，这两个向量是线性相关的，因此其夹角为0度，余弦相似度为1.0。如果两个向量完全相同，则余弦相似度为1；如果两个向量完全不相同，则余弦相似度为0。

应用场景

余弦相似度广泛应用于自然语言处理和信息检索领域，常用于文本相似度计算、聚类和推荐系统等任务。

文本相似度计算：通过计算两个文本向量的余弦相似度，可以判断这两个文本在语义上的相似程度，用于文本分类、情感分析等任务。

聚类：通过计算文本向量之间的余弦相似度，可以将相似的文本聚合在一起，形成不同的簇。聚类算法如K-means和层次聚类等常常使用余弦相似度作为相似度度量。

推荐系统：通过计算用户和物品的向量之间的余弦相似度，可以为用户推荐与其兴趣相似的物品。在协同过滤算法中，余弦相似度是一种常用的相似度度量方法。

总结

余弦相似度是一种常用的度量向量相似度的方法，特别适用于处理文本和稀疏向量。通过计算两个向量的夹角，余弦相似度可以衡量它们之间的相似程度。在Python中，使用numpy库可以方便地进行向量的计算，通过计算向量的点积和模，可以求得余弦相似度。余弦相似度广泛应用于自然语言处理和机器学习领域，是许多任务中常用的相似度度量方法之一。