Python余弦相似度|极客教程

Python余弦相似度

概述

余弦相似度是一种常用的相似度度量方法，常用于文本相似度计算、推荐系统等领域。本文将详解余弦相似度的原理和实现方法，并给出具体的示例代码。

原理

余弦相似度旨在衡量两个向量在多维空间中的夹角，从而判断它们的相似程度。假设有两个向量A和B，它们的维度分别为n和m。那么余弦相似度的计算公式如下：

cosine_similarity = dot(A, B) / (||A|| * ||B||)

其中，dot(A, B)表示向量A和B的内积，||A||和||B||表示向量A和B的模（也就是向量的长度）。

实现

在Python中，我们可以使用NumPy库来实现余弦相似度的计算。首先，需要导入NumPy库：

import numpy as np

接下来，我们可以定义两个向量A和B，并计算它们的余弦相似度：

def cosine_similarity(A, B):
    dot_product = np.dot(A, B)
    norm_A = np.linalg.norm(A)
    norm_B = np.linalg.norm(B)
    similarity = dot_product / (norm_A * norm_B)
    return similarity

A = np.array([1, 2, 3])
B = np.array([4, 5, 6])
similarity = cosine_similarity(A, B)
print(similarity)

运行上述代码，得到的结果为0.9746318461970762，表示向量A和向量B的余弦相似度为0.975。

示例应用

余弦相似度在文本相似度计算中有广泛应用。下面我们以简单的文本相似度计算为例，演示如何使用余弦相似度计算两个文本的相似程度。

首先，我们需要将文本转换为向量表示。常用的方法是使用词袋模型，将文本表示为词频向量。下面是一个简单的示例：

from sklearn.feature_extraction.text import CountVectorizer

text1 = "I love coding"
text2 = "I enjoy coding"
text3 = "I hate coding"

corpus = [text1, text2, text3]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus).toarray()

接着，我们可以使用余弦相似度计算两个文本的相似度：

def cosine_similarity(A, B):
    dot_product = np.dot(A, B)
    norm_A = np.linalg.norm(A)
    norm_B = np.linalg.norm(B)
    similarity = dot_product / (norm_A * norm_B)
    return similarity

similarity1_2 = cosine_similarity(X[0], X[1])
similarity1_3 = cosine_similarity(X[0], X[2])

print(similarity1_2)
print(similarity1_3)

运行上述代码，得到的结果为0.8660254037844387和0.0，表示文本1和文本2的相似度为0.866，文本1和文本3的相似度为0.0，即完全不相似。