Python 了解 CountVectorizer 中的 `ngram_range` 参数 in sklearn

在本文中，我们将介绍在使用 CountVectorizer 类进行文本特征向量化时的一个重要参数：ngram_range。ngram_range 参数用于指定要考虑的不同 n-gram 的范围，从而允许我们更精确地捕捉文本中的语言特征和模式。

阅读更多：Python 教程

CountVectorizer 简介

CountVectorizer 是 sklearn 库中一个常用的文本向量化工具。它将文本数据转换为计算机可读的向量形式，以便进行机器学习和自然语言处理等任务。在将文本转换为向量时，CountVectorizer 考虑的一个重要参数就是 ngram_range。

什么是 n-gram？

在介绍 ngram_range 参数之前，我们先来了解一下什么是 n-gram。n-gram 的基本概念是将文本的连续 n 个项（例如字符、词语等）视为一个整体，从而捕捉到局部的语言模式。以英文为例，n=1 时表示 unigram，即单个字符或单词；n=2 时表示 bigram，即两个连续的字符或单词；n=3 时表示 trigram，即三个连续的字符或单词。通过使用 n-gram，我们可以更好地捕捉到文本中的上下文和语言特征。

`ngram_range` 参数的用法

在 sklearn 的 CountVectorizer 中，ngram_range 参数用于指定要考虑的 n-gram 的范围。该参数的值是一个元组，包含两个整数。例如，ngram_range=(1,2) 表示我们同时考虑 unigram 和 bigram。值得注意的是，ngram_range 参数是一个闭区间，即 ngram_range=(1,2) 包含了所有 1-gram 和 2-gram。

让我们通过一个简单的示例来说明 ngram_range 参数的用法。假设我们有一个包含两个文本的数据集：

docs = ['This is the first document.', 'This document is the second document.']

接下来，我们可以使用 CountVectorizer 将文本转换为向量，并指定 ngram_range=(1,2)：

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(ngram_range=(1,2))
X = vectorizer.fit_transform(docs)

结果向量 X 将会是一个稀疏矩阵，每一行代表一个文本，每一列代表一个特征（unigram 或 bigram）。我们可以通过以下代码来查看特征名字和对应的索引：

feature_names = vectorizer.get_feature_names()
print(feature_names)

输出的结果将会是：

['document', 'document is', 'first', 'first document', 'is', 'is the', 'second', 'second document', 'the', 'the first', 'the second', 'this', 'this document', 'this is']

`ngram_range` 参数的实际应用

在实际应用中，ngram_range 参数的选择需要根据具体问题和目标来决定。较大的 n 值可以帮助我们捕捉更长的语言模式和上下文信息，但也可能会引入更多的噪声和稀疏性。而较小的 n 值则可能无法捕捉到一些重要的信息。因此，在使用 CountVectorizer 进行特征向量化时，我们需要进行一些实验和调参，找到最适合我们问题的 ngram_range。

为了帮助理解 ngram_range 参数对特征向量化结果的影响，我们可以通过绘制词云来观察不同参数下的特征分布情况。以下是一个示例代码：

from wordcloud import WordCloud
import matplotlib.pyplot as plt

# 创建 CountVectorizer 对象
vectorizer = CountVectorizer(ngram_range=(1,1))
X_unigram = vectorizer.fit_transform(docs)
feature_names_unigram = vectorizer.get_feature_names()

# 创建词云
wordcloud_unigram = WordCloud(width=800, height=400).generate(' '.join(feature_names_unigram))

# 绘制词云
plt.figure(figsize=(10,5))
plt.imshow(wordcloud_unigram, interpolation='bilinear')
plt.axis("off")
plt.title("Word Cloud: Unigram")
plt.show()

通过调整 ngram_range 参数的值，我们可以观察到不同 n-gram 下特征词的分布情况，并选择合适的参数来进行特征向量化。

总结

在本文中，我们介绍了使用 CountVectorizer 类进行文本特征向量化时的一个关键参数：ngram_range。我们了解了 n-gram 的概念，并说明了 ngram_range 参数的用法和实际应用。在实际使用中，我们需要根据具体问题和目标来选择合适的 ngram_range 参数，从而更准确地捕捉到文本中的语言特征和模式。希望本文能够帮助读者更好地理解和应用 ngram_range 参数。