Python 文本分类
很多时候,我们需要根据一些预定义的标准将可用的文本分为不同的类别。nltk提供了各种corpora的功能。在下面的示例中,我们会查看电影评论corpus,并检查可用的分类。
当我们运行上述程序时,得到以下输出−。
现在让我们看一下其中一个正面评论的内容。这个文件中的句子已经进行了分词,并且我们打印出前四个句子来查看示例。
当我们运行上述程序时,我们得到以下输出 –
接下来,我们对这些文件中的单词进行切词,并使用nltk中的FreqDist函数来找到最常见的单词。
当我们运行上述程序时,我们会得到以下的输出 –