Python – 文本分类
在很多情况下,我们需要按照某些预定义的标准将可用文本分类到各种类别中。nltk提供了这样的功能,作为各种语料库的一部分。在下面的示例中,我们查看了电影评论语料库并检查可用的分类。
当我们运行上面的程序时,我们得到以下输出 –
现在让我们看一下具有正面评价的文件中的内容。在此文件中的句子被分词,并且我们打印前四个句子以查看样本。
运行上面的程序时,我们得到以下输出 –
接下来,我们在每个文件中标记单词,使用nltk的FreqDist函数找到最常见的单词。
运行上面的程序时,我们得到以下输出 –