Python 过滤重复单词
很多时候,我们只需要分析文件中出现的独特单词。因此,我们需要从文本中消除重复的单词。这可以通过使用nltk中提供的单词标记化和集合函数实现。
不保留顺序
在下面的示例中,我们首先将句子分词为单词。然后我们应用set()函数,它创建一个无序的唯一元素集合。结果将是没有顺序的独特单词。
当我们运行上述程序时,我们会得到以下输出 –
保留顺序
为了删除重复单词但仍保持句子中单词的顺序,我们读取单词并将其追加到列表中。
当我们运行上面的程序时,我们得到以下输出−
很多时候,我们只需要分析文件中出现的独特单词。因此,我们需要从文本中消除重复的单词。这可以通过使用nltk中提供的单词标记化和集合函数实现。
在下面的示例中,我们首先将句子分词为单词。然后我们应用set()函数,它创建一个无序的唯一元素集合。结果将是没有顺序的独特单词。
当我们运行上述程序时,我们会得到以下输出 –
为了删除重复单词但仍保持句子中单词的顺序,我们读取单词并将其追加到列表中。
当我们运行上面的程序时,我们得到以下输出−