Python – 分词
在Python中,分词基本上是将较大的文本分割成较小的行、单词或甚至是用于非英语语言的单词。nltk模块内置的各种分词函数可以像下面的程序一样在程序中使用。
行分词
在下面的示例中,我们使用函数sent_tokenize将给定的文本分成不同的行。
当我们运行上述程序时,我们得到以下输出-
非英语分词
在下面的示例中,我们对德语文本进行分词。
当我们运行上述程序时,我们得到以下输出-
单词分词
我们使用nltk的word_tokenize函数对单词进行分词。
当我们运行上述程序时,我们得到以下输出-