如何使用Tensorflow文本拆分Python中的UTF-8字符串?

如何使用Tensorflow文本拆分Python中的UTF-8字符串?

可以使用Tensorflow文本拆分UTF-8字符串。这可以通过“ UnicodeScriptTokenizer”来完成。在创建了“UnicodeScriptTokenizer”之后,可以调用字符串中的“tokenize”方法。

我们将使用Sequential API来构建顺序模型,该模型用于处理一组平面层,其中每个层都有一个输入张量和一个输出张量。

至少包含一个层的神经网络称为卷积层。我们可以使用卷积神经网络来构建学习模型。 卷积神经网络如何用于构建学习模型。

TensorFlow Text包含一组用于与TensorFlow 2.0配合使用的文本相关的类和操作。 TensorFlow Text可用于 预处理序列建模。

我们使用Google Colaboratory来运行下面的代码。Google Colab或Colaboratory可以在浏览器上运行Python代码,无需配置即可自由访问GPU(图形处理单元)。 Colaboratory构建在Jupyter Notebook之上。

分词是将字符串分解为令牌的方法。这些标记可以是单词,数字或标点符号。

重要的接口包括Tokenizer和TokenizerWithOffsets,每个接口都有一个单独的tokenize方法和with_offsets相应的方法。有多个标记器,每个标记器都实现了TokenizerWithOffsets(它扩展了Tokenizer类)。这包括一个选项,以获取原始字符串中的字节偏移量。这有助于了解创建标记的原始字符串中的字节。

所有标记器都返回具有映射到原始字符串的单个标记的标记的RaggedTensors。结果形状的秩增加了一。

更多Python相关文章,请阅读:Python 教程

print(“正在调用Unicode脚本分词器”)
tokenizer = text.UnicodeScriptTokenizer()
tokens = tokenizer.tokenize(['everything not saved will be lost。',u'Sad ☹' .encode('UTF-8')])
print(“ tokenized数据已转换为列表”)
print(tokens.to_list())

代码来源 − https://www.tensorflow.org/tutorials/tensorflow_text/intro

输出

正在调用Unicode脚本分词器
 tokenized数据已转换为列表
 [[b'everything',b'not',b'saved',b'will',b'be',b'lost',b'。'],[b'Sad',b'☹']]

说明

  • 分词器基于Unicode脚本分割UTF-8字符串。

  • 脚本代码对应于国际Unicode组件(ICU)UScriptCode值。

  • 它类似于WhitespaceTokenizer,但不同的是它会将标点符号(USCRIPT_COMMON)从语言文本中分开,并将语言文本从彼此分开。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程