如何使用Tensorflow文本拆分Python中的UTF-8字符串?
可以使用Tensorflow文本拆分UTF-8字符串。这可以通过“ UnicodeScriptTokenizer”来完成。在创建了“UnicodeScriptTokenizer”之后,可以调用字符串中的“tokenize”方法。
我们将使用Sequential API来构建顺序模型,该模型用于处理一组平面层,其中每个层都有一个输入张量和一个输出张量。
至少包含一个层的神经网络称为卷积层。我们可以使用卷积神经网络来构建学习模型。 卷积神经网络如何用于构建学习模型。
TensorFlow Text包含一组用于与TensorFlow 2.0配合使用的文本相关的类和操作。 TensorFlow Text可用于 预处理序列建模。
我们使用Google Colaboratory来运行下面的代码。Google Colab或Colaboratory可以在浏览器上运行Python代码,无需配置即可自由访问GPU(图形处理单元)。 Colaboratory构建在Jupyter Notebook之上。
分词是将字符串分解为令牌的方法。这些标记可以是单词,数字或标点符号。
重要的接口包括Tokenizer和TokenizerWithOffsets,每个接口都有一个单独的tokenize方法和with_offsets相应的方法。有多个标记器,每个标记器都实现了TokenizerWithOffsets(它扩展了Tokenizer类)。这包括一个选项,以获取原始字符串中的字节偏移量。这有助于了解创建标记的原始字符串中的字节。
所有标记器都返回具有映射到原始字符串的单个标记的标记的RaggedTensors。结果形状的秩增加了一。
更多Python相关文章,请阅读:Python 教程
例
print(“正在调用Unicode脚本分词器”)
tokenizer = text.UnicodeScriptTokenizer()
tokens = tokenizer.tokenize(['everything not saved will be lost。',u'Sad ☹' .encode('UTF-8')])
print(“ tokenized数据已转换为列表”)
print(tokens.to_list())
代码来源 − https://www.tensorflow.org/tutorials/tensorflow_text/intro
输出
正在调用Unicode脚本分词器
tokenized数据已转换为列表
[[b'everything',b'not',b'saved',b'will',b'be',b'lost',b'。'],[b'Sad',b'☹']]
说明
-
分词器基于Unicode脚本分割UTF-8字符串。
-
脚本代码对应于国际Unicode组件(ICU)UScriptCode值。
-
它类似于WhitespaceTokenizer,但不同的是它会将标点符号(USCRIPT_COMMON)从语言文本中分开,并将语言文本从彼此分开。
极客教程