如何使用Tensorflow文本拆分Python中的UTF-8字符串？

可以使用Tensorflow文本拆分UTF-8字符串。这可以通过“ UnicodeScriptTokenizer”来完成。在创建了“UnicodeScriptTokenizer”之后，可以调用字符串中的“tokenize”方法。

我们将使用Sequential API来构建顺序模型，该模型用于处理一组平面层，其中每个层都有一个输入张量和一个输出张量。

至少包含一个层的神经网络称为卷积层。我们可以使用卷积神经网络来构建学习模型。卷积神经网络如何用于构建学习模型。

TensorFlow Text包含一组用于与TensorFlow 2.0配合使用的文本相关的类和操作。 TensorFlow Text可用于预处理序列建模。

我们使用Google Colaboratory来运行下面的代码。Google Colab或Colaboratory可以在浏览器上运行Python代码，无需配置即可自由访问GPU（图形处理单元）。 Colaboratory构建在Jupyter Notebook之上。

分词是将字符串分解为令牌的方法。这些标记可以是单词，数字或标点符号。

重要的接口包括Tokenizer和TokenizerWithOffsets，每个接口都有一个单独的tokenize方法和with_offsets相应的方法。有多个标记器，每个标记器都实现了TokenizerWithOffsets（它扩展了Tokenizer类）。这包括一个选项，以获取原始字符串中的字节偏移量。这有助于了解创建标记的原始字符串中的字节。

所有标记器都返回具有映射到原始字符串的单个标记的标记的RaggedTensors。结果形状的秩增加了一。

更多Python相关文章，请阅读：Python 教程

例

print（“正在调用Unicode脚本分词器”）
tokenizer = text.UnicodeScriptTokenizer（）
tokens = tokenizer.tokenize（['everything not saved will be lost。'，u'Sad ☹' .encode（'UTF-8'）]）
print（“ tokenized数据已转换为列表”）
print（tokens.to_list（））

代码来源 − https://www.tensorflow.org/tutorials/tensorflow_text/intro

输出

正在调用Unicode脚本分词器
 tokenized数据已转换为列表
 [[b'everything'，b'not'，b'saved'，b'will'，b'be'，b'lost'，b'。']，[b'Sad'，b'☹']]

说明

分词器基于Unicode脚本分割UTF-8字符串。
脚本代码对应于国际Unicode组件（ICU）UScriptCode值。
它类似于WhitespaceTokenizer，但不同的是它会将标点符号（USCRIPT_COMMON）从语言文本中分开，并将语言文本从彼此分开。

如何使用Tensorflow文本拆分Python中的UTF-8字符串？

如何使用Tensorflow文本拆分Python中的UTF-8字符串？

例

输出

说明

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

Python 精品教程

回顶部