什么是与Tensorflow和Python相关的Unicode脚本?
每个Unicode编码点都属于一个称为脚本的编码点集合。一个字符的脚本决定了这个字符所属的语言。TensorFlow附带了一个名为’strings.unicode_script’的方法,可以帮助查找给定代码点将使用哪个脚本。脚本代码是int32值,可以映射到国际化组件Unicode(ICU)UScriptCode值。
接下来,我们将了解使用Python表示Unicode字符串,以及使用Unicode等价项操纵这些字符串的方法。首先,使用标准字符串操作的Unicode等价项将Unicode字符串分解为标记。
我们使用Google Colaboratory来运行以下代码。Google Colab或Colaboratory在浏览器上运行Python代码,并且不需要任何配置和免费使用GPU(图形处理单元)。Colaboratory是基于Jupyter Notebook构建的。
print("下面分别表示'芸'和'Б'")
uscript = tf.strings.unicode_script([33464, 1041])
print(uscript.numpy()) # [17, 8] == [USCRIPT_HAN, USCRIPT_CYRILLIC]
print("对多维字符串应用上述方法")
print(tf.strings.unicode_script(batch_chars_ragged))
代码来源:https://www.tensorflow.org/tutorials/load_data/unicode
更多Python相关文章,请阅读:Python 教程
输出
下面分别表示'芸'和'Б'
[17 8]
对多维字符串应用上述方法
<tf.RaggedTensor [[25, 25, 25, 25, 25], [25, 25, 25, 25, 0, 25, 25, 0, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 25], [25, 25, 25, 25, 25, 25, 25, 25, 25], [0]]>
解释
- 每个Unicode编码点都属于一个称为脚本的编码点集合。
- 字符的脚本有助于确定字符可能属于哪种语言。
- TensorFlow提供了tf.strings.unicode_script操作,可以查找给定代码点将使用哪个脚本。
- 脚本代码是int32值,对应国际化组件Unicode(ICU)UScriptCode值。
- tf.strings.unicode_script操作也可以应用于多维tf.Tensors或tf.RaggedTensors的代码点。
极客教程