什么是与Tensorflow和Python相关的Unicode脚本?

什么是与Tensorflow和Python相关的Unicode脚本?

每个Unicode编码点都属于一个称为脚本的编码点集合。一个字符的脚本决定了这个字符所属的语言。TensorFlow附带了一个名为’strings.unicode_script’的方法,可以帮助查找给定代码点将使用哪个脚本。脚本代码是int32值,可以映射到国际化组件Unicode(ICU)UScriptCode值。

接下来,我们将了解使用Python表示Unicode字符串,以及使用Unicode等价项操纵这些字符串的方法。首先,使用标准字符串操作的Unicode等价项将Unicode字符串分解为标记。

我们使用Google Colaboratory来运行以下代码。Google Colab或Colaboratory在浏览器上运行Python代码,并且不需要任何配置和免费使用GPU(图形处理单元)。Colaboratory是基于Jupyter Notebook构建的。

print("下面分别表示'芸'和'Б'")
uscript = tf.strings.unicode_script([33464, 1041])  
print(uscript.numpy())   # [17, 8] == [USCRIPT_HAN, USCRIPT_CYRILLIC]
print("对多维字符串应用上述方法")
print(tf.strings.unicode_script(batch_chars_ragged))

代码来源:https://www.tensorflow.org/tutorials/load_data/unicode

更多Python相关文章,请阅读:Python 教程

输出

下面分别表示'芸'和'Б'
[17   8]
对多维字符串应用上述方法
<tf.RaggedTensor [[25, 25, 25, 25, 25], [25, 25, 25, 25, 0, 25, 25, 0, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 25], [25, 25, 25, 25, 25, 25, 25, 25, 25], [0]]>

解释

  • 每个Unicode编码点都属于一个称为脚本的编码点集合。
  • 字符的脚本有助于确定字符可能属于哪种语言。
  • TensorFlow提供了tf.strings.unicode_script操作,可以查找给定代码点将使用哪个脚本。
  • 脚本代码是int32值,对应国际化组件Unicode(ICU)UScriptCode值。
  • tf.strings.unicode_script操作也可以应用于多维tf.Tensors或tf.RaggedTensors的代码点。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程