如何使用Python准备Illiad数据集进行训练?
Tensorflow是由Google提供的机器学习框架。它是一个开源框架,与Python一起使用来实现算法、深度学习应用等。它被用于研究和生产目的。
可以使用以下代码行在Windows上安装“tensorflow”包-
张量是TensorFlow中使用的数据结构。它有助于连接流程图中的边缘。这个流程图被称为“数据流图”。张量只是一个多维数组或列表。
我们将使用Illiad数据集,其中包含William Cowper、Edward(Earl of Derby)和Samuel Butler三个翻译作品的文本数据。当给出单行文本时,模型被训练以识别翻译者。使用的文本文件已进行预处理。这包括去除文档标题、页码和章节标题。
我们正在使用Google Colaboratory运行下面的代码。Google Colab或Colaboratory可以在浏览器上运行Python代码,并且需要零配置和免费访问GPU(图形处理器)。Collaboratory是在Jupyter Notebook之上构建的。
更多Python相关文章,请阅读:Python 教程
示例
以下是代码片段-
代码来源 – https://www.tensorflow.org/tutorials/load_data/text
输出
解释
-
定义一个“tokenize”函数,将数据集中的句子通过消除空格分成单词。
-
在整个数据集上调用这个函数。
-
在控制台上显示分词后的数据集样本。