如何使用Python将Tensorflow用于标准化数据
在这篇文章中,我们将看到如何在Python中使用Tensorflow对数据进行标准化。
什么是数据标准化
将各种数据集的组织结构转换为单一的、标准的数据格式的过程被称为数据标准化。它涉及到数据集从各种来源收集后,在加载到目标系统之前的修改。它需要大量的时间和迭代来完成,导致极其准确、高效、耗时的整合和开发工作。
如何利用Tensorflow来实现数据的标准化
我们正在使用鲜花数据集来了解如何使用Python将Tensorflow用于标准化数据。该花卉数据集包含了几千张有正确命名的花卉图片。在其五个子目录中,每个类都有一个子目录。花卉数据集在使用’get_file’方法下载后将被加载到环境中使用。
现在,让我们试着了解如何下载花的数据集,但在下载之前,我们需要导入一些python库,为了运行下面的代码,我们使用Google Collaborate。
导入库
在第一步中,我们导入一些重要的tensorflow和python库,这些库将在进一步的过程中使用。
下载数据集
我们正在使用一个Flower数据集,它包含五个子目录,每个类都有一个。因此,为了使用该数据集,我们需要先下载它。
你现在应该有一份下载后的数据集的副本。总共有3670张图片。你可以通过使用下面的代码来计算数据集上的图片。
输出:
在数据集中,我们有5类花可供选择,包括玫瑰花、郁金香、雏菊、蒲公英和向日葵。
加载数据集
为了加载数据集,你需要为加载器定义一些参数。现在,我们需要分割数据集,默认情况下,我们使用60%的花卉数据集作为训练,40%用于测试。
输出:
将数据集标准化
RGB通道的数值在0到255之间。这对神经网络来说并不理想;一般来说,尽量保持你的输入值最小。
我们可以通过使用重新缩放层(tensorflow.keras.layer.Rescaling)将数值标准化,使其落在[0, 1]之间。
输出: