如何使用 TensorFlow 清洗数据以预测 Auto MPG 数据集的燃油效率?
Tensorflow 是谷歌提供的机器学习框架。它是一种开源框架,与 Python 一起使用以实现算法、深度学习应用等。
‘tensorflow’ 包可以使用以下代码在 Windows 上安装 −
pip install tensorflow
张量是 TensorFlow 中使用的数据结构。它有助于连接流程图中的边缘。这个流程图称为‘数据流图’。张量不过是多维数组或列表。
回归问题的目的是预测连续或离散变量的输出,例如价格、概率、是否会下雨等等。
我们使用的数据集称为‘Auto MPG’数据集。它包含1970年代和1980年代汽车的燃油效率。它包括重量、马力、排量等属性。我们需要使用这些属性来预测特定车辆的燃油效率。
我们使用 Google Colaboratory 来运行以下代码。Google Colab 或 Colaboratory 可以在浏览器中运行 Python 代码,无需任何配置,而且可以免费访问 GPU(图形处理单元)。Colaboratory 是建立在 Jupyter Notebook 之上的。
以下是代码片段,在其中我们将看到如何使用 TensorFlow 清洗数据以预测 Auto MPG 数据集的燃油效率−
更多Python相关文章,请阅读:Python 教程
示例
print("数据清洗已开始")
dataset.isna().sum()
dataset = dataset.dropna()
dataset['Origin'] = dataset['Origin'].map({1: 'USA', 2: 'Europe', 3: 'Japan'})
print("数据清洗完成!")
dataset = pd.get_dummies(dataset, prefix='', prefix_sep='')
print("数据清洗后的数据集样本:")
dataset.head(4)
代码来源 − https://www.tensorflow.org/tutorials/keras/regression
输出
数据清洗已开始
数据清洗完成!
数据清洗后的数据集样本 −
解释
-
数据清洗始于删除数据集中的‘nan’。
-
‘map’函数用于将标签映射到列名。
-
在数据清洗后,样本数据集会显示在控制台上。