如何使用TensorFlow拆分和检查数据以预测Auto MPG数据集的燃油效率?
TensorFlow是由Google提供的机器学习框架,它是与Python一起实现算法、深度学习应用程序等的开源框架。它被用于研究和生产目的。它具有优化技术,可以帮助快速执行复杂的数学运算。这是因为它使用NumPy和多维数组。这些多维数组也称为“张量”。该框架支持使用深度神经网络。它高度可伸缩,并带有许多流行的数据集。
张量是TensorFlow中使用的数据结构。它帮助连接流程图中的边缘。这个流程图被称为“数据流图”。张量就是多维数组或列表。
回归问题的目的是预测连续或离散变量的输出,比如价格、概率、是否下雨等等。
我们使用的数据集叫做“Auto MPG”数据集。它包含了1970年代和1980年代汽车的燃油效率。它包括诸如重量、马力、排量等属性。我们需要用这些属性来预测特定车辆的燃油效率。
我们使用Google Colaboratory来运行下面的代码。Google Colab或Colaboratory可以在浏览器中运行Python代码,不需要任何配置,可以免费访问GPU(图形处理单元)。Colaboratory是建立在Jupyter Notebook之上的。
以下是代码片段,我们将看到如何使用TensorFlow拆分和检查数据以预测Auto MPG数据集的燃油效率−
更多Python相关文章,请阅读:Python 教程
示例
print("Splitting the training and testing dataset")
train_dataset = dataset.sample(frac=0.7, random_state=0)
test_dataset = dataset.drop(train_dataset.index)
print("Plotting the training data as a visualization")
sns.pairplot(train_dataset[['MPG', 'Cylinders', 'Displacement', 'Weight']], diag_kind='kde')
print("Understanding the statistics associated with the data")
train_dataset.describe().transpose()
代码来源 − https://www.tensorflow.org/tutorials/keras/regression
输出
Splitting the training and testing dataset
Plotting the training data as a visualization
Understanding the statistics associated with the data
解释
-
一旦数据被清理,数据就会被拆分为训练和测试数据集。
-
训练数据集使用70%,剩余30%用于测试。
-
使用seaborn包在控制台上可视化这些训练数据。
-
使用“describe”函数显示数据的统计信息,如计数、平均值、中位数等等。