Numpy 加载范例数据集,scikits-learn项目中包含了若干数据集和范例图像,可以用来做一些实验。本章我们将加载一个scikits-learn发行版中的范例数据集。该数据集用二维的NumPy数组保存数据,其中还包括了与这些数据有关联的元数据。
具体步骤
我们将加载一个波士顿房价的范例数据集。这是一个很小的数据集,所以,如果你正在波士顿物色房屋,别太激动。有关范例数据集的更多的介绍请见http://scikit-learn.org/dev/modules/classes.html#module-sklearn.datasets。
我们将查看原始数据的形状,以及其中的最大值和最小值。形状对应一个元组,表示NumPy数组的维度信息。对目标数组,我们也做相同的操作。目标数组中包含了作为学习目标的数值。下面的代码实现了上述功能。
from sklearn import datasets
boston_prices = datasets.load_boston()
print "Data shape", boston_prices.data.shape
print "Data max=%s min=%s" %
(boston_prices.data.max(),
boston_prices.data.min())
print "Target shape",
boston_prices.target.shape
print "Target max=%s min=%s" %
(boston_prices.target.max(),
boston_prices.target.min())
该程序的输出结果如下。
Data shape (506, 13)
Data max=711.0 min=0.0
Target shape (506,)
Target max=50.0 min=5.0