如何使用scikit learn库在Python中预处理数据?
数据预处理是指清理数据、删除无效数据、去除噪声、替换相关值等。
这不总是指文本数据;也可能是图像或视频处理。这是机器学习流程中的重要步骤。
数据预处理基本上是指将所有数据(从各种资源或单个资源收集的数据)收集到一个公共格式或统一数据集中(取决于数据类型)。
这样做是为了学习算法可以从这个数据集中学习,并给出相关的高精度结果。由于实际数据从不完美,数据可能会有缺失单元格、错误、离群值、列差异等等。
有时,图像可能没有正确对齐,或者不清晰,或者尺寸非常大。 预处理的目标是消除这些差异和错误。数据预处理不是单独的任务,而是一组按步骤执行的任务。
一个步骤的输出成为下一个步骤的输入,依次往复。
让我们以将数字值转换为布尔值的示例为例 –
更多Python相关文章,请阅读:Python 教程
示例
import numpy as np
from sklearn import preprocessing
input_data = np.array([[34.78, 31.9, -65.5],[-16.5, 2.45, -83.5],[0.5, -87.98, 45.62],
[5.9, 2.38, -55.82]])
data_binarized = preprocessing.Binarizer(threshold=0.5).transform(input_data)
print("\Values converted from numeric to Boolean :\n", data_binarized)
输出
Values converted from numeric to Boolean :
[[1. 1. 0.]
[0. 1. 0.]
[0. 0. 1.]
[1. 1. 0.]]
说明
- 所需的软件包已导入。
- 使用Numpy库生成输入数据。
- 使用sklearn中的preprocessing类中的“Binarizer”函数将数字值转换为布尔值。
- 布尔值基本上仅涉及1和0。
- 这个转换后的数据已经输出。