如何使用scikit learn库在Python中预处理数据?

数据预处理是指清理数据、删除无效数据、去除噪声、替换相关值等。

这不总是指文本数据；也可能是图像或视频处理。这是机器学习流程中的重要步骤。

数据预处理基本上是指将所有数据（从各种资源或单个资源收集的数据）收集到一个公共格式或统一数据集中（取决于数据类型）。

这样做是为了学习算法可以从这个数据集中学习，并给出相关的高精度结果。由于实际数据从不完美，数据可能会有缺失单元格、错误、离群值、列差异等等。

有时，图像可能没有正确对齐，或者不清晰，或者尺寸非常大。预处理的目标是消除这些差异和错误。数据预处理不是单独的任务，而是一组按步骤执行的任务。

一个步骤的输出成为下一个步骤的输入，依次往复。

让我们以将数字值转换为布尔值的示例为例 –

更多Python相关文章，请阅读：Python 教程

示例

import numpy as np
from sklearn import preprocessing
input_data = np.array([[34.78, 31.9, -65.5],[-16.5, 2.45, -83.5],[0.5, -87.98, 45.62],
[5.9, 2.38, -55.82]])
data_binarized = preprocessing.Binarizer(threshold=0.5).transform(input_data)
print("\Values converted from numeric to Boolean :\n", data_binarized)

输出

Values converted from numeric to Boolean :
[[1. 1. 0.]
[0. 1. 0.]
[0. 0. 1.]
[1. 1. 0.]]

说明

所需的软件包已导入。
使用Numpy库生成输入数据。
使用sklearn中的preprocessing类中的“Binarizer”函数将数字值转换为布尔值。
布尔值基本上仅涉及1和0。
这个转换后的数据已经输出。

如何使用scikit learn库在Python中预处理数据?

如何使用scikit learn库在Python中预处理数据?

示例

输出

说明

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

Python 精品教程

回顶部