如何使用scikit learn库在Python中预处理数据?

如何使用scikit learn库在Python中预处理数据?

数据预处理是指清理数据、删除无效数据、去除噪声、替换相关值等。

这不总是指文本数据;也可能是图像或视频处理。这是机器学习流程中的重要步骤。

数据预处理基本上是指将所有数据(从各种资源或单个资源收集的数据)收集到一个公共格式或统一数据集中(取决于数据类型)。

这样做是为了学习算法可以从这个数据集中学习,并给出相关的高精度结果。由于实际数据从不完美,数据可能会有缺失单元格、错误、离群值、列差异等等。

有时,图像可能没有正确对齐,或者不清晰,或者尺寸非常大。 预处理的目标是消除这些差异和错误。数据预处理不是单独的任务,而是一组按步骤执行的任务。

一个步骤的输出成为下一个步骤的输入,依次往复。

让我们以将数字值转换为布尔值的示例为例 –

更多Python相关文章,请阅读:Python 教程

示例

import numpy as np
from sklearn import preprocessing
input_data = np.array([[34.78, 31.9, -65.5],[-16.5, 2.45, -83.5],[0.5, -87.98, 45.62],
[5.9, 2.38, -55.82]])
data_binarized = preprocessing.Binarizer(threshold=0.5).transform(input_data)
print("\Values converted from numeric to Boolean :\n", data_binarized)

输出

Values converted from numeric to Boolean :
[[1. 1. 0.]
[0. 1. 0.]
[0. 0. 1.]
[1. 1. 0.]]

说明

  • 所需的软件包已导入。
  • 使用Numpy库生成输入数据。
  • 使用sklearn中的preprocessing类中的“Binarizer”函数将数字值转换为布尔值。
  • 布尔值基本上仅涉及1和0。
  • 这个转换后的数据已经输出。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程