如何在Python的scikit-learn库中使用特征向量消除平均值?
数据预处理指的是清洗数据、删除无效数据、噪声、用相关值替换数据等操作。
数据预处理基本上是指将所有数据(来自各种资源或单一资源收集的数据)收集到通用格式或统一数据集(取决于数据类型)中。一个步骤的输出成为下一步骤的输入,依次进行。
可能需要从输入数据中移除平均值以获得特定结果。让我们了解如何使用scikit-learn库实现这一点。
阅读更多:Python 教程
示例
import numpy as np
from sklearn import preprocessing
input_data = np.array([
[34.78, 31.9, -65.5],
[-16.5, 2.45, -83.5],
[0.5, -87.98, 45.62],
[5.9, 2.38, -55.82]])
print("平均值是:", input_data.mean(axis=0))
print("标准差值是:", input_data.std(axis=0))
data_scaled = preprocessing.scale(input_data)
print("平均值已被移除", data_scaled.mean(axis=0))
print("标准差已被移除", data_scaled.std(axis=0))
输出
平均值是: [ 6.17 -12.8125 -39.8 ]
标准差值是: [18.4708067 45.03642047 50.30754615]
平均值已被移除 [-2.60208521e-18 -8.32667268e-17 -1.11022302e-16]
标准差已被移除 [1. 1. 1.]
解释
-
所需的软件包已导入。
-
使用Numpy库生成输入数据。
-
计算了平均值和标准差值。
-
它们在控制台上显示。
-
使用”data_scaled”函数从数据中删除平均值和标准差值。
-
删除平均值和标准差数据后,在控制台上显示。