Pandas 归一化数据框的列

在本文中，我们将介绍Python数据分析常用库Pandas中的一项非常有用的特性——归一化。

归一化通常用于数据标准化，是将所有数据按照特定规则映射到0到1区间内的一个过程，这样就可以消除不同规格数据之间的影响，使得数据可以进行比较和分析。

Pandas提供了一个非常方便的方法——”normalize()”，用于对数据框内的列进行归一化处理。

阅读更多：Pandas 教程

归一化方法

在归一化处理中，最常用的方法有两种：

最大-最小归一化：将所有数值按比例缩放，使数据值都落到0-1的区间之内。具体计算公式如下：
```
x_norm = (x - x.min()) / (x.max() - x.min())
```
Z-score归一化：将数据转换为标准正态分布，消除量纲和量纲之间的差异。计算公式如下：
```
x_norm = (x - x.mean()) / x.std()
```

归一化实例

下面我们将通过一个实例来演示如何使用Pandas进行归一化处理。

首先我们创建一个包含3列的数据框。

import pandas as pd
import numpy as np

df = pd.DataFrame({'A': np.random.random(5),
                   'B': np.random.random(5),
                   'C': np.random.random(5)})

接下来，我们将使用最大-最小归一化来对数据框的每一列进行处理。

df_norm = df.apply(lambda x: (x - x.min()) / (x.max() - x.min()))

我们通过查看归一化后的数据框df_norm，可以看到所有列的值都归一化到了0-1之间。

          A         B         C
0  0.657499  1.000000  0.000000
1  0.180131  0.315652  1.000000
2  0.560698  0.000000  0.402496
3  0.000000  0.623081  0.291073
4  1.000000  0.000000  0.730662

我们还可以使用Z-score归一化方法，对数据框进行处理。

df_norm = df.apply(lambda x: (x - x.mean()) / x.std())

这里输出的df_norm结果如下所示：

          A         B         C
0  0.814226  1.414214 -1.658500
1 -0.778463  0.005977  1.060708
2  0.525328 -1.369306  0.120014
3 -1.465144  0.744810 -0.337911
4  1.904052 -0.796696  0.815688

观察可得，每一列的均值都变为了0，标准差变为了1。