如何扩展Pandas DataFrame的列
当一个数据集的不同列的值有极大的不同尺度时,分析趋势和模式以及比较特征或列就变得很困难。因此,在所有列的尺度有明显差异的情况下,需要以这样的方式进行修改,使所有这些值落入相同的尺度。这个过程被称为缩放。
有两种最常见的技术,即如何缩放Pandas数据框架的列–最小-最大归一化和标准化。这两种技术在下面的内容中已经讨论过了。
使用中的数据集: Iris
Min-Max Normalization
这里,所有的值都在[0,1]的范围内进行缩放,其中0是最小值,1是最大值。最小-最大归一化的公式是–
方法1:使用Pandas和Numpy
第一种方法是分别计算公式中给出的所需数值,然后将其应用于数据集。
示例:
输出:
方法2:使用sklearn的MinMaxScaler
这是一个直接的方法,可以做到这一点。它只需要导入sklearn模块。
示例:
输出:
Standardization
标准化没有任何固定的最小或最大值。在这里,所有列的值都以这样的方式进行缩放,即它们都有一个等于0的平均值和等于1的标准差。这种缩放技术对异常值很有效。因此,如果数据集中存在异常值,这种技术是首选。
示例:
输出 :