Pandas 使用 Pandas .corr 得出两列之间的相关系数
在数据分析中,我们经常需要了解变量之间的相关程度。Pandas 是 Python 中一个非常强大的数据分析库,其中的 .corr() 方法可以方便地计算两个列之间的相关系数。
阅读更多:Pandas 教程
.corr() 方法的用法
Pandas 中的 .corr() 方法可以计算两个 DataFrame 中的列之间的相关系数。一般来说,我们使用它来计算数值型变量之间的相关性。
- 语法:
其中,method 参数可取的值有三种:
- Pearson 相关系数:用来衡量两个数值型变量之间的线性相关程度,取值范围在 -1 到 1 之间,其中 1 表示完全正相关,-1 表示完全负相关,0 则表示不相关。
- Kendall Tau 相关系数:用来衡量两个变量之间的相关程度,无论变量类型是数值型还是分类型。取值范围在 -1 到 1 之间,符号表示相关方向。
- Spearman 相关系数:用来衡量两个变量之间的相关程度,可以衡量任何单调函数关系。取值范围在 -1 到 1 之间,符号表示相关方向。
min_periods 参数指定在计算列之间相关系数时所需的最小非空观测数。如果设置为 1,则会忽略该列中的所有 NaN 值。
示例
接下来我们以一个数据集为例,看看如何使用 Pandas 中的 .corr() 方法计算两个变量之间的相关系数。
输出:
输出结果是一个数据框,其中每个元素都是两个变量之间的 Pearson 相关系数。在这个数据集中,可以发现变量 price 和 sqft_living(房屋面积)之间的相关系数为 0.7,这表明这两个变量是正相关的。相反,变量 floors 和 yr_built 之间的相关系数只有 0.49,这表明这两个变量之间的关系不是特别紧密。
总结
在数据分析中,了解变量之间的相关系数是非常重要的。在 Python 的 Pandas 库中,我们可以方便地使用 .corr() 方法计算数值型变量之间的相关性。熟练使用该方法能够大大提高我们的数据分析效率。