Pandas DataFrame 中两个数值列之间的相关性

Pandas DataFrame 中两个数值列之间的相关性

我们可以使用 pandas.DataFrame.corr 计算列的配对相关性,排除 NULL 值。相关系数表示两个变量之间的线性关联强度。系数范围在-1到1之间。

要获取 Pandas 数据框中两个数值列之间的相关性,我们可以执行以下步骤−

  • 设置图形大小并调整子图之间和周围的填充。
  • 创建一个二维的、大小可变的、可能异构的表格数据的 Pandas 数据框。
  • 比较两列的值并使用 col1.corr(col2) 计算相关系数。
  • 在控制台打印相关系数。
  • 要显示图形,请使用 show() 方法。

更多Pandas文章,请阅读:Pandas教程

例子

import pandas as pd
from matplotlib import pyplot as plt

plt.rcParams["figure.figsize"] = [7.00, 3.50]
plt.rcParams["figure.autolayout"] = True

df = pd.DataFrame({'lab': [1, 2, 3], 'value': [3, 4, 5]})

col1 = df['lab']
col2 = df['value']

plt.plot(col1, col2)

print("相关系数为:", col1.corr(col2))

plt.show()

输出

它将产生以下输出

相关系数为:1.0

Pandas DataFrame 中两个数值列之间的相关性

在这里,相关系数为1.0,表示完全正相关。因此,我们得到一条直线,因为所有点都位于一条直线上。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程