Numpy计算皮尔森相关系数|极客教程

Numpy计算皮尔森相关系数

在本文中，我们将介绍使用Numpy计算皮尔森相关系数的方法。皮尔森相关系数是一种用于描述两个变量之间线性关系强度的度量。它的取值范围在-1到1之间，其中-1表示完全负相关，0表示无关，1表示完全正相关。

阅读更多：Numpy 教程

计算皮尔森相关系数

我们可以使用numpy库中的corrcoef函数来计算皮尔森相关系数。该函数需要传入两个数组作为参数，它们分别代表两个变量的取值。以下是一个示例代码：

import numpy as np

x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 6, 8, 10])

r = np.corrcoef(x, y)[0, 1]
print("Pearson correlation coefficient:", r)

在上面的代码中，我们定义了两个数组x和y作为参数传递给np.corrcoef函数。然后使用[0, 1]来获取它返回的2×2矩阵中第一行第二列的值，这个值就是皮尔森相关系数r。最后输出r的值。

例子

让我们来看一个例子，假设我们有一个n行m列的矩阵data，其中每一行代表一个样本，每一列代表一个特征。我们想要计算每一个特征之间的皮尔森相关系数。以下是一个示例代码：

import numpy as np

# 生成n行m列的样本数据
np.random.seed(123)
n, m = 10, 5
data = np.random.rand(n, m)

# 计算每一个特征之间的皮尔森相关系数
corr_matrix = np.corrcoef(data, rowvar=False)

# 输出相关系数矩阵
print("Correlation matrix:\n", corr_matrix)