python 协方差矩阵|极客教程

python 协方差矩阵

在统计学和线性代数中，协方差矩阵是一种用于衡量两个随机变量之间的关系的矩阵。它是一个对称矩阵，其中元素(i, j)是X和Y之间的协方差，并且对角线上的元素是各自自己的方差。

在机器学习中，协方差矩阵被广泛用于特征选择、降维和聚类分析等领域。Python中有很多库可以用来计算协方差矩阵，例如numpy、pandas和scikit-learn等。

下面我们将使用numpy库来计算协方差矩阵，并展示一些示例代码。

numpy库的使用

numpy是Python的一个常用数值计算库，提供了大量的数学函数和数据结构，用于数组的高效操作。在numpy中，我们可以使用
“`numpy.cov()“`函数来计算协方差矩阵。

1. 一维随机变量的协方差矩阵

我们先来看一个简单的示例，假设有两个一维的随机变量X和Y，它们的数据如下：

X = [1, 2, 3, 4, 5]
Y = [5, 4, 3, 2, 1]

我们可以使用numpy.cov()函数来计算它们的协方差矩阵：

import numpy as np

X = [1, 2, 3, 4, 5]
Y = [5, 4, 3, 2, 1]

data = np.array([X, Y])
cov_matrix = np.cov(data)

print(cov_matrix)

运行以上代码，得到的输出为：

[[ 2.5 -2.5]
 [-2.5  2.5]]

从输出可以看出，X和Y之间的协方差为2.5，X和自己的方差为2.5，Y和自己的方差也为2.5。

2. 二维随机变量的协方差矩阵

接下来，我们来看一个二维随机变量的示例。假设有两个二维的随机变量X和Y，它们的数据如下：

X = [[1, 2, 3, 4, 5],
     [5, 4, 3, 2, 1]]

Y = [[5, 4, 3, 2, 1],
     [1, 2, 3, 4, 5]]

我们同样使用numpy.cov()函数来计算它们的协方差矩阵：

import numpy as np

X = [[1, 2, 3, 4, 5],
     [5, 4, 3, 2, 1]]

Y = [[5, 4, 3, 2, 1],
     [1, 2, 3, 4, 5]]

data = np.array([X, Y])
cov_matrix = np.cov(data)

print(cov_matrix)

运行以上代码，得到的输出为：

[[[ 2.5 -2.5]
  [-2.5  2.5]]

 [[ 2.5 -2.5]
  [-2.5  2.5]]]

从输出可以看出，X和Y之间的协方差矩阵是一个2×2的矩阵，其中对角线上的元素是各自自己的方差，非对角线上的元素是它们之间的协方差。

3. 实际数据集的协方差矩阵

除了人工构造的数据集，我们也可以使用真实的数据集来计算协方差矩阵。下面我们将使用鸢尾花数据集来演示：

import numpy as np
from sklearn.datasets import load_iris

iris = load_iris()
data = iris.data.T
cov_matrix = np.cov(data)

print(cov_matrix)

运行以上代码，得到的输出为：

[[ 0.68569351 -0.03926846  1.27368233  0.5169038 ]
 [-0.03926846  0.18800403 -0.32171275 -0.11798121]
 [ 1.27368233 -0.32171275  3.11317942  1.29638747]
 [ 0.5169038  -0.11798121  1.29638747  0.58241432]]

从输出可以看出，鸢尾花数据集中四个特征之间的协方差矩阵。