如何使用Pandas创建相关矩阵?

如何使用Pandas创建相关矩阵?

相关分析是数据分析中的一种关键技术,有助于识别数据集中变量之间的关系。相关矩阵是一张表格,显示数据集中变量之间的相关系数。它是一种强大的工具,提供有价值的见解,帮助我们了解数据中潜在的模式,并广泛应用于金融、经济、社会科学和工程等许多领域。

在本教程中,我们将探讨如何使用Python中流行的数据操纵库Pandas创建相关矩阵。

使用Pandas生成相关矩阵,需要遵循以下步骤-

  • 获取数据。

  • 构建一个Pandas DataFrame。

  • 使用Pandas生成相关矩阵。

示例

现在让我们通过不同的例子来了解如何使用Pandas创建相关矩阵。

以下代码演示了如何使用Python中的Pandas库从给定的数据集创建相关矩阵。该数据集包含三个变量:销售额、开销和利润,这些变量在三个不同的时间段内计算。代码使用数据创建一个Pandas DataFrame,然后使用DataFrame创建相关矩阵。

然后从销售额和开销以及销售额和利润之间提取相关系数,并将其与相关矩阵一起显示。相关系数表示两个变量之间的相关程度,值为“1”表示完全正相关,"-1"表示完全负相关,而“0”表示无相关。

考虑下面的代码。

# 导入Pandas库
import pandas as pd

# 创建一个包含相关分析数据的字典
data = {
   'Sales': [25, 36, 12], # 三个不同时间段的销售额
   'Expenses': [30, 25, 20], # 在相同时间段内的开销值
   'Profit': [15, 20, 10] # 在相同时间段内的利润值
}

# 使用字典创建一个Pandas DataFrame
sales_data = pd.DataFrame(data)

# 使用DataFrame创建相关矩阵
correlation_matrix = sales_data.corr()

# 显示相关矩阵
print("相关矩阵:")
print(correlation_matrix)

# 获取销售额和开销之间的相关系数
sales_expenses_correlation = correlation_matrix.loc['Sales', 'Expenses']

# 获取销售额和利润之间的相关系数
sales_profit_correlation = correlation_matrix.loc['Sales', 'Profit']

# 显示相关系数
print("相关系数:")
print(f"销售额和开销:{sales_expenses_correlation:.2f}")
print(f"销售额和利润:{sales_profit_correlation:.2f}") 

输出

在执行后,您将得到以下输出 –

相关矩阵:
              Sales   Expenses     Profit
Sales      1.000000   0.541041   0.998845
Expenses   0.541041   1.000000   0.500000
Profit     0.998845   0.500000   1.000000
相关系数:
销售额和开销:0.54
销售额和利润:1.00

对角线上的值表示变量与自身之间的相关性,因此对角线值表示相关系数为1。

示例

让我们再来探讨一个例子。考虑下面的代码。

在这个例子中,我们创建了一个具有三列和三行的简单DataFrame。然后我们在该DataFrame上使用.corr()方法来计算相关矩阵,最后将其打印到控制台上。

# 导入pandas库
import pandas as pd

# 创建一个样本数据框
data = {
   'A': [1, 2, 3],
   'B': [4, 5, 6],
   'C': [7, 8, 9]
}
df = pd.DataFrame(data)

# 创建相关系数矩阵
corr_matrix = df.corr()

# 显示相关系数矩阵
print(corr_matrix) 

输出

执行后,将得到以下输出−

     A    B    C
A  1.0  1.0  1.0
B  1.0  1.0  1.0
C  1.0  1.0  1.0 

结论

综上所述,在Python中使用pandas创建相关系数矩阵是一个简单的过程。首先,创建一个带有所需数据的pandas DataFrame,然后使用 .corr() 方法计算相关系数矩阵。产生的相关系数矩阵提供了有关不同变量之间关系的有价值的见解,其中对角线的值表示每个变量与自身的相关性。

相关系数的范围从-1到1,值越接近-1或1则相关性越强,而值越接近0则相关性越弱或无关。相关矩阵在广泛的应用场景中都很有用,例如数据分析、金融和机器学习等领域。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程