Pandas中两个数据框之间的相关性分析|极客教程

Pandas中两个数据框之间的相关性分析

参考：pandas correlation between two data frames

在数据分析中，了解不同数据集之间的相关性是非常重要的。这可以帮助我们理解变量之间的关系，预测一个变量如何可能影响另一个变量。Pandas是Python的一个强大库，它提供了多种计算和分析数据的工具，其中就包括了计算两个数据框（DataFrame）之间的相关性。本文将详细介绍如何使用Pandas来计算两个数据框之间的相关性，并提供多个示例代码以供参考。

1. 创建数据框

首先，我们需要创建两个数据框，这是计算相关性的基础。

import pandas as pd
import numpy as np

# 创建第一个数据框
data1 = {
    'A': np.random.randn(100),
    'B': np.random.rand(100) * 100,
    'C': np.random.randn(100) * 10,
    'Website': ['pandasdataframe.com' for _ in range(100)]
}
df1 = pd.DataFrame(data1)

# 创建第二个数据框
data2 = {
    'X': np.random.randn(100),
    'Y': np.random.rand(100) * 50,
    'Z': np.random.gamma(2, size=100),
    'Website': ['pandasdataframe.com' for _ in range(100)]
}
df2 = pd.DataFrame(data2)

print(df1)
print(df2)

Output:

Pandas中两个数据框之间的相关性分析

2. 计算两个数据框的相关性

2.1 直接计算两个数据框的相关性

我们可以使用corr()方法来计算两个数据框中相同列名的相关性。

import pandas as pd
import numpy as np

# 创建第一个数据框
data1 = {
    'A': np.random.randn(100),
    'B': np.random.rand(100) * 100,
    'C': np.random.randn(100) * 10,
    'Website': ['pandasdataframe.com' for _ in range(100)]
}
df1 = pd.DataFrame(data1)

# 创建第二个数据框
data2 = {
    'X': np.random.randn(100),
    'Y': np.random.rand(100) * 50,
    'Z': np.random.gamma(2, size=100),
    'Website': ['pandasdataframe.com' for _ in range(100)]
}
df2 = pd.DataFrame(data2)

# 计算df1和df2中相同列名的相关性
correlation = df1.corrwith(df2)
print(correlation)

2.2 计算指定列的相关性

如果我们只对某些特定列感兴趣，我们可以选择这些列来计算相关性。

import pandas as pd
import numpy as np

# 创建第一个数据框
data1 = {
    'A': np.random.randn(100),
    'B': np.random.rand(100) * 100,
    'C': np.random.randn(100) * 10,
    'Website': ['pandasdataframe.com' for _ in range(100)]
}
df1 = pd.DataFrame(data1)

# 创建第二个数据框
data2 = {
    'X': np.random.randn(100),
    'Y': np.random.rand(100) * 50,
    'Z': np.random.gamma(2, size=100),
    'Website': ['pandasdataframe.com' for _ in range(100)]
}
df2 = pd.DataFrame(data2)

# 计算df1的'A'列与df2的'X'列的相关性
correlation_ax = df1['A'].corr(df2['X'])
print(correlation_ax)

Output:

Pandas中两个数据框之间的相关性分析

2.3 使用合并数据框的方式计算相关性

有时候，我们可能需要将两个数据框合并后再计算相关性。

import pandas as pd
import numpy as np

# 创建第一个数据框
data1 = {
    'A': np.random.randn(100),
    'B': np.random.rand(100) * 100,
    'C': np.random.randn(100) * 10,
    'Website': ['pandasdataframe.com' for _ in range(100)]
}
df1 = pd.DataFrame(data1)

# 创建第二个数据框
data2 = {
    'X': np.random.randn(100),
    'Y': np.random.rand(100) * 50,
    'Z': np.random.gamma(2, size=100),
    'Website': ['pandasdataframe.com' for _ in range(100)]
}
df2 = pd.DataFrame(data2)

# 合并数据框
merged_df = pd.concat([df1, df2], axis=1)

# 计算合并后的数据框的相关性
correlation_merged = merged_df.corr()
print(correlation_merged)

3. 可视化相关性

了解数据的相关性后，我们通常需要将这些相关性可视化，这可以帮助我们更直观地理解数据间的关系。

3.1 使用热图显示相关性

import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

# 创建第一个数据框
data1 = {
    'A': np.random.randn(100),
    'B': np.random.rand(100) * 100,
    'C': np.random.randn(100) * 10,
    'Website': ['pandasdataframe.com' for _ in range(100)]
}
df1 = pd.DataFrame(data1)

# 创建第二个数据框
data2 = {
    'X': np.random.randn(100),
    'Y': np.random.rand(100) * 50,
    'Z': np.random.gamma(2, size=100),
    'Website': ['pandasdataframe.com' for _ in range(100)]
}
df2 = pd.DataFrame(data2)

# 合并数据框
merged_df = pd.concat([df1, df2], axis=1)

# 计算相关性矩阵
corr_matrix = merged_df.corr()

# 绘制热图
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.title('Correlation Matrix')
plt.show()

3.2 绘制散点图矩阵

散点图矩阵可以帮助我们直观地看到不同变量之间的关系。

import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

# 创建第一个数据框
data1 = {
    'A': np.random.randn(100),
    'B': np.random.rand(100) * 100,
    'C': np.random.randn(100) * 10,
    'Website': ['pandasdataframe.com' for _ in range(100)]
}
df1 = pd.DataFrame(data1)

# 创建第二个数据框
data2 = {
    'X': np.random.randn(100),
    'Y': np.random.rand(100) * 50,
    'Z': np.random.gamma(2, size=100),
    'Website': ['pandasdataframe.com' for _ in range(100)]
}
df2 = pd.DataFrame(data2)

# 合并数据框
merged_df = pd.concat([df1, df2], axis=1)

# 计算相关性矩阵
corr_matrix = merged_df.corr()

pd.plotting.scatter_matrix(merged_df, alpha=0.2, figsize=(10, 10))
plt.show()

4. 处理缺失数据

在计算相关性之前，处理好缺失数据是非常重要的，因为缺失数据会影响相关性的计算。

import pandas as pd
import numpy as np

# 创建第一个数据框
data1 = {
    'A': np.random.randn(100),
    'B': np.random.rand(100) * 100,
    'C': np.random.randn(100) * 10,
    'Website': ['pandasdataframe.com' for _ in range(100)]
}
df1 = pd.DataFrame(data1)

# 创建第二个数据框
data2 = {
    'X': np.random.randn(100),
    'Y': np.random.rand(100) * 50,
    'Z': np.random.gamma(2, size=100),
    'Website': ['pandasdataframe.com' for _ in range(100)]
}
df2 = pd.DataFrame(data2)

# 合并数据框
merged_df = pd.concat([df1, df2], axis=1)

# 填充缺失值
merged_df_filled = merged_df.fillna(merged_df.mean())

# 重新计算相关性
correlation_filled = merged_df_filled.corr()
print(correlation_filled)

5. 分析和解释相关性结果

相关性的值范围从-1到1。值接近1或-1表示变量之间有很强的正相关或负相关关系，而值接近0表示没有明显的线性关系。

import pandas as pd
import numpy as np

# 创建第一个数据框
data1 = {
    'A': np.random.randn(100),
    'B': np.random.rand(100) * 100,
    'C': np.random.randn(100) * 10,
    'Website': ['pandasdataframe.com' for _ in range(100)]
}
df1 = pd.DataFrame(data1)

# 创建第二个数据框
data2 = {
    'X': np.random.randn(100),
    'Y': np.random.rand(100) * 50,
    'Z': np.random.gamma(2, size=100),
    'Website': ['pandasdataframe.com' for _ in range(100)]
}
df2 = pd.DataFrame(data2)

# 合并数据框
merged_df = pd.concat([df1, df2], axis=1)

# 计算合并后的数据框的相关性
correlation_merged = merged_df.corr()

# 分析相关性结果
strong_correlation = correlation_merged[correlation_merged > 0.8]
print(strong_correlation)