Matplotlib Pandas scatter_matrix – 绘制分类变量

在本文中，我们将介绍如何使用Matplotlib和Pandas绘制散点矩阵来可视化分类变量。

分类变量

在统计数据分析中，分类变量是指一种具有有限数量的取值的变量，通常是文本或数字之一。例如，在衣服的尺码上，我们可能会看到类似于”Small”、”Medium”、”Large”等文本，或数字1、2、3等。将这些变量称为分类变量。

在数据分析中，我们通常希望了解哪些分类变量与其他变量有很强的相关性，或者两个分类变量之间是否存在关系。使用散点矩阵可以直观地呈现这些关系。

绘制散点矩阵

散点矩阵是指由多个散点图组成的矩阵，其中每个散点图都由两个变量组成，分别位于矩阵的行和列。在散点矩阵中，可以将多个变量的相关性可视化。

使用Matplotlib和Pandas，我们可以轻松地创建散点矩阵。以下是一个创建散点矩阵的示例代码：

import pandas as pd
import matplotlib.pyplot as plt
from pandas.plotting import scatter_matrix

# 创建一个包含三个分类变量的DataFrame
df = pd.DataFrame({'color': ['red', 'green', 'blue', 'green', 'red'],
                   'size': ['S', 'M', 'L', 'M', 'S'],
                   'class': ['A', 'B', 'C', 'B', 'A']})

# 绘制散点矩阵
scatter_matrix(df, diagonal='kde')
plt.show()

在此示例中，我们创建了一个包含三个分类变量的DataFrame：颜色、尺寸和类别。然后，我们使用Pandas的scatter_matrix函数来创建散点矩阵，并使用Matplotlib的show函数来显示它。

运行此代码将创建一个包含所有组合的散点图的矩阵。矩阵的对角线上绘制了单独的密度图。

绘制散点图并使用标记

在绘制分类变量的散点图时，我们可以使用不同的标记来表示不同的值。例如，在下面的示例中，我们将使用方形、三角形和圆圈来表示不同的尺寸。

# 创建三个分类变量
size = ['S', 'M', 'L']
color = ['red', 'green', 'blue']
class_ = ['A', 'B', 'C']

# 随机创建一些数据
data = {'size': [size[i] for i in np.random.randint(0, 3, 10)],
        'color': [color[i] for i in np.random.randint(0, 3, 10)],
        'class': [class_[i] for i in np.random.randint(0, 3, 10)],
        'x': np.random.randn(10),
        'y': np.random.randn(10)}

# 创建散点图并使用标记
plt.scatter(data['x'], data['y'], c=[color.index(i) for i in data['color']], marker=[size.index(i) for i in data['size']])
plt.show()

在此示例中，我们随机创建了10个值，并使用不同的标记和颜色将它们绘制在散点图中。