在Pandas中使用散点矩阵绘制配对图

在Pandas中使用散点矩阵绘制配对图

检查一个数据集的属性之间的勾稽关系,是数据预处理中最重要的步骤之一。了解特征之间的相关性的一个好方法是为每一对属性创建散点图。Pandas有一个函数scatter_matrix(),用于这个目的。scatter_matrix()可以用来轻松地生成一组所有数字特征对之间的散点图。它为每个数字特征与其他每个数字特征创建一个图,也为每个数字特征创建一个柱状图。

语法: pandas.plotting.scatter_matrix(frame)
参数 :
frame :要绘制的数据框架。

在下面的例子中,我们将在这个数据集上创建散点图。

该数据集包含加州地区房屋的价格和其他统计数据。

import pandas as pd
  
# loading the dataset
data = pd.read_csv('housing.csv')
  
# inspecting the data
data.info()
Python

输出 :

RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  20640 non-null  float64
 3   total_rooms         20640 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20640 non-null  float64
 6   households          20640 non-null  float64
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  float64
 9   ocean_proximity     20640 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB
Python

创建散点图

让我们选择三个数字列:median_house_value、housing_median_age和median_income,进行绘图。请注意,Pandas绘图依赖于Matplotlib,所以需要先将其导入。

import matplotlib.pyplot as plt
from pandas.plotting import scatter_matrix
  
# selecting three numerical features
features = ['median_house_value', 'housing_median_age',
            'median_income']
   
# plotting the scatter matrix
# with the features
scatter_matrix(data[features])
plt.show()
Python

输出 :
在Pandas中使用散点矩阵绘制配对图

矩阵中的每个散点图帮助我们了解相应的一对属性之间的相关性。我们可以看到,收入中位数和房屋价值中位数的相关性相当强。主对角线包含每个属性的柱状图。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

登录

注册