在Pandas中使用散点矩阵绘制配对图

在Pandas中使用散点矩阵绘制配对图

检查一个数据集的属性之间的勾稽关系,是数据预处理中最重要的步骤之一。了解特征之间的相关性的一个好方法是为每一对属性创建散点图。Pandas有一个函数scatter_matrix(),用于这个目的。scatter_matrix()可以用来轻松地生成一组所有数字特征对之间的散点图。它为每个数字特征与其他每个数字特征创建一个图,也为每个数字特征创建一个柱状图。

语法: pandas.plotting.scatter_matrix(frame)
参数 :
frame :要绘制的数据框架。

在下面的例子中,我们将在这个数据集上创建散点图。

该数据集包含加州地区房屋的价格和其他统计数据。

import pandas as pd
  
# loading the dataset
data = pd.read_csv('housing.csv')
  
# inspecting the data
data.info()

输出 :


RangeIndex: 20640 entries, 0 to 20639 Data columns (total 10 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 longitude 20640 non-null float64 1 latitude 20640 non-null float64 2 housing_median_age 20640 non-null float64 3 total_rooms 20640 non-null float64 4 total_bedrooms 20433 non-null float64 5 population 20640 non-null float64 6 households 20640 non-null float64 7 median_income 20640 non-null float64 8 median_house_value 20640 non-null float64 9 ocean_proximity 20640 non-null object dtypes: float64(9), object(1) memory usage: 1.6+ MB

创建散点图

让我们选择三个数字列:median_house_value、housing_median_age和median_income,进行绘图。请注意,Pandas绘图依赖于Matplotlib,所以需要先将其导入。

import matplotlib.pyplot as plt
from pandas.plotting import scatter_matrix
  
# selecting three numerical features
features = ['median_house_value', 'housing_median_age',
            'median_income']
   
# plotting the scatter matrix
# with the features
scatter_matrix(data[features])
plt.show()

输出 :
在Pandas中使用散点矩阵绘制配对图

矩阵中的每个散点图帮助我们了解相应的一对属性之间的相关性。我们可以看到,收入中位数和房屋价值中位数的相关性相当强。主对角线包含每个属性的柱状图。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程