Pandas:pandas的箱线图中的“whiskers”指的到底是什么

Pandas:pandas的箱线图中的“whiskers”指的到底是什么

在本文中,我们将介绍Pandas中箱线图中的“whiskers”到底指的是什么,以及如何解释它们所代表的含义。

阅读更多:Pandas 教程

箱线图简介

箱线图是一种经典的统计图形,通常用于展示一个或多个数据集的分布情况。每个箱线图包含一个箱体和两条线段,其中箱体代表了数据的分布情况,而线段则用于确定箱体的上下限。在Pandas中,使用.boxplot()方法绘制箱线图,可以对数据进行可视化。

从上图可以看到,箱线图中有四根线段,其中两根位于箱体顶部和底部,而另外两根则延伸到数据集之外。在Pandas中,这两条额外的线段就是“whiskers”,我们将对其进行进一步的解释。

理解箱线图中的Whiskers

箱线图中的“whiskers”表示的是数据集中没有超过1.5倍四分位距(IQR)之外的值。 四分位距(IQR)是一个很好的测量,它是位于数据集中间50%的值的范围。 IQR是第一四分位数(Q1)和第三四分位数(Q3)之间的差。 具体来说,箱线图的四个线段表示的是:

  • Q1:数据集中的第一个四分位数
  • Q2 / Median:数据集的中位数(连接箱子内部的横线)
  • Q3:数据集中的第三个四分位数
  • Whiskers:最大数据点和最小数据点,但不超过1.5 IQR相对于箱体边缘的距离。它们可以是不同的长度,因为它们只被截断,而不是顶到最后一个点。

在这个例子中,我们可以看到数据集中的最小值并没有与其他数据点一样地成为“whiskers”的一部分。 这是因为数据集中存在一些比其他数据更低的值,从而导致“whiskers”向下延伸。

下面是Pandas中绘制箱线图的基本代码:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 创建一个包含随机数据的DataFrame
df = pd.DataFrame(np.random.rand(10, 5), columns=['A', 'B', 'C', 'D', 'E'])

# 绘制箱线图
df.plot.box()
plt.show()
Python

这将生成随机数据的基本箱线图。 但是,我们可以添加标签和标题来说明要呈现哪些数据以及数据的含义。 下面的示例代码展示了如何根据性别提供标签:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 创建一个包含随机数据的DataFrame
df = pd.DataFrame({
    '性别': ['男', '女', '男', '女', '男', '女', '男', '女', '男', '女'],
    '分数': np.random.randint(50, 100, size=10)
})

# 绘制箱线图并添加标签
ax = df.boxplot(by='性别', column=['分数'], grid=False)
ax.set_xlabel('性别')
ax.set_ylabel('分数')
ax.set_title('性别与分数的箱线图')
plt.suptitle('') # 去掉自动生成的标题
plt.show()
Python

上面的代码将生成一个基于性别的分数箱线图,更好地展示了两个不同性别最终得分的分布情况。

总结

在Pandas中绘制箱线图时,“whiskers”显示的是数据集中没有超过1.5倍四分位距(IQR)之外的值。在数据可视化中,通过仔细研究箱线图以及其他类型的图形,我们可以更好地了解我们的数据,并发现数据中的趋势和变化。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

登录

注册