Python 分位数|极客教程

Python 分位数

在数据分析和统计学中，分位数是将一组数据按大小排序后分割成几个部分的特定值，用来描述数据的分布和离散程度。在 Python 中，我们可以使用一些库来计算分位数，例如 NumPy 和 SciPy。

1. 分位数的定义

分位数是指把一组观察值按照大小顺序进行排列后，处于相应位置的值，可以将分位数分为四分位数，中位数等不同的分位数。假设有一组数据集 [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]，我们可以计算该数据集的四分之一分位数、中位数和四分之三分位数。

在 Python 中，我们可以使用 NumPy 来计算分位数。示例如下：

import numpy as np

data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
q1 = np.percentile(data, 25)
median = np.percentile(data, 50)
q3 = np.percentile(data, 75)

print("25th percentile (Q1):", q1)
print("Median:", median)
print("75th percentile (Q3):", q3)

运行结果：

25th percentile (Q1): 3.25
Median: 5.5
75th percentile (Q3): 7.75

2. 插值法

NumPy 提供了不同的插值方法来计算分位数，例如 linear、lower、higher、nearest、midpoint 等。不同的插值方法会影响分位数的计算结果。

下面是一个示例代码，演示了如何使用不同的插值方法计算分位数：

import numpy as np

data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
q1_linear = np.percentile(data, 25, interpolation='linear')
q1_nearest = np.percentile(data, 25, interpolation='nearest')

print("25th percentile (linear):", q1_linear)
print("25th percentile (nearest):", q1_nearest)

运行结果：

25th percentile (linear): 3.25
25th percentile (nearest): 3

3. 权重分位数

除了基本的分位数计算，有时候我们需要计算带有权重的分位数，即根据权重计算加权平均值。在 NumPy 中，我们可以使用 numpy.average 函数来计算加权平均值，从而得到权重分位数。

下面是一个示例代码，演示了如何计算权重分位数：

import numpy as np

data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
weights = [0.1, 0.2, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]

weighted_median = np.average(np.sort(data), weights=weights)
print("Weighted median:", weighted_median)