使用Matplotlib在Python中计算和绘制累积分布函数的完整指南|极客教程

使用Matplotlib在Python中计算和绘制累积分布函数的完整指南

参考：How to calculate and plot a Cumulative Distribution function with Matplotlib in Python

累积分布函数（Cumulative Distribution Function，简称CDF）是概率论和统计学中的一个重要概念，它描述了随机变量小于或等于某个值的概率。在数据分析和可视化中，CDF是一个强大的工具，可以帮助我们理解数据的分布特征。本文将详细介绍如何使用Python的Matplotlib库来计算和绘制CDF，并提供多个实用示例。

1. 累积分布函数的基本概念

累积分布函数是描述随机变量分布的一种方式。对于一个随机变量X，其CDF定义为：

F(x) = P(X ≤ x)

这个函数表示随机变量X小于或等于x的概率。CDF具有以下特性：

单调递增：对于任意x1 < x2，有F(x1) ≤ F(x2)
右连续：lim(x→a+) F(x) = F(a)
极限：lim(x→-∞) F(x) = 0，lim(x→+∞) F(x) = 1

理解CDF的概念对于数据分析和统计推断至关重要。接下来，我们将学习如何使用Python和Matplotlib来计算和可视化CDF。

2. 准备工作：导入必要的库

在开始绘制CDF之前，我们需要导入必要的Python库。主要使用的库包括：

NumPy：用于数值计算
Matplotlib：用于绘图
SciPy：用于统计函数（可选）

以下是一个基本的导入示例：

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

# 设置中文字体支持
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

print("Welcome to how2matplotlib.com")

这段代码导入了所需的库，并设置了Matplotlib支持中文显示。接下来，我们将开始探索如何计算和绘制CDF。

3. 手动计算和绘制CDF

在使用Matplotlib绘制CDF之前，我们首先需要计算CDF的值。最简单的方法是手动计算累积概率。以下是一个基本示例：

import numpy as np
import matplotlib.pyplot as plt

# 生成示例数据
data = np.random.normal(0, 1, 1000)

# 计算CDF
sorted_data = np.sort(data)
y = np.arange(1, len(data) + 1) / len(data)

# 绘制CDF
plt.figure(figsize=(10, 6))
plt.plot(sorted_data, y, label='CDF')
plt.title('手动计算的累积分布函数 - how2matplotlib.com')
plt.xlabel('值')
plt.ylabel('累积概率')
plt.legend()
plt.grid(True)
plt.show()

print("Visit how2matplotlib.com for more examples")

Output:

使用Matplotlib在Python中计算和绘制累积分布函数的完整指南

在这个例子中，我们首先生成了1000个服从标准正态分布的随机数。然后，我们对数据进行排序，并计算每个数据点对应的累积概率。最后，使用Matplotlib的plot函数绘制CDF曲线。

这种方法简单直观，适用于小型数据集。但对于大型数据集或需要更精确计算的情况，我们可能需要使用更高效的方法。

4. 使用NumPy的histogram函数计算CDF

NumPy的histogram函数可以帮助我们更高效地计算CDF。以下是一个使用histogram函数的示例：

import numpy as np
import matplotlib.pyplot as plt

# 生成示例数据
data = np.random.exponential(scale=2, size=1000)

# 计算CDF
counts, bin_edges = np.histogram(data, bins=50, density=True)
cdf = np.cumsum(counts) * np.diff(bin_edges)

# 绘制CDF
plt.figure(figsize=(10, 6))
plt.plot(bin_edges[1:], cdf, label='CDF')
plt.title('使用NumPy histogram计算的CDF - how2matplotlib.com')
plt.xlabel('值')
plt.ylabel('累积概率')
plt.legend()
plt.grid(True)
plt.show()

print("Learn more at how2matplotlib.com")

Output:

使用Matplotlib在Python中计算和绘制累积分布函数的完整指南

这个例子中，我们使用了指数分布的随机数据。通过histogram函数，我们首先计算了概率密度函数（PDF），然后通过累加得到CDF。这种方法在处理大型数据集时更加高效。

5. 使用SciPy的stats模块计算和绘制CDF

SciPy的stats模块提供了许多统计函数，包括计算CDF的函数。以下是一个使用SciPy计算和绘制CDF的示例：

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

# 生成示例数据
data = np.random.gamma(2, 2, 1000)

# 计算CDF
x = np.sort(data)
y = stats.gamma.cdf(x, 2, scale=2)

# 绘制CDF
plt.figure(figsize=(10, 6))
plt.plot(x, y, label='理论CDF')
plt.step(x, np.arange(1, len(x) + 1) / len(x), label='经验CDF', where='post')
plt.title('使用SciPy计算的Gamma分布CDF - how2matplotlib.com')
plt.xlabel('值')
plt.ylabel('累积概率')
plt.legend()
plt.grid(True)
plt.show()

print("Explore more at how2matplotlib.com")

Output:

使用Matplotlib在Python中计算和绘制累积分布函数的完整指南

在这个例子中，我们使用了Gamma分布的随机数据。SciPy的stats.gamma.cdf函数计算了理论CDF，我们同时绘制了理论CDF和经验CDF（使用step函数）进行比较。

6. 绘制多个CDF曲线进行比较

在实际应用中，我们经常需要比较不同数据集或不同分布的CDF。以下是一个绘制多个CDF曲线的示例：

import numpy as np
import matplotlib.pyplot as plt

# 生成不同分布的数据
normal_data = np.random.normal(0, 1, 1000)
uniform_data = np.random.uniform(-3, 3, 1000)
exponential_data = np.random.exponential(1, 1000)

# 计算CDF
def calculate_cdf(data):
    sorted_data = np.sort(data)
    y = np.arange(1, len(data) + 1) / len(data)
    return sorted_data, y

# 绘制多个CDF
plt.figure(figsize=(12, 7))
for data, label in zip([normal_data, uniform_data, exponential_data], 
                       ['正态分布', '均匀分布', '指数分布']):
    x, y = calculate_cdf(data)
    plt.plot(x, y, label=label)

plt.title('不同分布的CDF比较 - how2matplotlib.com')
plt.xlabel('值')
plt.ylabel('累积概率')
plt.legend()
plt.grid(True)
plt.show()

print("Visit how2matplotlib.com for more visualization tips")

Output:

使用Matplotlib在Python中计算和绘制累积分布函数的完整指南

这个例子展示了如何在同一图表中绘制多个CDF曲线，便于比较不同分布的特征。我们使用了正态分布、均匀分布和指数分布的数据进行比较。

7. 使用阶跃函数绘制离散CDF

对于离散数据，使用阶跃函数绘制CDF更为合适。以下是一个示例：

import numpy as np
import matplotlib.pyplot as plt

# 生成离散数据
data = np.random.poisson(lam=2, size=1000)

# 计算CDF
x = np.sort(np.unique(data))
y = np.cumsum(np.bincount(data)) / len(data)

# 绘制离散CDF
plt.figure(figsize=(10, 6))
plt.step(x, y, where='post', label='离散CDF')
plt.title('泊松分布的离散CDF - how2matplotlib.com')
plt.xlabel('值')
plt.ylabel('累积概率')
plt.legend()
plt.grid(True)
plt.show()

print("Learn more about discrete distributions at how2matplotlib.com")

这个例子使用了泊松分布的随机数据，展示了如何使用step函数绘制离散CDF。这种方法特别适用于计数数据或其他离散分布。

8. 添加置信区间到CDF图

在某些情况下，我们可能需要在CDF图上添加置信区间。以下是一个使用bootstrap方法计算和绘制置信区间的示例：

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

# 生成示例数据
data = np.random.normal(0, 1, 1000)

# 计算CDF和置信区间
def bootstrap_cdf(data, num_bootstrap=1000, ci=0.95):
    sorted_data = np.sort(data)
    y = np.arange(1, len(data) + 1) / len(data)

    bootstrap_cdfs = []
    for _ in range(num_bootstrap):
        bootstrap_sample = np.random.choice(data, size=len(data), replace=True)
        bootstrap_cdf = np.interp(sorted_data, np.sort(bootstrap_sample), y)
        bootstrap_cdfs.append(bootstrap_cdf)

    lower = np.percentile(bootstrap_cdfs, (1 - ci) / 2 * 100, axis=0)
    upper = np.percentile(bootstrap_cdfs, (1 + ci) / 2 * 100, axis=0)

    return sorted_data, y, lower, upper

# 绘制CDF和置信区间
x, y, lower, upper = bootstrap_cdf(data)

plt.figure(figsize=(10, 6))
plt.plot(x, y, label='CDF')
plt.fill_between(x, lower, upper, alpha=0.3, label='95% 置信区间')
plt.title('CDF with 置信区间 - how2matplotlib.com')
plt.xlabel('值')
plt.ylabel('累积概率')
plt.legend()
plt.grid(True)
plt.show()

print("Explore statistical visualization at how2matplotlib.com")

Output:

使用Matplotlib在Python中计算和绘制累积分布函数的完整指南

这个例子展示了如何使用bootstrap方法计算CDF的置信区间，并在图表中用阴影区域表示。这种方法可以帮助我们了解CDF估计的不确定性。

9. 绘制经验CDF和理论CDF的对比

在数据分析中，我们经常需要比较数据的经验CDF和理论分布的CDF。以下是一个示例：

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

# 生成示例数据
data = np.random.normal(0, 1, 1000)

# 计算经验CDF
sorted_data = np.sort(data)
y = np.arange(1, len(data) + 1) / len(data)

# 计算理论CDF
x = np.linspace(min(data), max(data), 100)
theoretical_cdf = stats.norm.cdf(x, loc=0, scale=1)

# 绘制对比图
plt.figure(figsize=(10, 6))
plt.plot(sorted_data, y, label='经验CDF')
plt.plot(x, theoretical_cdf, label='理论CDF', linestyle='--')
plt.title('经验CDF vs 理论CDF (正态分布) - how2matplotlib.com')
plt.xlabel('值')
plt.ylabel('累积概率')
plt.legend()
plt.grid(True)
plt.show()

print("Compare distributions at how2matplotlib.com")

Output:

使用Matplotlib在Python中计算和绘制累积分布函数的完整指南

这个例子展示了如何在同一图表中绘制数据的经验CDF和对应的理论CDF（这里是标准正态分布）。这种比较可以帮助我们判断数据是否符合某个理论分布。

10. 使用CDF进行数据分析

CDF不仅可以用于可视化，还可以用于数据分析。以下是一个使用CDF进行数据分析的示例：

import numpy as np
import matplotlib.pyplot as plt

# 生成示例数据
data1 = np.random.normal(0, 1, 1000)
data2 = np.random.normal(0.5, 1.2, 1000)

# 计算CDF
def calculate_cdf(data):
    sorted_data = np.sort(data)
    y = np.arange(1, len(data) + 1) / len(data)
    return sorted_data, y

# 绘制CDF并进行分析
plt.figure(figsize=(12, 7))

x1, y1 = calculate_cdf(data1)
x2, y2 = calculate_cdf(data2)

plt.plot(x1, y1, label='数据集1')
plt.plot(x2, y2, label='数据集2')

# 分析中位数
median1 = np.median(data1)
median2 = np.median(data2)
plt.vlines([median1, median2], 0, 0.5, linestyle='--', color=['blue', 'orange'])
plt.hlines(0.5, plt.xlim()[0], plt.xlim()[1], linestyle=':', color='gray')

plt.title('CDF比较和中位数分析 - how2matplotlib.com')
plt.xlabel('值')
plt.ylabel('累积概率')
plt.legend()
plt.grid(True)
plt.show()

print(f"数据集1中位数: {median1:.2f}")
print(f"数据集2中位数: {median2:.2f}")
print("Learn data analysis techniques at how2matplotlib.com")

Output:

使用Matplotlib在Python中计算和绘制累积分布函数的完整指南

这个例子展示了如何使用CDF比较两个数据集的分布特征，并分析中位数。通过CDF，我们可以直观地看出两个数据集的分布差异，以及中位数的位置。

11. 使用CDF进行异常值检测

CDF还可以用于异常值检测。以下是一个使用CDF进行简单异常值检测的示例：

import numpy as np
import matplotlib.pyplot as plt

# 生成示例数据（包含异常值）
data = np.concatenate([np.random.normal(0, 1, 980), np.random.uniform(5, 10, 20)])

# 计算CDF
sorted_data = np.sort(data)
y = np.arange(1, len(data) + 1) / len(data)

# 设定异常值阈值
lower_threshold = 0.01
upper_threshold = 0.99

# 找出异常值
lower_outliers = sorted_data[y < lower_threshold]
upper_outliers = sorted_data[y > upper_threshold]

# 绘制CDF和异常值
plt.figure(figsize=(12, 7))
plt.plot(sorted_data, y, label='CDF')
plt.scatter(lower_outliers, y[:len(lower_outliers)], color='red', label='下限异常值')
plt.scatter(upper_outliers, y[-len(upper_outliers):], color='green', label='上限异常值')

plt.title('使用CDF进行异常值检测 - how2matplotlib.com')
plt.xlabel('值')
plt.ylabel('累积概率')
plt.legend()
plt.grid(True)
plt.show()

print(f"检测到 {len(lower_outliers)} 个下限异常值和 {len(upper_outliers)} 个上限异常值")
print("Learn about outlier detection at how2matplotlib.com")

Output:

使用Matplotlib在Python中计算和绘制累积分布函数的完整指南

这个例子展示了如何使用CDF来识别数据集中的潜在异常值。我们设定了累积概率的上下阈值，并将落在这些阈值之外的数据点标记为异常值。

12. 绘制二维CDF

虽然CDF通常用于一维数据，但我们也可以扩展到二维数据。以下是一个绘制二维CDF的示例：

import numpy as np
import matplotlib.pyplot as plt

# 生成二维数据
x = np.random.normal(0, 1, 1000)
y = np.random.normal(0, 1, 1000)

# 计算二维CDF
H, xedges, yedges = np.histogram2d(x, y, bins=20, normed=True)
H = np.cumsum(np.cumsum(H, axis=0), axis=1)

# 绘制二维CDF
plt.figure(figsize=(10, 8))
plt.imshow(H.T, origin='lower', extent=[xedges[0], xedges[-1], yedges[0], yedges[-1]], 
           aspect='auto', cmap='viridis')
plt.colorbar(label='累积概率')
plt.title('二维累积分布函数 - how2matplotlib.com')
plt.xlabel('X')
plt.ylabel('Y')
plt.show()

print("Explore multidimensional visualization at how2matplotlib.com")

这个例子展示了如何计算和可视化二维数据的CDF。二维CDF可以帮助我们理解两个变量之间的联合分布特征。

13. 使用CDF进行概率计算

CDF不仅可以用于可视化，还可以用于概率计算。以下是一个使用CDF进行概率计算的示例：

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

# 生成示例数据
data = np.random.normal(0, 1, 1000)

# 计算CDF
sorted_data = np.sort(data)
y = np.arange(1, len(data) + 1) / len(data)

# 计算特定概率
def prob_less_than(x):
    return np.interp(x, sorted_data, y)

# 绘制CDF和概率计算
plt.figure(figsize=(12, 7))
plt.plot(sorted_data, y, label='CDF')

x_value = 1.0
prob = prob_less_than(x_value)

plt.plot([x_value, x_value], [0, prob], 'r--')
plt.plot([plt.xlim()[0], x_value], [prob, prob], 'r--')
plt.scatter([x_value], [prob], color='red', s=50, zorder=5)

plt.title(f'使用CDF计算概率 P(X ≤ {x_value}) = {prob:.3f} - how2matplotlib.com')
plt.xlabel('值')
plt.ylabel('累积概率')
plt.legend()
plt.grid(True)
plt.show()

print(f"P(X ≤ {x_value}) = {prob:.3f}")
print("Learn probability calculations at how2matplotlib.com")

Output:

使用Matplotlib在Python中计算和绘制累积分布函数的完整指南

这个例子展示了如何使用CDF计算特定值的累积概率。我们可以通过插值方法从经验CDF中获得任意值的累积概率。

14. 绘制反向CDF（分位数函数）

CDF的反函数称为分位数函数，它对于理解数据分布也很有用。以下是一个绘制分位数函数的示例：

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

# 生成示例数据
data = np.random.normal(0, 1, 1000)

# 计算分位数函数
quantiles = np.linspace(0, 1, 100)
quantile_values = np.quantile(data, quantiles)

# 绘制分位数函数
plt.figure(figsize=(10, 6))
plt.plot(quantiles, quantile_values)
plt.title('分位数函数（反向CDF） - how2matplotlib.com')
plt.xlabel('概率')
plt.ylabel('值')
plt.grid(True)
plt.show()

print("Explore quantile functions at how2matplotlib.com")

Output:

使用Matplotlib在Python中计算和绘制累积分布函数的完整指南

这个例子展示了如何计算和绘制分位数函数。分位数函数可以帮助我们理解数据的分布特征，特别是在极端值的分析中很有用。

15. 使用CDF进行A/B测试分析

CDF在A/B测试分析中也很有用。以下是一个使用CDF比较两组数据的示例：

import numpy as np
import matplotlib.pyplot as plt

# 生成A/B测试数据
group_a = np.random.normal(10, 2, 1000)
group_b = np.random.normal(10.5, 2, 1000)

# 计算CDF
def calculate_cdf(data):
    sorted_data = np.sort(data)
    y = np.arange(1, len(data) + 1) / len(data)
    return sorted_data, y

# 绘制A/B测试CDF比较
plt.figure(figsize=(12, 7))

x_a, y_a = calculate_cdf(group_a)
x_b, y_b = calculate_cdf(group_b)

plt.plot(x_a, y_a, label='Group A')
plt.plot(x_b, y_b, label='Group B')

plt.title('A/B测试CDF比较 - how2matplotlib.com')
plt.xlabel('值')
plt.ylabel('累积概率')
plt.legend()
plt.grid(True)
plt.show()

# 计算中位数差异
median_a = np.median(group_a)
median_b = np.median(group_b)
print(f"Group A中位数: {median_a:.2f}")
print(f"Group B中位数: {median_b:.2f}")
print(f"中位数差异: {median_b - median_a:.2f}")
print("Learn A/B testing techniques at how2matplotlib.com")

Output:

使用Matplotlib在Python中计算和绘制累积分布函数的完整指南

这个例子展示了如何使用CDF比较A/B测试的结果。通过比较两组数据的CDF，我们可以直观地看出它们之间的分布差异，这对于评估A/B测试的效果非常有帮助。

16. 使用CDF进行数据标准化

CDF还可以用于数据标准化，这在某些机器学习应用中很有用。以下是一个使用CDF进行数据标准化的示例：

import numpy as np
import matplotlib.pyplot as plt

# 生成示例数据
data = np.random.exponential(scale=2, size=1000)

# 计算CDF
sorted_data = np.sort(data)
cdf_values = np.arange(1, len(data) + 1) / len(data)

# 使用CDF进行标准化
normalized_data = np.interp(data, sorted_data, cdf_values)

# 绘制原始数据和标准化后的数据分布
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

ax1.hist(data, bins=30, density=True, alpha=0.7)
ax1.set_title('原始数据分布 - how2matplotlib.com')
ax1.set_xlabel('值')
ax1.set_ylabel('密度')

ax2.hist(normalized_data, bins=30, density=True, alpha=0.7)
ax2.set_title('CDF标准化后的数据分布 - how2matplotlib.com')
ax2.set_xlabel('标准化值')
ax2.set_ylabel('密度')

plt.tight_layout()
plt.show()

print("Learn data normalization techniques at how2matplotlib.com")