Python正态分布|极客教程

Python正态分布

介绍

正态分布（也称为高斯分布）是统计学中最重要的分布之一。它具有很多应用领域，包括自然科学、社会科学和金融等。本文将详细介绍Python中如何使用正态分布，包括如何生成随机数，计算概率密度函数（PDF）、累积分布函数（CDF），以及如何绘制正态分布曲线。

生成随机数

要使用正态分布，我们首先需要生成随机数。Python中有多种方法可以生成服从正态分布的随机数。其中，最常用的是numpy.random模块中的normal函数。

import numpy as np

# 生成一个符合标准正态分布的随机数
random_number = np.random.normal()
print(random_number)

输出：

0.2435297201972371

上述代码中，我们使用np.random.normal()函数生成一个服从标准正态分布的随机数，并将其赋值给random_number变量。注意，这里我们没有指定正态分布的均值和标准差，默认使用均值为0，标准差为1的标准正态分布。

我们还可以使用numpy.random.normal()函数生成符合特定均值和标准差的正态分布随机数。例如，如果想要生成均值为10，标准差为2的正态分布随机数，可以使用以下代码：

random_number = np.random.normal(10, 2)
print(random_number)

输出：

8.734223693551244

上述代码中，我们通过将10和2作为numpy.random.normal()函数的参数来指定均值和标准差。函数将生成一个服从均值为10，标准差为2的正态分布随机数。

概率密度函数（PDF）

概率密度函数是用来描述连续型随机变量概率分布的函数。对于正态分布而言，其概率密度函数是一个钟形曲线。Python中有多种方法可以计算正态分布的概率密度函数。其中，最常用的是scipy.stats模块中的norm类。

from scipy.stats import norm

# 计算均值为0，标准差为1的正态分布在数值0处的概率密度函数值
pdf = norm.pdf(0)
print(pdf)

输出：

0.3989422804014327

上述代码中，我们使用norm.pdf()函数计算均值为0，标准差为1的正态分布在数值0处的概率密度函数值，并将结果赋值给pdf变量。

我们还可以使用numpy库中的exp函数和pi常量来手动计算正态分布的概率密度函数。以下是一个示例代码：

import numpy as np

def normal_pdf(x, mean, std):
    return (1 / (std * np.sqrt(2 * np.pi))) * np.exp(-(x - mean)**2 / (2 * std**2))

pdf = normal_pdf(0, 0, 1)
print(pdf)

输出：

0.3989422804014327

上述代码中，我们定义了一个normal_pdf函数，该函数使用正态分布的概率密度函数公式来计算概率密度函数值。然后，我们调用这个函数来计算均值为0，标准差为1的正态分布在数值0处的概率密度函数值。

累积分布函数（CDF）

累积分布函数是概率密度函数的积分，它可以用来计算随机变量取值小于或等于某个给定值的概率。对于正态分布而言，累积分布函数是一个S形曲线。Python中也可以使用scipy.stats模块中的norm类来计算正态分布的累积分布函数。

from scipy.stats import norm

# 计算均值为0，标准差为1的正态分布在数值0处的累积分布函数值
cdf = norm.cdf(0)
print(cdf)

输出：

0.5

上述代码中，我们使用norm.cdf()函数计算均值为0，标准差为1的正态分布在数值0处的累积分布函数值，并将结果赋值给cdf变量。

我们还可以使用scipy.integrate模块中的quad函数手动计算正态分布的累积分布函数。以下是一个示例代码：

from scipy.integrate import quad
import numpy as np

def normal_pdf(x):
    return (1 / (np.sqrt(2 * np.pi))) * np.exp(-x**2 / 2)

def normal_cdf(x):
    integral, _ = quad(normal_pdf, -np.inf, x)
    return integral

cdf = normal_cdf(0)
print(cdf)

输出：

0.5

上述代码中，我们定义了一个normal_pdf函数来表示正态分布的概率密度函数，并使用quad函数来计算累积分布函数的积分值。然后，我们定义了一个normal_cdf函数来计算累积分布函数的值。最后，我们调用normal_cdf函数来计算均值为0，标准差为1的正态分布在数值0处的累积分布函数值。

绘制正态分布曲线

使用Python，我们还可以将正态分布绘制成曲线图。为此，我们可以使用matplotlib库中的pyplot模块。

import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import norm

# 生成一组服从均值为0，标准差为1的正态分布的随机数
random_numbers = np.random.normal(0, 1, 1000)

# 绘制直方图
plt.hist(random_numbers, bins=50, density=True, alpha=0.7, color='blue')

# 生成一组在一定范围内均匀分布的数值
x = np.linspace(-4, 4, 100)

# 计算均值为0，标准差为1的正态分布在这些数值上的概率密度函数值
pdf = norm.pdf(x, 0, 1)

# 绘制正态分布曲线
plt.plot(x, pdf, color='red', lw=2)

plt.xlabel('Value')
plt.ylabel('Density')

plt.show()

上述代码中，我们首先生成了一组服从均值为0，标准差为1的正态分布的随机数。接下来，我们使用plt.hist()函数绘制了这组随机数的直方图，并设置了参数来指定直方图的颜色、透明度和边界数。然后，我们使用linspace()函数生成一组在[-4, 4]范围内均匀分布的数值，并使用norm.pdf()函数计算这组数值上正态分布的概率密度函数值。最后，我们使用plt.plot()函数绘制了正态分布的曲线，并使用plt.xlabel()和plt.ylabel()函数设置坐标轴的标签。最后，使用plt.show()函数展示图形。

这样，我们就成功绘制了一个均值为0，标准差为1的正态分布的直方图和曲线图。图中的直方图表示了随机数的分布情况，而曲线图则展示了这个正态分布的概率密度函数。

总结

本文详细介绍了如何在Python中使用正态分布。我们学习了如何生成服从正态分布的随机数、计算概率密度函数（PDF）和累积分布函数（CDF），以及如何绘制正态分布曲线。正态分布是统计学中非常重要的一个概念，对于理解和分析数据具有重要意义。通过使用Python提供的库和函数，我们可以轻松地进行正态分布的操作和可视化，为数据分析和建模提供有力的工具。