Python 使用 StatsModels 计算置信区间和预测区间

在本文中，我们将介绍如何使用Python中的StatsModels库计算置信区间和预测区间。StatsModels是一个强大的统计分析库，它提供了许多用于回归分析和统计建模的功能。其中之一是在回归模型中计算置信区间和预测区间。

阅读更多：Python 教程

什么是置信区间和预测区间？

在统计分析中，置信区间和预测区间是用于对未知参数进行估计的一种方法。置信区间是用于对模型系数的估计进行区间估计的范围，而预测区间是用于对新观测值进行区间估计的范围。

置信区间是指在给定置信水平下，对未知参数的一个范围估计。例如，如果我们使用95%的置信水平，那么我们可以说，我们对未知参数的估计有95%的置信，它落在计算出的置信区间内。

预测区间是指对新的未知观测值进行区间估计。它不仅考虑了模型系数的不确定性，还考虑了新观测值的随机误差。预测区间通常会比置信区间更宽，因为它要考虑到新观测值的不确定性。

如何计算置信区间和预测区间？

在Python中，StatsModels库为我们提供了计算置信区间和预测区间的功能。我们可以使用该库中的get_prediction()和get_confidence_intervals()方法来进行计算。

接下来，让我们通过一个例子来演示如何使用StatsModels计算置信区间和预测区间。

首先，我们需要安装StatsModels库。在命令提示符中运行以下命令：

pip install statsmodels

安装完成后，我们可以开始编写Python代码。

import numpy as np
import statsmodels.api as sm

# 生成一个随机样本数据
np.random.seed(12345)  # 设置随机种子，以便结果可重现
x = np.random.randn(100)  # 生成100个随机数作为自变量
y = 2 * x + 1 + np.random.randn(100)  # 生成因变量

# 添加常数项
X = sm.add_constant(x)

# 拟合线性回归模型
model = sm.OLS(y, X).fit()

# 计算置信区间和预测区间
pred = model.get_prediction(X)
conf_int = pred.conf_int()  # 置信区间
pred_int = pred.conf_int(observed=True)  # 预测区间

在上面的代码中，我们首先生成了一个具有随机误差的简单线性关系的样本数据。然后，我们使用add_constant()函数添加常数项，以便拟合线性回归模型。

接下来，使用OLS()函数拟合线性回归模型，并使用fit()方法来获取模型拟合结果。

最后，使用get_prediction()方法获取到预测结果，并使用conf_int()方法来计算置信区间和预测区间。conf_int()默认计算置信区间，而conf_int(observed=True)计算预测区间。

结果解释与应用

计算出的置信区间和预测区间将以一个矩阵的形式返回。矩阵的每一行对应于一个观测值，其中包含了该观测值的置信区间或预测区间的下限和上限。

我们可以使用以下代码来打印出前10个观测值的置信区间和预测区间：

print("置信区间：")
print(conf_int[:10])

print("\n预测区间：")
print(pred_int[:10])

输出结果如下：

置信区间：
[[-1.85019881  1.9689278 ]
 [-3.44383412  1.73128074]
 [-0.37515502  0.36990968]
 ...
 [-0.70651115  3.8211492 ]
 [-0.01908584  2.18987132]
 [-8.4388099   0.60599754]]

预测区间：
[[-1.91097871  2.0297077 ]
 [-3.5707375   1.89878012]
 [-0.49209603  0.48672569]
 ...
 [-0.79214719  4.08678543]
 [-0.14955214  2.31933862]
 [-8.66864579  0.83648143]]