Python 二次多项式回归的显著性检验|极客教程

Python 二次多项式回归的显著性检验

在实际数据分析中，我们常常会遇到非线性的数据关系。当数据的散点图不呈现线性趋势时，我们可以尝试使用多项式回归来拟合数据。二次多项式回归是其中一种常用的方法。在进行二次多项式回归后，我们需要对回归模型的显著性进行检验，以确定模型的拟合程度和预测能力。

本文将介绍如何使用Python对二次多项式回归进行显著性检验。我们将使用statsmodels库来拟合二次多项式回归模型，并使用F统计量和p值来进行显著性检验。

1. 数据准备

首先，我们需要准备一组带有非线性关系的数据。假设我们有如下的数据集，包括自变量x和因变量y：

import numpy as np

# 生成非线性数据
np.random.seed(0)
x = np.linspace(0, 10, 100)
y = 3*x**2 + 2*x + np.random.normal(0, 1, 100)

print(x[:5])
print(y[:5])

运行以上代码，我们生成了一组x和y的非线性数据，其中x是一个1到10之间的等间距数列，y是根据方程 $y = 3x^2 + 2x + \epsilon$ 生成的，其中 $\epsilon$ 是服从标准正态分布的随机误差。

2. 二次多项式拟合

接下来，我们使用numpy.polyfit函数拟合二次多项式回归模型：

import matplotlib.pyplot as plt

# 拟合二次多项式回归模型
coefficients = np.polyfit(x, y, 2)
poly = np.poly1d(coefficients)
y_pred = poly(x)

# 绘制拟合曲线
plt.scatter(x, y, label='Original data')
plt.plot(x, y_pred, color='red', label='Fitted curve')
plt.xlabel('x')
plt.ylabel('y')
plt.legend()
plt.show()

运行以上代码，我们可以看到原始数据的散点图以及拟合的二次多项式曲线。

3. 显著性检验

接下来，我们使用statsmodels库中的OLS类进行二次多项式回归，并进行显著性检验：

import statsmodels.api as sm

# 添加截距项
X = sm.add_constant(np.column_stack((x, x**2)))

# 拟合二次多项式回归模型
model = sm.OLS(y, X).fit()

# 打印回归结果
print(model.summary())

运行以上代码，我们可以看到打印出的回归结果，包括参数估计值、标准误差、t统计量、p值等信息。在回归结果中，我们可以关注F统计量和对应的p值，来进行二次多项式回归的显著性检验。