多项式回归(Polynomial Regression),多项式回归与线性回归的概念相同,只是它使用的是曲线而不是直线(线性回归使用的是直线)。多项式回归学习更多的参数来绘制非线性回归曲线。对于不能用直线概括的数据,它是有益的。多项式回归是将自变量x与因变量y之间的关系建模为n次多项式的一种线性回归形式。多项式回归拟合了x值与y相应条件均值之间的非线性关系,记为E(y |x)。
为什么选择多项式回归:
- 研究人员会假设一些关系是曲线关系。显然,这类情况将包括一个多项式项。
- 检验残差的。如果我们试图将线性模型与曲线数据拟合,预测器(X轴)上的残差(Y轴)的散点图将在中间有许多正残差的斑块。因此,在这种情况下是不合适的。
- 在通常的多元线性回归分析中,假设所有的自变量都是独立的。在多项式回归模型中,这一假设是不满足的。
多项式回归的应用:
这些基本用于定义或描述非线性现象,如:
- 组织的生长速度。
- 传染病的发展
- 湖泊沉积物中碳同位素的分布
回归分析的基本目标是用自变量x的值对因变量y的期望值进行建模:
y = a + bx + e
这里y是因变量,a是y截距,b是斜率,e是错误率。
在很多情况下,这个线性模型是行不通的,例如,如果我们用合成反应发生的温度来分析化学合成的产生,我们使用二次模型:
y = a + b1x + b2x^2 + e
这里y是x的因变量,a是y截距e是错误率。
一般来说,我们可以为第n个值建模。
y = a + b1x + b2x^2 +....+ bnx^n
由于回归函数对于未知变量是线性的,因此这些模型从估计的角度来看是线性的。
因此,通过最小二乘法,我们来计算响应值y。
Python中的多项式回归:
要获得用于多项式回归分析的数据集,请单击这里。
步骤1:导入库和数据集
导入用于执行多项式回归的重要库和数据集。
# Importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
# Importing the dataset
datas = pd.read_csv('data.csv')
datas
步骤2:将数据集划分为两个组件
将dataset分为X和y两个组件。X将包含1到2之间的列。y包含2列。
X = datas.iloc[:, 1:2].values
y = datas.iloc[:, 2].values
步骤3:对数据集进行线性回归拟合
对两部分线性回归模型进行拟合。
# Fitting Linear Regression to the dataset
from sklearn.linear_model import LinearRegression
lin = LinearRegression()
lin.fit(X, y)
步骤4:对数据集进行多项式回归拟合
拟合X、y两分量的多项式回归模型。
brightness_4
# Fitting Polynomial Regression to the dataset
from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(degree = 4)
X_poly = poly.fit_transform(X)
poly.fit(X_poly, y)
lin2 = LinearRegression()
lin2.fit(X_poly, y)
步骤5:在这个步骤中,我们使用散点图可视化线性回归结果。
# Visualising the Linear Regression results
plt.scatter(X, y, color = 'blue')
plt.plot(X, lin.predict(X), color = 'red')
plt.title('Linear Regression')
plt.xlabel('Temperature')
plt.ylabel('Pressure')
plt.show()
步骤6:使用散点图可视化多项式回归结果。
# Visualising the Polynomial Regression results
plt.scatter(X, y, color = 'blue')
plt.plot(X, lin2.predict(poly.fit_transform(X)), color = 'red')
plt.title('Polynomial Regression')
plt.xlabel('Temperature')
plt.ylabel('Pressure')
plt.show()
第七步:用线性回归和多项式回归预测新的结果。
# Predicting a new result with Linear Regression
lin.predict(110.0)
# Predicting a new result with Polynomial Regression
lin2.predict(poly.fit_transform(110.0))
使用多项式回归的优点:
- 适用范围广,功能齐全。
- 多项式基本适合大曲率范围。
- 多项式为因变量和自变量之间的关系提供了最好的近似。
使用多项式回归的缺点:
- 对异常值太敏感了。
- 数据中存在一两个异常值会严重影响非线性分析的结果。
- 此外,遗憾的是,用于检测非线性回归中的异常值的模型验证工具比用于线性回归的模型验证工具要少。