如何使用Python实现简单的线性回归模型|极客教程

如何使用Python实现简单的线性回归模型

线性回归是一种最简单的机器学习算法，用于建立自变量和因变量之间的线性关系。在这篇文章中，我们将讨论如何使用Python中的scikit-learn库实现一个简单的线性回归模型。

什么是线性回归

线性回归是一种用于建立自变量（特征）和因变量（目标）之间线性关系的统计方法。数学上，线性回归模型可以表示为：

$Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + … + \beta_nX_n + \epsilon$

其中， $Y$ 是因变量， $X_i$ 是自变量， $\beta_i$ 是模型系数， $\epsilon$ 是误差项。线性回归的目标是找到最优的 $\beta_i$ 值，使得预测值与实际值之间的误差最小。

使用Python实现线性回归

在Python中，我们可以使用scikit-learn库来实现线性回归模型。scikit-learn是一个强大的机器学习库，提供了许多常用的机器学习算法和工具。

首先，我们需要准备数据集。这里我们使用boston数据集，它包含了波士顿房价的一些特征信息。我们将尝试使用这些特征来预测房价。

from sklearn.datasets import load_boston
import pandas as pd

boston = load_boston()
data = pd.DataFrame(boston.data, columns=boston.feature_names)
data['PRICE'] = boston.target

X = data.drop('PRICE', axis=1)
y = data['PRICE']

接下来，我们将数据集分为训练集和测试集，一般我们会将数据集的80%用于训练，20%用于测试。

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

然后，我们可以使用LinearRegression类来建立线性回归模型。

from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(X_train, y_train)

模型训练完成后，我们可以使用测试集数据来评估模型的性能。

from sklearn.metrics import mean_squared_error

y_pred = lr.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')

最后，我们可以使用训练好的模型来对新的数据进行预测。

new_data = pd.DataFrame({
    'CRIM': [0.03],
    'ZN': [0.0],
    'INDUS': [2.18],
    'CHAS': [0.0],
    'NOX': [0.458],
    'RM': [6.579],
    'AGE': [45.8],
    'DIS': [6.998],
    'RAD': [3.0],
    'TAX': [222.0],
    'PTRATIO': [18.7],
    'B': [394.63],
    'LSTAT': [2.94]
})

prediction = lr.predict(new_data)
print(f'Predicted Price: {prediction[0]}')

上面代码展示了如何使用Python中的scikit-learn库实现简单的线性回归模型。通过准备数据集、训练模型、评估性能和预测新数据，我们可以快速建立一个线性回归模型并进行预测。