Python中的Logistic回归-分割数据

Python中的Logistic回归-分割数据

我们有大约四万一千零一条记录。如果我们使用整个数据来建立模型,我们将不会留下任何数据用于测试。所以一般来说,我们把整个数据集分成两部分,比如70/30的比例。我们用70%的数据来建立模型,其余的用来测试我们创建的模型的预测准确性。你可以根据你的要求,使用不同的分割比例。

创建特征数组

X数组包含我们想要分析的所有特征(数据列),Y数组是一个布尔值的单维数组,是预测的输出。为了理解这一点,让我们运行一些代码。

首先,执行下面的Python语句来创建X数组 —

In [17]: X = data.iloc[:,1:]

为了检查 X 的内容,使用 head 来打印一些初始记录。下面的屏幕显示了X阵列的内容。

In [18]: X.head ()

Python中的Logistic回归--分割数据

该阵列有几行和23列。

接下来,我们将创建包含 “y “值的输出数组。

创建输出数组

要为预测值列创建一个数组,请使用下面的Python语句 —

In [19]: Y = data.iloc[:,0]

通过调用 head 来检查其内容 下面的屏幕输出显示了结果-

In [20]: Y.head()
Out[20]: 0   0
1    0
2    1
3    0
4    1
Name: y, dtype: int64

现在,使用以下命令分割数据−

In [21]: X_train, X_test, Y_train, Y_test = train_test_split(X, Y, random_state=0)

这将创建四个数组,称为 X_train、Y_train、X_test和Y_test。 和以前一样,你可以使用head命令来检查这些数组的内容。我们将使用X_train和Y_train数组来训练我们的模型,X_test和Y_test数组用于测试和验证。

现在,我们已经准备好建立我们的分类器了。我们将在下一章中研究它。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程