R语言线性判别如何对所有样本进行预测

1. 引言

在统计学和机器学习领域，线性判别也称为线性判别分析（Linear Discriminant Analysis，LDA）是一种经典的分类方法。它基于对样本的线性组合进行判别，可以有效地降低数据的维度，并选择最佳的特征进行分类。在R语言中，我们可以使用现有的库函数来实现线性判别，并对新样本进行预测。

本文将详细介绍如何使用R语言进行线性判别，包括数据准备、建立模型、预测和评估等内容，帮助读者理解和应用线性判别方法。

2. 数据准备

在开始之前，我们首先需要准备适合线性判别的数据。一般来说，数据应该包括两部分：特征矩阵和类别向量。其中，特征矩阵包含了多个特征变量，用于描述数据的特征；类别向量包含了每个样本所属的类别标签。

假设我们有一个名为”iris”的数据集，其中包含了150个鸢尾花的样本。每个样本有四个特征变量：花瓣长度、花瓣宽度、萼片长度和萼片宽度。我们的目标是根据这些特征变量来预测鸢尾花的类别，该数据集已经成为R语言默认的示例数据集之一。

首先，我们需要加载必要的库并导入数据集：

# 加载所需的库
library(MASS)

# 导入鸢尾花数据集
data(iris)

完成以上步骤后，我们可以通过以下代码片段来查看数据集的基本信息：

# 查看数据集的基本信息
head(iris)
str(iris)

这段代码可以输出数据集的前几行和数据结构信息。

3. 建立模型

数据准备完成后，我们可以开始建立线性判别模型。在R语言中，可以使用lda()函数来完成这一任务。该函数位于MASS库中，并且接受特征矩阵和类别向量作为输入参数。

以下是使用lda()函数建立模型的代码示例：

# 建立线性判别模型
model <- lda(Species ~ ., data = iris)

在上述代码中，我们使用Species作为类别变量，并使用“~.”表示将所有其他列作为特征变量。模型的结果将存储在名为model的对象中。

4. 预测新样本

建立了线性判别模型后，我们可以使用该模型来对新样本进行预测。在R语言中，可以使用predict()函数实现这一功能。该函数接受一个训练过的模型和要预测的新样本作为输入参数，并返回预测结果。

以下是使用predict()函数进行预测的代码示例：

# 预测新样本
new_data <- data.frame(Sepal.Length = c(5.1, 6.2, 4.9),
                       Sepal.Width = c(3.5, 2.9, 3.1),
                       Petal.Length = c(1.4, 4.6, 1.5),
                       Petal.Width = c(0.2, 1.3, 0.2))

predictions <- predict(model, newdata = new_data)

在上述代码中，我们创建了一个名为new_data的新数据框，其中包含了三个新样本的特征变量。然后，我们使用predict()函数基于之前建立的模型对这些新样本进行预测，并将结果存储在名为predictions的对象中。

5. 评估和使用预测结果

完成预测后，我们可以对结果进行评估，并将其用于进一步的分析或决策。在线性判别中，一种常用的评估方法是计算预测的精度，即正确预测的样本所占的比例。

以下是计算预测精度的代码示例：

# 计算预测精度
true_labels <- iris $Species accuracy <- sum(predictions$ class == true_labels) / length(true_labels)

在上述代码中，我们首先将真实的类别标签存储在名为true_labels的对象中。然后，我们通过将预测结果的类别与真实类别进行比较，并计算正确预测的样本所占的比例来计算预测精度。

完成评估后，我们可以使用预测结果进行后续分析。例如，我们可以根据预测结果绘制散点图，并根据类别使用不同的颜色对样本进行标记。

以下是使用预测结果绘制散点图的代码示例：

# 绘制散点图
library(ggplot2)

iris $Predicted <- factor(predictions$ class)
ggplot(data = iris, aes(x = Sepal.Length, y = Sepal.Width, color = Predicted)) +
  geom_point()

在上述代码中，我们使用了ggplot2库来绘制散点图，并使用Predicted列作为颜色变量，根据预测结果对样本进行标记。