R语言KNN教程|极客教程

R语言KNN教程

介绍

K最近邻（K-Nearest Neighbors，KNN）算法是一种简单而有效的监督学习算法，用于分类和回归问题。KNN算法的基本思想是通过比较待分类样本与已知类别样本的距离，将待分类样本归类到距离最近的K个样本所属的类别中。在本教程中，我们将使用R语言实现KNN算法，并演示如何在R中应用KNN算法进行分类。

安装和加载必要的包

在开始之前，我们需要安装并加载一些必要的R包。在这个教程中，我们将使用 class 包来实现KNN算法。

install.packages("class")
library(class)

生成并准备数据

在实现KNN算法之前，我们首先需要生成一些样本数据并对数据进行预处理。在这个教程中，我们生成一个简单的二维数据集，用于演示KNN分类算法。

# 生成样本数据
set.seed(123)
data <- data.frame(
  x1 = rnorm(100, 0, 1),
  x2 = rnorm(100, 0, 1),
  y = sample(c(0, 1), 100, replace=TRUE)
)

# 查看前几行数据
head(data)

运行以上代码，我们生成了一个包含两个特征（x1和x2）和一个类别标签（y）的样本数据集。接下来，我们将数据集分割为训练集和测试集。

# 分割数据集为训练集和测试集
train_index <- sample(1:nrow(data), 0.7*nrow(data))
train_data <- data[train_index,]
test_data <- data[-train_index,]

实现KNN算法

接下来，我们将实现KNN算法，并对测试集中的样本进行分类。

# KNN分类函数
knn_pred <- knn(train = train_data[,1:2], test = test_data[,1:2], cl = train_data$y, k = 3)

# 输出分类结果
knn_pred

在上述代码中，我们使用 knn() 函数对测试集中的样本进行分类，其中 train 参数为训练集特征，test 参数为测试集特征，cl 参数为训练集的类别标签，k 参数表示选择最近邻的个数。运行以上代码后，我们得到了测试集中样本的分类结果。

评估分类性能

为了评估KNN算法的分类性能，我们可以计算模型在测试集上的准确率。

# 计算准确率
accuracy <- sum(knn_pred == test_data$y) / nrow(test_data)
accuracy

在上述代码中，我们首先计算了模型在测试集上的预测准确率。运行以上代码后，我们得到了KNN算法在测试集上的准确率。

调整参数K

最后，我们还可以尝试不同的K值来调整KNN算法的参数，看看不同的K值对于分类性能的影响。

# 尝试不同的K值
k_values <- c(1, 3, 5, 7, 9)
accuracy_values <- numeric(length(k_values))

for (i in 1:length(k_values)) {
  knn_pred <- knn(train = train_data[,1:2], test = test_data[,1:2], cl = train_datay, k = k_values[i])
  accuracy_values[i] <- sum(knn_pred == test_datay) / nrow(test_data)
}

# 输出不同K值的准确率
accuracy_values