knn示例r语言|极客教程

knn示例r语言

简介

K近邻算法（K-Nearest Neighbors），简称KNN算法，是一种常用的分类和回归算法。它的基本思想是通过测量不同特征值之间的距离，来对未知样本进行分类或者回归预测。

KNN算法的核心是：找到与目标样本距离最近的前K个邻居，然后根据这K个邻居的分类情况（或者回归结果），来确定目标样本的类别或者预测值。

KNN算法的步骤

KNN算法的主要步骤包括：
1. 选择合适的K值
2. 计算待预测样本与训练集中所有样本的距离
3. 根据距离得到最近的K个邻居
4. 通过投票法（分类问题）或者平均法（回归问题）确定最终的预测结果

下面我们将用R语言实现一个简单的KNN分类示例，以帮助读者更好地理解KNN算法。

KNN算法的R语言实现

数据准备

在这个示例中，我们将使用一个虚拟的数据集，其中包含两个特征（长度和宽度）和一个分类标签（鸢尾花的类型）。

首先，我们需要加载相关的R包，并读取数据集。

# 导入相关包
library(class)

# 读取数据集
data <- read.csv("iris.csv")

数据探索

为了更好地了解数据集，我们可以查看数据集的前几行和摘要信息。

# 查看数据集的头部
head(data)

# 查看数据集的摘要信息
summary(data)

数据预处理

在KNN算法中，需要将数据集划分为训练集和测试集。然后，使用训练集来训练模型，并使用测试集来评估模型的准确性。

# 设置随机数种子，确保每次运行结果一致
set.seed(123)

# 将数据集划分为训练集和测试集
trainIndex <- sample(1:nrow(data), 0.7*nrow(data))
trainData <- data[trainIndex, -5] # 去除分类标签
trainLabels <- data[trainIndex, 5] # 分类标签

testData <- data[-trainIndex, -5] # 去除分类标签
testLabels <- data[-trainIndex, 5] # 分类标签

构建模型

使用R中的knn()函数来实现KNN算法。

# 构建模型
k <- 3
knnModel <- knn(train = trainData, test = testData, cl = trainLabels, k = k)

模型评估

对于分类问题，我们可以通过计算准确率来评估模型的性能。

# 计算准确率
accuracy <- sum(knnModel == testLabels) / length(testLabels)

结果分析与可视化

最后，我们可以查看预测结果，并通过绘制散点图来进行可视化。

# 查看预测结果
result <- data.frame(testData, "True Labels" = testLabels, "Predicted Labels" = knnModel)
head(result)

# 绘制散点图
plot(data $Sepal.Length, data$ Sepal.Width, col = result $`True Labels`, pch = 19, xlab = "Sepal Length", ylab = "Sepal Width") points(result$ Sepal.Length, result $Sepal.Width, col = result$ `Predicted Labels`, pch = 4)
legend("topright", legend = levels(data$Species), col = 1:3, pch = 19:21, title = "Species")