R语言 随机森林分类方法

R语言 随机森林分类方法

随机森林法是有监督的非线性分类和回归算法。分类是将一组数据集按类别或班级进行分类的过程。由于随机森林方法可以使用分类或回归技术,这取决于用户和目标或需要的类别。随机森林是一个决策树的集合,它以更高的概率指定类别。随机森林方法比决策树方法更受欢迎,因为决策树缺乏准确性,而且由于过度拟合的过程,决策树在测试阶段也显示出低准确性。在R编程中, 随机森林 包的 randomForest() 函数被用来创建和分析随机森林。在这篇文章中,让我们来讨论随机森林,学习R编程中分类的随机森林方法的语法和实现,并进一步绘制推理的图表。

随机森林

随机森林是一种机器学习算法,它使用决策树的集合,在输出中提供更多的灵活性、准确性和易用性。这种算法比决策树算法更有优势,因为与随机森林算法相比,决策树提供的准确性较差。简单地说,随机森林方法提高了决策树的性能。它是最好的算法之一,因为它可以同时使用分类和回归技术。作为一种有监督的学习算法,随机森林在决策树中使用了装袋方法,因此,增加了学习模型的准确性。

随机森林从一个随机的特征子集中寻找最佳特征,为模型提供更多的随机性,从而形成一个更好、更准确的模型。让我们通过一个例子了解一下随机森林的方法。假设一个叫鲍勃的人想从一家商店买一件T恤。售货员首先询问他最喜欢的颜色。这就构成了一个基于颜色特征的决策树。此外,售货员还问了更多关于T恤衫的问题,如尺寸、面料类型、领子类型等等。更多选择T恤的标准将在机器学习中形成更多的决策树。所有的决策树将构成随机森林方法,根据Bob想从商店购买的许多特征来选择一件T恤。

分类法

分类是一种有监督的学习方法,它根据所提供的特征对数据进行分类。如在上面的例子中,使用随机森林对数据进行了不同的参数分类。它有助于创造更多有意义的观察或分类。简单地说,分类是将结构化或非结构化的数据归入一些类别或类别的一种方式。有8种主要的分类算法。

  • Logistic回归
  • 奈何贝叶斯
  • K-最近的邻居
  • 决策树
  • 随机森林
  • 人工神经网络
  • 支持向量机
  • 随机梯度下降法

一些现实世界的分类例子是:一封邮件可以被指定为垃圾邮件或非垃圾邮件,废物可以被指定为纸质废物、塑料废物、有机废物或电子废物,一种疾病可以根据许多症状来确定,情感分析,利用面部表情确定性别,等等。

实现随机森林方法进行分类

语法:

randomForest(formula,data)

参数:

formula: 代表描述拟合模型的公式

data: 代表包含模型中变量的数据框

例子:

在这个例子中,让我们在虹膜数据集上使用监督学习,根据函数中传递的参数对虹膜植物的种类进行分类。

第1步:安装所需的库

# Install the required
# Package for function
install.packages("randomForest")
R

第2步: 加载所需的库

# Load the library
library(randomForest)
R

第3步:randomForest( )函数中使用虹膜数据集

# Create random forest
# For classification
iris.rf <- randomForest(Species ~ ., 
                        data = iris, 
                        importance = TRUE,
                        proximity = TRUE)
R

第4步: 打印上述步骤中建立的分类模型

# Print classification model
print(iris.rf)
R

输出

Call:
 randomForest(formula = Species ~ ., data = iris, importance = TRUE,      proximity = TRUE) 
               Type of random forest: classification
                     Number of trees: 500
No. of variables tried at each split: 2

        OOB estimate of  error rate: 5.33%
Confusion matrix:
           setosa versicolor virginica class.error
setosa         50          0         0        0.00
versicolor      0         47         3        0.06
virginica       0          5        45        0.10
R

第5步: 绘制误差和树木数量之间的图表

# Output to be present
# As PNG file 
png(file = "randomForestClassification.png")
   
# Plot the error vs 
# The number of trees graph
plot(iris.rf)
   
# Saving the file
dev.off()
R

输出:
R编程中的随机森林分类方法
解释:
执行上述代码后,产生的输出显示了使用随机森林算法的分类模型开发的决策树的数量,即500棵决策树。混淆矩阵也被称为误差矩阵,显示了分类模型性能的可视化。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

登录

注册