R语言 使用ggplot2为连续变量创建boxplot
盒式 图是总结分布形状的一种好方法,可以显示其中位数、平均值、偏度、可能的离群值、分布等。 这些图大多用于数据探索。箱形图是五个数字的总结,即最小值、第一四分之一、中位数、第三四分之一和最大值。
一个箱形图。
箱形图总结了一个连续变量的分布情况,我们从第一个四分位数到第三个四分位数画一个方框,一条垂直线在中位数处穿过方框,也就是第二个四分位数,将数据分成两个相等的百分比,即低于50和高于50。 第一个四分位数(Q1) 包括前25%的数据, 第三个四分位数(Q3) 包括75%的数据。
使用R语言中ggplot2包中的geom_boxplot()函数,我们可以创建一个简单的箱形图,也可以创建一个来自连续变量的箱形图。
语法: geom_boxplot(mapping = NULL, data = NULL,position = "dodge", outlier.color = NULL, outlier.shape = 19, outlier.size = 1.5, outlier.stroke = 0.5, ... )
参数
- mapping : 在这个映射中,我们提供列名作为参数,以映射到绘图上。geom_boxplot中默认的映射是NULL。
- data : 这个参数设置要使用的数据框架。
- position : position参数指定了boxplot在图形的视觉表现中的放置方式。位置的默认值是dodge。
- outlier.color: 用于指定离群点的默认颜色。
- outlier.shape: 用于指定离群点的默认颜色。
- outlier.size: 用于指定离群点的默认大小。
- outlier.stroke: 我们可以使用outlier.shape = NA来隐藏图表中的离群点,它只是隐藏了离群点,并没有移除离群点。
要为一个连续变量创建箱形图,首先要安装绘制箱形图所需的软件包,然后创建或加载我们要绘制箱形图的数据集。使用geom_boxplot()函数像普通的boxplot一样绘制箱形图。
例1 :
# loading library
library(ggplot2)
# creating random dataset
data <- data.frame(y=abs(rnorm(16)),
x=rep(c(0,100,200,300,400,
500,600,700),
each=2))
# creating the box plot
ggplot(data, aes(x, y, group=x)) +
# plotting the box plot with green color
geom_boxplot(fill="green") +
# adding x-axis label
xlab("x-axis") +
# adding y-axis label
ylab("y-axis") +
# adding title
ggtitle("Continuous Box plot ")
输出
箱形图
例2 :
# creating box plot for continuous variable
# loading library
library(ggplot2)
# creating random dataset
data <- data.frame(y=abs(rnorm(20)),
x=rep(c(10,20,30,40,50,60,
70,80,90,100),
each=2))
# creating the box plot
ggplot(data, aes(x, y, fill=factor(x))) +
# plotting the box plot with green color
geom_boxplot() +
# adding x-axis label
xlab("x-axis") +
# adding y-axis label
ylab("y-axis") +
# adding title
ggtitle("Continuous Box plot ")
输出
彩色方框图