R语言 图表绘制
当涉及到解释世界和它每天产生的大量数据时,数据可视化成为最理想的方式。与其筛选庞大的Excel表格,不如通过图表和图形将这些数据可视化,以获得有意义的见解。
R – 图形绘制
R编程语言提供了一些简单而快速的工具,让我们可以将数据转换成视觉上有洞察力的元素,如图表。
R语言 图形绘制有两种类型
- 一维绘图: 在一维绘图中,我们一次绘制一个变量。例如,我们可以用它的每个值在整个数据集中出现的次数(频率)绘制一个变量。因此,它不与数据集的任何其他变量相比较。这些是用于一维分析的4种主要图表类型 –
- 五点总结
- 箱形图
- 直方图
- 柱状图
- 二维绘图: 在二维绘图中,我们将一个变量与另一个变量进行可视化比较。例如,在一个空气质量测量的数据集中,我们想比较空气质量指数与某地温度的变化情况。因此,温度和AQI是两个不同的变量,我们希望看到一个变量如何相对于另一个变量的变化。这些是用于此类分析的3种主要图表 —
- 箱形图
- 柱状图
- 散点图
为了本文的目的,我们将使用RStudio提供的默认数据集(mtcars)。
加载数据
打开RStudio(或R终端)并开始加载数据集。在控制台中输入这些命令。这是一种加载R提供的默认数据集的方法。(也可以下载和使用任何其他数据集)
为了检查数据是否被正确加载,我们在控制台运行以下命令。
输出
通过运行这个命令,我们也可以知道我们的数据集包含哪些列。在本例中,数据集mtcars包含11个列,即mpg、 cyl、disp、hp、drat、wt、qsec、vs、am、gear和carb。注意行数比这里显示的要多。 head() 函数只显示数据集的前6行。
一维绘图
在一维绘图中,我们基本上是一次绘制一个变量。因此,它不会与数据集的任何其他变量进行比较。相反,只考虑其统计推断的特点。
五点总结
要在R中引用一个特定的列名,我们使用”gear。因此,对于数据集的任何特定列,我们可以使用 summary() 函数生成一个五点总结。我们只需将列名(用$符号表示)作为参数传递给这个函数,如下所示。
输出
这个摘要列出了像平均数、中位数、最小值、最大值和特定列的象限值的特征。
箱形图
箱形图生成一个矩形,覆盖数据集的列所跨越的区域。它可以按以下方式生成。
输出
请注意,矩形中的粗线描绘了mpg栏的中位数,即在五点总结中看到的19.20。 col=”green “只是将图表染成绿色。
柱状图
直方图是分析数据集时最广泛使用的图示。下面是我们如何绘制一个直方图,将一个变量(列名)映射到它的频率。
‘break’参数本质上改变了直方图条的宽度。可以看到,当我们增加断点的值时,柱状图会变细。
输出
条形图的绘制
在柱状图中,我们对变量(列)中存在的每个值得到一个离散的值-频率映射。比如说。
输出
我们看到 “carb “列包含6个离散值(在其所有行中)。上面的条形图将这6个值映射到它们的频率(它们出现的次数)。
二维绘图
在二维绘图中,我们将一个变量与另一个变量进行可视化和比较。
箱形图
假设我们希望根据每辆汽车的齿轮数来生成多个箱形图。因此,我们希望得到的图表数量等于 “齿轮 “列中离散值的数量,也就是说,每个齿轮的值都有一个图表。这可以通过以下方式实现—
输出
我们看到在 “齿轮 “栏中有3个齿轮的值。因此,我们绘制了3个不同的箱形图,每个齿轮都有一个。
柱状图
现在,我们希望为有4个汽缸的汽车和有8个汽缸的汽车创建单独的直方图。要做到这一点,我们要对我们的数据集进行子集,使子集数据只包含那些有4(或8)个汽缸的汽车的数据。然后,我们可以像以前一样使用hist()函数轻松地绘制我们的子集数据。这就是我们如何实现的。
散点图
散点图是用来在x轴和y轴上绘制两个变量的数据点。它们告诉我们数据之间的模式,并广泛用于ML算法的建模。在这里,我们将qsec这一列与mpg这一列进行散点图。
输出
然而,上面的图表并没有真正向我们展示数据的任何模式。这是因为我们的数据集中的行(样本)数量有限。当我们从外部资源获得数据时,通常至少有1000多行。在散点图上绘制如此广泛的数据集时,我们为真正有趣的观察和洞察力铺平了道路。