R语言 使用Dply获得数据集的摘要
在这篇文章中,我们将讨论如何使用Dplyr包在R编程语言中获得数据集的摘要。为了获得数据集的摘要,需要使用该模块的summaryize()函数。这个函数基本上是根据某个组或未分组的数据所需的行动来给出摘要,这反过来又有助于总结数据集。
语法: summaryize(action)
使用的数据集: bestsellers3
这里,动作可以是对分组数据进行的任何操作,它可以是频率计数、平均值、平均数等。
例子: 使用summaryize()对数据集进行总结
library(dplyr)
data<-read.csv("bestsellers.csv")
data %>% group_by(Genre) %>%
summarize(n())
输出
# A tibble: 2 x 2
Genre `n()`
<fct> <int>
1 Fiction 82
2 Non Fiction 117
总结未分组的数据集
也可以对未分组的数据进行汇总。有三个可能的函数可以用于此。
- summarize_all()。
- summaryize_at()。
- summaryize_if()。
summaryize_all()
summarize_all()函数根据要执行的操作对所有的列进行汇总。
语法: summaryize_all(action)
library(dplyr)
data<-read.csv("bestsellers.csv")
data %>% group_by(Genre) %>%
summarize_all(mean)
输出
summaryize_at()
summarize_at()函数用于对一些特定的列应用所需的操作,并在此基础上生成一个摘要。
语法: summarize_at(vector_of_columns,action)
library(dplyr)
data<-read.csv("bestsellers.csv")
data %>% group_by(Genre) %>%
summarize_at(c('User.Rating','Price'),mean)
输出
summarize_if()
summarize_if()函数用于在指定某个条件的情况下获得数据集摘要。
语法: summarize_if(condition, action)
library(dplyr)
data<-read.csv("bestsellers.csv")
data %>% group_by(Genre) %>%
summarize_if(is.numeric, mean)
输出