R语言计算中位数|极客教程

R语言计算中位数

在统计学中，中位数是一个数据集中的中间数值。与平均数不同，中位数不受极端值的影响。在R语言中，我们可以使用内置的函数来计算数据集的中位数。

中位数的定义

中位数是将一个数据集按照大小顺序排列后，位于中间位置的数值。如果数据集中的元素个数为奇数，则中位数就是排在正中间的数值；如果数据集中的元素个数为偶数，则中位数就是中间两个数的平均值。

例如，对于数据集{1, 2, 3, 4, 5}，中位数为3；而对于数据集{1, 2, 3, 4, 5, 6}，中位数为(3+4)/2=3.5。

使用R语言计算中位数

在R语言中，我们可以使用median()函数来计算一个向量或数据框的中位数。下面是一个简单的示例代码来计算一组数字的中位数。

# 创建一个向量
numbers <- c(1, 2, 3, 4, 5)

# 计算向量的中位数
median_value <- median(numbers)
print(median_value)

运行上述代码，将得到输出为3，即输入向量{1, 2, 3, 4, 5}的中位数为3。

处理缺失值

在实际数据分析中，我们经常会遇到含有缺失值的数据集。如果在计算中位数时出现了缺失值，我们可以通过设置na.rm=TRUE参数来忽略缺失值进行计算。

下面是处理含有缺失值的数据集的示例代码：

# 创建一个含有缺失值的向量
numbers_with_na <- c(1, 2, 3, NA, 5)

# 计算含有缺失值的向量的中位数
median_value_with_na <- median(numbers_with_na, na.rm=TRUE)
print(median_value_with_na)

在上述代码中，na.rm=TRUE参数告诉R语言在计算中位数时忽略缺失值。运行该代码，将得到输出为2.5，即包含缺失值的输入向量{1, 2, 3, NA, 5}的中位数为2.5。

处理数据框的列

除了向量外，我们还可以使用median()函数计算数据框中某一列的中位数。下面是一个示例代码来计算数据框某一列的中位数。

# 创建一个数据框
data_frame <- data.frame(name=c("Alice", "Bob", "Cathy", "David"),
                         age=c(25, 30, 35, 40))

# 计算数据框的列的中位数
median_age <- median(data_frame$age)
print(median_age)

在上述代码中，data_frame$age表示数据框data_frame中名为age的列。运行该代码，将得到输出为32.5，即数据框中年龄列{25, 30, 35, 40}的中位数为32.5。