R语言 可变性
变异性 (也被称为 统计分散性 )是描述性统计的另一个特征。中心趋势的测量和变异性共同组成了描述性统计。变异性显示了一个数据集在某个点周围的扩散。 例子: 假设存在两个具有相同平均值的数据集。
A = 4, 4, 5, 6, 6 平均值(A)= 5 B = 1, 1, 5, 9, 9 平均值(B)= 5
因此,为了区分这两个数据集,R提供了各种变异性措施。
变异性的度量
以下是R提供的用于区分数据集的一些变异性度量。
- 方差
- 标准偏差
- 范围
- 平均偏差
- 四分位数范围
差异
方差是一个衡量标准,它显示了每个值离一个特定的点,最好是平均值有多远。在数学上,它被定义为与平均值的平方差的平均值。
其中
指定数据集的方差
指定数据集中的值
指定数据集的平均值 n 指定观察值的总数
在R语言中,有一个标准的内置函数来计算一个数据集的方差。
语法: var(x)
参数: x: 它是数据向量
例子
输出
标准偏差
统计学中的标准差是衡量数据值相对于平均值的分散程度,在数学上是以方差的平方根计算的。
其中
指定数据集的标准偏差
指定数据集中的值
指定数据集的平均值 n 指定观察值的总数
在R语言中,没有标准的内置函数来计算数据集的标准差。因此,修改代码来寻找数据集的标准差。
例如
输出
范围
范围是指一个数据集的最大值和最小值之间的差异。在R语言中, max() 和 min() 被用来寻找相同的值,与 range() 函数不同,它返回数据集的最小值和最大值。 例子
输出
平均偏差
平均偏差是通过对每个值与中心值的绝对差值的算术平均数进行计算的一种措施。中心值可以是平均值、中位数或模式。
其中
指定数据集中的值
指定数据集的平均值 n 指定观察值的总数
在R语言中,没有标准的内置函数来计算平均偏差。因此,修改代码以找到数据集的平均偏差。
例如
输出
四分位数范围
四分位数范围是基于将一个数据集分成若干部分,称为四分位数。有3个四分位数(Q1、Q2、Q3),将整个数据集分成4个相等的部分。Q2指定了整个数据集的中位数。在数学上,四分位数范围被描述为。
IQR = Q3 - Q1
其中
Q3 指定n个最大值的中位数 Q1 指定n个最小值的中位数
在R语言中,有一个内置函数来计算数据集的四分位数范围。
语法: IQR(x)
参数: x: 它指定了数据集。
例子
输出