R语言 如何在R中计算抽样分布
抽样分布 是指从特定人群中抽取较多的样本得到的一个统计量的概率分布。某一特定人群的抽样分布是指人群中某一统计量可能出现的一系列不同结果的频率分布。
在统计学中,种群是指从中抽取统计样本的整个库。一个群体可以指整个人群、物体、事件、医院就诊或测量。因此,一个群体可以说是由一个共同特征组合起来的主体的总体观察。
- 抽样分布是通过从较大的人口中反复抽样得出的统计数字。
- 它描述了一个统计数字的可能结果范围,如某些变量的平均值或模式,因为它确实存在于一个群体中。
- 研究人员所分析的大多数数据实际上是从样本中提取的,而不是从群体中提取的。
在R中计算抽样分布的步骤。
第1步: 在这里,首先我们要定义一个样本数(n=1000)。
n<-1000
第2步: 接下来我们创建一个长度为’n’的向量(sample_means),其中包含空值(NA)[ rep()函数用于复制向量中的值
语法: rep(value_to_be_replicated,number_of_times)
第3步: 随后,我们使用mean()函数将创建的sample_means空向量填入所考虑的群体的样本平均值,这些样本的平均值为10(mean),标准偏差为10(sd),20个样本(n)的标准偏差使用rnorm()来生成正态分布。
语法: mean(x, trim = 0)
语法: rnorm(n, mean, sd)
第4步: 为了检查创建的样本,我们使用head(),它返回数据框(向量、列表等)的前六个样本。
语法: head(data_frame,no_of_rows_be_returned) #在R中默认第二个参数被设置为6。
第5步: 最后,为了使sample_mean数据集可视化,我们使用R语言中的hist()函数绘制了一个直方图(为了更好地可视化)。
语法 :hist(v,main,xlab,ylab,col)
其中。
- v是一个包含直方图中所用数值的向量。
- main表示图表的标题。
- col用于设置条形图的颜色。
- xlab用于描述X轴。
- ylab用于描述y轴。
第6步: 最后,我们发现产生的样本平均数大于或等于10的概率。
代码 。
在这个特殊的例子中,我们发现样本平均数小于或等于10的概率是0.506(约0.50),因为人口平均数是10,人口标准差是10,而样本大小是20。
# define number of samples
n < -1000
# create empty vector of length n
sample_means = rep(NA, n)
# fill empty_vector with means
for(i in 1: n){
sample_means[i] = mean(rnorm(20, mean=10, sd=10))
}
head(sample_means)
# create histogram to visualize
hist(sample_means, main="Sampling Distribution",
xlab="Sample Means", ylab="Frequency", col="blue")
# To cross check find mean and sd of sample
mean(sample_means)
sd(sample_means)
# To find probability
sum(sample_means >= 10)/length(sample_means)
输出 。