R语言 假设检验
假设是由研究人员对任何实验或数据集收集的数据做出的。假设是由研究人员提出的假设,但不是强制性的真实。简单地说,假设是研究人员根据所收集的人口数据做出的决定。 R编程中的 假设测试 是一个测试研究人员做出的假设或验证假设的过程。为了进行假设检验,从人群中随机抽取数据样本并进行检验。根据测试的结果,假设被选择或拒绝。这个概念被称为 统计推断。 在这篇文章中,我们将讨论假设检验的四步过程,单样本T检验,双样本T检验,方向性假设,单样本
-测试,双样本
-测试和R编程中的相关性测试。
假设检验的四步过程
假设检验有4个主要步骤。
- 陈述假设– 这一步是通过陈述无效假设和备选假设开始的,这些假设被假定为真实。
- 制定分析计划并设定决策标准– 在这一步,设定测试的显著性水平。显著性水平是假设检验中出现错误拒绝的概率。
- 分析样本数据– 在这一步骤中,使用测试统计量来制定样本平均值和人口平均值或样本标准差和人口标准差之间的统计比较。
- 解释决定 – 检验统计量的值被用来根据显著性水平做出决定。例如,如果显著性水平被设定为0.1的概率,那么小于10%的样本平均值将被拒绝。否则,假设将被保留为真。
单一样本T检验
单一样本T检验方法收集了大量的数据,并对其进行随机抽样测试。要在R中进行T测试,需要正态分布的数据。这个测试是用来测试样本与人群的平均值的。例如,生活在某个地区的人的身高与生活在其他地区的人的身高是不同还是相同。
语法: t.test(x, mu)
参数:
x: 代表数据的数字向量
mu: 代表平均值的真实值
要了解 t. test() 的更多可选参数,请尝试以下命令。
help("t.test")
例子
# Defining sample vector
x <- rnorm(100)
# One Sample T-Test
t.test(x, mu = 5)
输出
One Sample t-test
data: x
t = -49.504, df = 99, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 5
95 percent confidence interval:
-0.1910645 0.2090349
sample estimates:
mean of x
0.008985172
双样本T检验
在双样本T检验中,对样本向量进行比较。如果var.equal = TRUE,测试就假定两个样本的变异量相等。
语法: T.test(x, y)
参数:
x 和 y: 数字向量
例子
# Defining sample vector
x <- rnorm(100)
y <- rnorm(100)
# Two Sample T-Test
t.test(x, y)
输出
Welch Two Sample t-test
data: x and y
t = -1.0601, df = 197.86, p-value = 0.2904
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.4362140 0.1311918
sample estimates:
mean of x mean of y
-0.05075633 0.10175478
方向性假设
使用方向性假设,可以指定假设的方向,例如,如果用户想知道样本的平均值比另一个数据的平均值低或大。
语法: T.test(x, mu, alternative)
参数:
x: 代表数字向量数据
mu: 代表要测试的样本数据的平均值
alternative 假设 : 设置替代假设
例子
# Defining sample vector
x <- rnorm(100)
# Directional hypothesis testing
t.test(x, mu = 2, alternative = 'greater')
输出
One Sample t-test
data: x
t = -20.708, df = 99, p-value = 1
alternative hypothesis: true mean is greater than 2
95 percent confidence interval:
-0.2307534 Inf
sample estimates:
mean of x
-0.0651628
单一样本-测试
当需要对一个样本进行比较并且数据是非参数化的时候,就会使用这种类型的测试。它在R编程中使用 wilcox.test() 函数进行。
语法: wilcox.test(x, y, exact = NULL)
参数:
x 和 y: 代表数字向量
exact: 代表逻辑值,表示是否计算p值。
要了解 wilcox.test() 的更多可选参数,请使用以下命令。
help("wilcox.test")
例子
# Define vector
x <- rnorm(100)
# one sample test
wilcox.test(x, exact = FALSE)
输出
Wilcoxon signed rank test with continuity correction
data: x
V = 2555, p-value = 0.9192
alternative hypothesis: true location is not equal to 0
两个样本-测试
这个测试是用来比较两个数据样本的。
例子
# Define vectors
x <- rnorm(100)
y <- rnorm(100)
# Two sample test
wilcox.test(x, y)
输出
Wilcoxon rank sum test with continuity correction
data: x and y
W = 5300, p-value = 0.4643
alternative hypothesis: true location shift is not equal to 0
相关性测试
该测试用于比较函数调用中提供的两个向量的相关性,或测试成对样本之间的关联。
语法: cor.test(x, y)
参数:
x 和 y: 代表数字数据向量
要了解 cor.test() 函数中更多的可选参数,请使用以下命令。
help("cor.test")
例子
# Using mtcars dataset in R
cor.test(mtcarsmpg, mtcarshp)
输出
Pearson's product-moment correlation
data: mtcarsmpg and mtcarshp
t = -6.7424, df = 30, p-value = 1.788e-07
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.8852686 -0.5860994
sample estimates:
cor
-0.7761684