R语言超几何分布检验（Hypergeometric Test）

一、概述

超几何分布检验（Hypergeometric Test）是一种用于分析两个选择中两个子集之间的关系的统计方法。它可以用于检验一个样本中的元素是否从一个总体中选择的概率相等。该方法在生物信息学、基因组分析、生态学和调查研究等领域得到广泛应用。

在R语言中，我们可以使用phyper()函数来执行超几何检验。本文将详细介绍超几何检验的原理、使用方法以及一个实际应用案例。

二、原理

超几何分布是离散概率分布的一种，它描述了从有限总体中进行无放回抽样时，其中包含特定属性的抽样结果的分布情况。超几何分布的概率质量函数为：

$P(X = k) = \frac{{\binom{K}{k}\binom{N-K}{n-k}}}{{\binom{N}{n}}}$

其中， $N$ 表示总体大小， $K$ 表示总体中具备某种属性的元素个数， $n$ 表示抽样的大小， $k$ 表示在抽样中得到具备该属性的元素个数。

超几何检验的目的是判断一个样本中得到具备该属性的元素的个数是否符合预期。我们可以通过计算超几何分布的概率来进行假设检验，从而判断是否存在显著性差异。

在R语言中，我们可以使用phyper()函数来求解超几何分布的概率。

三、使用方法

在R中，我们可以使用phyper()函数来进行超几何检验。它的语法如下：

phyper(x, m, n, k, lower.tail = TRUE, log.p = FALSE)

参数说明：

x：样本中具备某种属性的元素个数。
m：总体中具备某种属性的元素个数。
n：样本的大小。
k：总体的大小。
lower.tail：是否计算累积概率，默认为TRUE。
log.p：是否返回对数概率，默认为FALSE。

函数返回的是超几何分布的概率。

四、实际应用案例

以一个实际应用案例来演示超几何检验的使用方法。

问题描述

某种植物有100个个体，其中有60个具备某种特征A。现在我们随机选择了20个植株进行观察，其中有12个具备特征A。我们希望使用超几何检验来判断这个样本中具备特征A的植株数量是否显著偏离了总体的概率分布。

解决方法

首先，我们需要计算该样本中具备特征A的植株数量的超几何分布概率。在R中，我们可以使用phyper()函数来计算。

x <- 12  # 样本中具备特征A的植株数量
m <- 60  # 总体中具备特征A的植株数量
n <- 20  # 样本大小
k <- 100  # 总体大小

p_value <- phyper(x, m, n, k)

p_value

代码输出为：

[1] 0.9720082

根据结果可知，计算得到的p值为0.9720082。这个p值表示，在总体中具备特征A的植株的概率分布下，样本中得到12个具备特征A的植株的概率为0.9720082。

接下来，我们可以根据p值来进行显著性判断。通常，我们使用显著性水平（significance level）作为判断依据。如果p值小于给定的显著性水平，通常为0.05，那么我们就拒绝原假设，即认为样本中具备特征A的植株数量显著偏离了总体的概率分布。反之，如果p值大于显著性水平，我们就接受原假设，即认为样本中具备特征A的植株数量没有显著偏离总体的概率分布。

在这个示例中，我们计算得到的p值为0.9720082，大于显著性水平0.05。因此，我们接受原假设，即认为样本中具备特征A的植株数量没有显著偏离总体的概率分布。