R语言中t分布

引言

t分布（t-distribution）是统计学中重要的一种概率分布，在假设检验和置信区间的计算中经常使用。它在小样本情况下能够更好地描述样本均值的抽样分布。本文将详细介绍R语言中t分布的基本理论、概率密度函数、随机数生成以及假设检验和置信区间的计算。

基本理论

t分布是根据样本量n的不同而变化的。当样本量较大（通常大于30）时，t分布趋近于标准正态分布，也就是Z分布。当样本量较小（小于30）时，t分布的形状会更扁平，更长尾，这是由于样本均值抽样分布的特性所决定的。

与正态分布相比，t分布有一个额外的参数自由度（degree of freedom，denoted as df）。自由度是指用于计算t分布的样本量减去估计的参数个数。在计算t分布的概率和置信区间时，自由度是一个重要的参数。

在R语言中，我们可以使用pt()函数计算t分布的累积分布函数（CDF），使用qt()函数计算给定累积概率下的t分布统计量临界值，以及使用dt()函数计算t分布的概率密度函数（PDF）。

概率密度函数

t分布的概率密度函数由以下公式给出：

R语言中t分布

其中，Γ表示伽玛函数，ν表示自由度，x表示t分布的统计量。

下面是使用R语言绘制t分布的概率密度函数的示例代码：

# 导入ggplot2包
library(ggplot2)

# 设置自由度
df <- 5

# 生成t分布的统计量
x <- seq(-5, 5, length.out = 1000)

# 计算t分布的概率密度函数
pdf <- dt(x, df)

# 绘制概率密度函数曲线
ggplot(data.frame(x, pdf), aes(x, pdf)) +
  geom_line() +
  labs(x = "t statistic", y = "Probability Density") +
  ggtitle(paste("t Distribution (df =", df, ")")) +
  theme_minimal()

运行上述代码后，可以看出，当自由度较小（df=5）时，t分布的形状更扁平，更长尾。

随机数生成

在R语言中，我们可以使用rt()函数生成服从t分布的随机数。该函数的参数df表示自由度，n表示生成的随机数个数。

下面是使用R语言生成服从t分布的随机数的示例代码：

# 设置自由度和随机数个数
df <- 10
n <- 1000

# 生成服从t分布的随机数
random_numbers <- rt(n, df)

# 绘制直方图
hist(random_numbers, breaks = 30, freq = FALSE,
     main = paste("Random Numbers from t Distribution (df =", df, ")"),
     xlab = "Value", ylab = "Density")

运行上述代码后，可以看出，生成的随机数符合t分布的形状特征。

假设检验和置信区间

t分布在假设检验和置信区间计算中起着重要的作用。我们常用t统计量来比较两个样本均值的差异，并根据t分布计算p值。此外，我们还可以使用t分布计算置信区间，用于估计总体均值。

在R语言中，我们可以使用t.test()函数进行一样本或两样本的t检验，并计算p值和置信区间。下面是一样本t检验和置信区间的示例代码：

# 一样本t检验

# 假设样本服从正态分布
# 设置样本数据和总体均值
sample_data <- c(3.5, 2.9, 4.1, 3.2, 3.8, 2.5)
population_mean <- 3.5

# 进行一样本t检验
t_test_result <- t.test(sample_data, mu = population_mean)

# 输出检验结果
print(t_test_result)

# 输出检验结果中的p值和置信区间
print(paste("p-value =", t_test_result $p.value)) print(paste("Confidence interval =", t_test_result$ conf.int))


# 两样本t检验

# 设置两组样本数据
sample1 <- c(3.5, 2.9, 4.1, 3.2, 3.8, 2.5)
sample2 <- c(3.2, 2.7, 3.9, 2.8, 3.5, 2.2)

# 进行两样本t检验
t_test_result <- t.test(sample1, sample2)

# 输出检验结果
print(t_test_result)

# 输出检验结果中的p值和置信区间
print(paste("p-value =", t_test_result $p.value)) print(paste("Confidence interval =", t_test_result$ conf.int))

运行上述代码后，我们可以得到一样本t检验和两样本t检验的结果，包括p值和置信区间。例如，一样本t检验的输出可能如下所示：

One Sample t-test

data:  sample_data
t = 1.2247, df = 5, p-value = 0.2795
alternative hypothesis: true mean is not equal to 3.5
95 percent confidence interval:
 2.439521 4.639479
sample estimates:
mean of x 
     3.54

从上述结果中，我们可以看到t统计量的值、自由度、p值以及置信区间。p值表示在假设总体均值为3.5的情况下，观察到的样本均值与假设总体均值之间的差异是由随机因素导致的概率。

类似地，两样本t检验的输出可能如下所示：

Welch Two Sample t-test

data:  sample1 and sample2
t = 1.3367, df = 9.3785, p-value = 0.2125
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.3446793  1.5446793
sample estimates:
mean of x mean of y 
    3.417     3.067

从上述结果中，我们可以看到t统计量的值、自由度、p值以及置信区间。p值表示在假设两个样本均值相等的情况下，观察到的两个样本均值之间的差异是由随机因素导致的概率。