R语言 2k因子设计
R编程语言用于统计数据分析和机器学习,系统通过大型数据集的训练来分析、组织和使用计算来预测和执行基于类似数据格式的任务。
数据可视化在R中起着重要作用。R中有许多格式,如箱形图、柱状图和条形图,但对于因子设计,我们需要了解交互图。
- 交互图是R语言中专门用来表示两个独立因素在特定数据集上的交互作用。交互图的功能只接受三个变量,两个因素和一个数据集。
方差分析表
方差分析(Analysis of Variance)表是呈现用于比较多组平均值的统计测试结果的一种方式。方差分析检验用于确定两个或多个组的平均值是否存在显著差异。
一个方差分析表通常包括若干行和列的信息。方差分析表可能包括的一些常见元素有。
- 来源: 这一栏列出了数据中不同的变异来源。例如,在单向方差分析中,变异的来源是被比较的不同组。在双向方差分析中,会有两个变异源:第一个因子和第二个因子。
- df: 这一栏列出了每个变异源的自由度。自由度(df)是指在考虑了问题的制约因素之后,可以自由变化的数值的数量。
- 平方和 (SS): 这一栏列出了每个变异源的平方和(SS)。平方和是对数据中总变异性的测量,它被用来计算均方根(MS)和F比。
- 均方差(MS): 这一栏列出了每个变异源的均方差(MS)。均方的计算方法是用平方之和除以自由度(MS=SS/df)。
- F-比率: 这一栏列出了每个变异源的F-比率。F比的计算方法是用特定变异源的均方除以误差项的均方(F=MS/MSerror)。
- p值: 这一栏列出了每个变异源的p值。p值是指假设无效假设(即平均值之间没有显著差异)为真,获得与数据计算的F比值一样大或更大的概率。
如果P值小于检验的显著性水平(例如0.05),方差分析检验的结果通常被认为具有统计学意义。在这种情况下,你可以得出结论:至少有一个组的平均值与其他组不同。然而,重要的是要记住,方差分析是一种综合检验,它只告诉你在某处有差异,但不告诉你在哪里有差异。
2K 因子设计
- 2K 因子设计建立了一个由两个水平组成的 K 因子的统计概述–高和低(+和-)。这些因素可以是变量的定量(数量)或定性(浓度)。
- 它被用来确定对响应变量(给定数据集)有显著影响的因素,并确定这些影响的性质。
**2K 因子设计的用途 **
- 生态学家使用因子设计来研究多种环境因素(如光照强度、温度、湿度)对植物生长的影响,或研究不同农药对生态系统的影响。
- 市场研究人员使用因子设计来确定一个产品的最有效的营销策略。例如,它可以用来研究不同的广告信息、促销活动和定价策略之间的相互作用,以确定增加销售的最有效组合。
- 在制造业中,因子设计可用于确定温度、压力和速度等因素的最佳水平,以生产出最高质量的产品。
22 的因子设计
这里我们将处理2个因素/变量,如 A 和 B。 运行的数量将是= 4。 因此,组合将是{ 1, a, b, ab },其中两个将是-ve,两个是+ve。
Factors | Combination | Exp. 1 | Exp. 2 | Total | |
---|---|---|---|---|---|
A | B | ||||
– | – | A -ve , B -ve | 10 | 20 | 30 |
+ | – | A +ve , B -ve | 40 | 30 | 70 |
– | + | A -ve , B +ve | 25 | 50 | 75 |
+ | + | A +ve , B +ve | 60 | 70 | 130 |
22 因子表示法
表示22 因子设计的步骤
创建/读取一个基于2个因子的csv数据集,每个因子包含两个水平以及一个响应列。你可以使用以下语法在R中准备该表。
dataset <- data.frame(factor1 = (levels),
factor2 = (levels),
response = (values))
将因素和反应分配给一些变量,以进一步将变量用于交互图。
var1 = datafactor1
var2 = datafactor2
response_var = data$response
使用因素和反应来创建 方差分析 表。
model <- aov(response ~ factor1*factor2)
如果与该因素相关的P值小于0.05,这意味着该因素对反应有统计学上的显著影响。现在你可以绘制交互图。
interaction(var1, var2,
response_var)
问题:
在R中为 “电解过程中铜覆盖物的沉积 “设计一个交互图,使用以下因素。
- A – 电镀率,水平为40%和60%。
- B – 沉积时间,水平为少和多
响应变量是镀铜的厚度,单位是微米。
Combinations | Electroplating_Rate | Deposition_Time |
---|---|---|
(1) | 40% | less |
a | 60% | more |
b | 60% | less |
ab | 60% | more |
#Create a vector column for thickness
thickness<-c(rnorm(15, 6, 4), rnorm(15, 5, 3),
rnorm(15, 10, 5), rnorm(15,3,1))
#Create the factors
Electroplating_Rate <- c(rep("40%",15),
rep("60%",15),
rep("60%",15),
rep("40%",15))
Deposition_Time <- c(rep("more",30),
rep("less",30),
rep("more",30),
rep("less",30))
#Merge the data into a dataset 'data'
data<- data.frame(Electroplating_Rate,
Deposition_Time,
thickness)
#Assign the factors into variables
A = dataElectroplating_Rate
B = dataDeposition_Time
Z = data$thickness
result <-aov(Z ~ A*B)
#Plot the anova table
anova(result)
#Plot the interaction plot
interaction.plot(A, B, Z,
xlab = "Deposition Time",
ylab = "Thickness")
输出:
方差分析的交互作用图
23 的因子设计
我们将有 3个 因素,如 A、B和C。 然后,我们将得到8个运行,组合将是{(1)、A、B、C、AB、AC、BC、ABC},其中4个是-V,4个是+V。同样地,我们可以在2个变量 因子设计 中得到高和低标签的 k个 因子。
结论
当因子的数量和它们的相互作用相对较小时,2K 因子设计特别有用,当怀疑因子之间的相互作用很重要时,它们就特别有力。这种设计允许对所有可能的因素和相互作用的组合进行分析,从而有可能确定每个因素的主要影响和它们的相互作用,并有助于确定一组好的参数用于优化或进一步实验。在k=2之后,组合的重要性就会下降。统计学中的因子设计过程只能在标签分布相等的情况下使用,即k/2正和k/2负。