R语言 2k因子设计

R语言 2k因子设计

R编程语言用于统计数据分析和机器学习,系统通过大型数据集的训练来分析、组织和使用计算来预测和执行基于类似数据格式的任务。

数据可视化在R中起着重要作用。R中有许多格式,如箱形图、柱状图和条形图,但对于因子设计,我们需要了解交互图。

  • 交互图是R语言中专门用来表示两个独立因素在特定数据集上的交互作用。交互图的功能只接受三个变量,两个因素和一个数据集。

方差分析表

方差分析(Analysis of Variance)表是呈现用于比较多组平均值的统计测试结果的一种方式。方差分析检验用于确定两个或多个组的平均值是否存在显著差异。

一个方差分析表通常包括若干行和列的信息。方差分析表可能包括的一些常见元素有。

  • 来源: 这一栏列出了数据中不同的变异来源。例如,在单向方差分析中,变异的来源是被比较的不同组。在双向方差分析中,会有两个变异源:第一个因子和第二个因子。
  • df: 这一栏列出了每个变异源的自由度。自由度(df)是指在考虑了问题的制约因素之后,可以自由变化的数值的数量。
  • 平方和 (SS): 这一栏列出了每个变异源的平方和(SS)。平方和是对数据中总变异性的测量,它被用来计算均方根(MS)和F比。
  • 均方差(MS): 这一栏列出了每个变异源的均方差(MS)。均方的计算方法是用平方之和除以自由度(MS=SS/df)。
  • F-比率: 这一栏列出了每个变异源的F-比率。F比的计算方法是用特定变异源的均方除以误差项的均方(F=MS/MSerror)。
  • p值: 这一栏列出了每个变异源的p值。p值是指假设无效假设(即平均值之间没有显著差异)为真,获得与数据计算的F比值一样大或更大的概率。

如果P值小于检验的显著性水平(例如0.05),方差分析检验的结果通常被认为具有统计学意义。在这种情况下,你可以得出结论:至少有一个组的平均值与其他组不同。然而,重要的是要记住,方差分析是一种综合检验,它只告诉你在某处有差异,但不告诉你在哪里有差异。

2K 因子设计

  • 2K 因子设计建立了一个由两个水平组成的 K 因子的统计概述–高和低(+和-)。这些因素可以是变量的定量(数量)或定性(浓度)。
  • 它被用来确定对响应变量(给定数据集)有显著影响的因素,并确定这些影响的性质。

**2K 因子设计的用途 **

  1. 生态学家使用因子设计来研究多种环境因素(如光照强度、温度、湿度)对植物生长的影响,或研究不同农药对生态系统的影响。
  2. 市场研究人员使用因子设计来确定一个产品的最有效的营销策略。例如,它可以用来研究不同的广告信息、促销活动和定价策略之间的相互作用,以确定增加销售的最有效组合。
  3. 在制造业中,因子设计可用于确定温度、压力和速度等因素的最佳水平,以生产出最高质量的产品。

22 的因子设计

这里我们将处理2个因素/变量,如 AB。 运行的数量将是= 4。 因此,组合将是{ 1, a, b, ab },其中两个将是-ve,两个是+ve。

Factors Combination Exp. 1 Exp. 2 Total
A B
A -ve , B -ve 10 20 30
+ A +ve , B -ve 40 30 70
+ A -ve , B +ve 25 50 75
+ + A +ve , B +ve 60 70 130

R语言中的2k因子设计

22 因子表示法

表示22 因子设计的步骤

创建/读取一个基于2个因子的csv数据集,每个因子包含两个水平以及一个响应列。你可以使用以下语法在R中准备该表。

dataset <- data.frame(factor1 = (levels),
                      factor2 = (levels),
                      response = (values))

将因素和反应分配给一些变量,以进一步将变量用于交互图。

var1 = datafactor1
var2 = datafactor2
response_var = data$response

使用因素和反应来创建 方差分析 表。

model <- aov(response ~ factor1*factor2)

如果与该因素相关的P值小于0.05,这意味着该因素对反应有统计学上的显著影响。现在你可以绘制交互图。

interaction(var1, var2,
            response_var)

问题:

在R中为 “电解过程中铜覆盖物的沉积 “设计一个交互图,使用以下因素。

  • A – 电镀率,水平为40%和60%。
  • B – 沉积时间,水平为少和多

响应变量是镀铜的厚度,单位是微米。

Combinations Electroplating_Rate Deposition_Time
(1) 40% less
a 60% more
b 60% less
ab 60% more
#Create a vector column for thickness
thickness<-c(rnorm(15, 6, 4), rnorm(15, 5, 3),
             rnorm(15, 10, 5), rnorm(15,3,1))
  
#Create the factors 
Electroplating_Rate <- c(rep("40%",15),
                         rep("60%",15),
                         rep("60%",15),
                         rep("40%",15))
  
Deposition_Time <- c(rep("more",30),
                     rep("less",30),
                     rep("more",30),
                     rep("less",30))
  
#Merge the data into a dataset 'data'
data<- data.frame(Electroplating_Rate,
                  Deposition_Time,
                  thickness)
  
#Assign the factors into variables
A = dataElectroplating_Rate
B = dataDeposition_Time
Z = data$thickness
  
result <-aov(Z ~ A*B)
  
#Plot the anova table
anova(result)
  
#Plot the interaction plot
interaction.plot(A, B, Z,
                 xlab = "Deposition Time",
                 ylab = "Thickness")

输出:

R语言中的2k因子设计

方差分析的交互作用图

23 的因子设计

我们将有 3个 因素,如 A、B和C。 然后,我们将得到8个运行,组合将是{(1)、A、B、C、AB、AC、BC、ABC},其中4个是-V,4个是+V。同样地,我们可以在2个变量 因子设计 中得到高和低标签的 k个 因子。

结论

当因子的数量和它们的相互作用相对较小时,2K 因子设计特别有用,当怀疑因子之间的相互作用很重要时,它们就特别有力。这种设计允许对所有可能的因素和相互作用的组合进行分析,从而有可能确定每个因素的主要影响和它们的相互作用,并有助于确定一组好的参数用于优化或进一步实验。在k=2之后,组合的重要性就会下降。统计学中的因子设计过程只能在标签分布相等的情况下使用,即k/2正和k/2负。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程