机器学习缺失数据的处理是如何使选择偏倚恶化的

在一些研究领域，如统计学、流行病学和机器学习，数据缺失是一个主要问题。众多因素，如调查无响应，测量问题，或数据输入不正确，都可能导致它。虽然归类和最大似然估计是处理缺失数据的替代方法，但它们可能会给研究带来偏差。尤其是选择偏差，可能会因为数据管理不善而变得更糟。这篇博文将讨论选择偏倚的概念，缺失的数据如何引入偏倚，以及处理缺失数据的策略，以尽量减少选择偏倚的影响。

什么是选择偏差

选择偏差是一种偏见，当感兴趣的人群在被研究的人或观察的样本中没有得到充分的代表时，就会产生这种偏见。自我选择、无应答和测量错误只是造成选择偏差的几个原因。选择偏差会改变研究结果的普遍性，导致对人口特征的错误或误导性估计。例如，如果研究只包括满足特定要求的个人，那么研究结果就不能适用于整个社区。如果样本中包含的群体代表性过高或过低，也会发生这种情况，这可能会导致研究结果不能代表整个人口的情况。

缺失数据的处理如何使选择偏倚恶化

对缺失数据的处理会以各种方式加剧选择偏倚。

如果缺失的数据不是随机的，它与感兴趣的变量或数据集中的另一个变量相关联（MNAR）。由于数据的缺失，这种情况下的人口参数估计值可能会出现偏差。例如，如果一个样本是倾斜的，不能准确地代表人口，因为具有某些特质的人更有可能出现数据缺失。
“全案分析 “是一种处理缺失数据的方法，它涉及到删除数据不足的观察值；尽管如此，它可能会因为排除了与研究对象不同的人或观察值而引入偏见。因此，可能会形成一个不具代表性的人口样本，有可能导致不正确的结论。
如果归入的数值不准确，或者归入方法对数据集不合适，那么归入方法，即用基于观察数据的估计值代替缺失数据，就有可能造成偏差。
如果模型对数据集不合适，也可以通过最大似然估计引入偏差，这种估计是基于概率模型的缺失数据估计。

一般来说，关键是要考虑到缺失数据会如何影响选择偏差，并采用技术来减少这种影响。例如，使用加权方法，观察值的权重被修改以考虑到缺失数据。虽然采用这种方法比较困难，但它可以减少偏见。

处理缺失数据的方法

缺失的数据可以通过各种方式处理，包括 −

全案分析– 用这种技术将所有有缺失数据的观察结果从研究中剔除。如果缺失的数据不是随机的，这可能会引起偏见。
归因法– 这种方法用从观察到的数据中得出的估计值代替缺失数据。许多归因技术包括平均归因、中位数归因和多重归因。尽管归因法可以使偏差最小化，但如果归因的数值不准确或者归因方法不适合数据集，仍然可能会引入偏差。
最大似然估计– 根据概率模型，这种策略使用看到的数据来估计缺失的数据。如果该模型不适合数据集，这种技术可能会增加偏差，尽管它可能比归因法更准确。
加权– 为了解释缺失数据，这种策略包括改变观察值的权重。这可以减少偏见，但在实践中也会比较麻烦。

特定的数据集和研究目标将决定哪种缺失数据管理技术是最好的。一般来说，关键是要考虑到缺失数据对选择偏见的可能影响，并采用技术来减少这些影响。