PyTorch 使用 WeightedRandomSampler 在 PyTorch 中

在本文中，我们将介绍如何在 PyTorch 中使用 WeightedRandomSampler。WeightedRandomSampler 是一个用于生成带有权重的随机采样器，用于在训练过程中处理类别不平衡的数据集。

什么是类别不平衡数据集？

在机器学习的任务中，特别是在分类任务中，类别不平衡数据集是指其中一些类别的样本数量明显少于其他类别的情况。例如，在一个二分类任务中，真实类别为正例的样本数量可能只占总样本数量的很小一部分。这种情况下，模型容易偏向于预测数量较多的类别，而忽略数量较少的类别，从而导致性能下降。

为了解决类别不平衡的问题，我们通常需要采用一些方法来平衡数据集中各个类别的样本数量，以确保模型能够充分学习并识别所有不同类别的样本。其中一种常见的方法是使用权重来调整样本的重要性，这正是 WeightedRandomSampler 所提供的功能。

使用 WeightedRandomSampler

首先，我们需要导入相关的库和模块：

import torch
from torch.utils.data import DataLoader, WeightedRandomSampler

接下来，我们假设我们有一个数据集 dataset，其中包含一些样本和对应的标签。我们可以使用 torch.utils.data.Dataset 创建自定义数据集类，然后用它来构建我们的数据集对象。

class MyDataset(torch.utils.data.Dataset):
    def __init__(self):
        self.samples = [ ... ]  # 样本列表
        self.labels = [ ... ]  # 标签列表

    def __getitem__(self, index):
        sample = self.samples[index]
        label = self.labels[index]
        return sample, label

    def __len__(self):
        return len(self.samples)

dataset = MyDataset()

接下来，我们需要计算每个类别的样本权重。一种常见的方法是根据每个类别的样本数量来计算权重，较少的类别将获得较大的权重。

class_counts = [ ... ]  # 每个类别的样本数量列表
class_weights = 1.0 / torch.Tensor(class_counts)

然后，我们可以使用 WeightedRandomSampler 来创建一个随机采样器，根据样本权重来进行采样。

sampler = WeightedRandomSampler(class_weights, len(dataset), replacement=True)

在这里，我们将 class_weights 作为权重参数传递给 WeightedRandomSampler 的构造函数。len(dataset) 表示采样的总样本数量，replacement=True 表示采样时是否允许重复。

最后，我们可以使用 DataLoader 来加载数据，并应用我们创建的权重随机采样器。

dataloader = DataLoader(dataset, batch_size=32, sampler=sampler)

现在，我们就可以使用 dataloader 来迭代训练数据了。在每个迭代中，dataloader 将根据样本权重随机从数据集中选择样本，并在每个迭代中提供一个批次的样本和标签。

for samples, labels in dataloader:
    # 在这里进行训练的代码

示例

让我们来看一个简单的示例，说明如何使用 WeightedRandomSampler。

假设我们有一个二分类任务，数据集中的正例数量只占总样本数量的 10%，负例数量占 90%。我们可以按照以下步骤进行权重随机采样：

import torch
from torch.utils.data import DataLoader, WeightedRandomSampler

# 创建数据集和标签
samples = [ ... ]  # 样本列表
labels = [ ... ]  # 标签列表

# 计算样本权重
class_counts = torch.bincount(torch.Tensor(labels).long())
class_weights = 1.0 / class_counts

# 创建权重随机采样器
sampler = WeightedRandomSampler(class_weights, len(labels), replacement=True)

# 创建数据加载器
dataset = torch.utils.data.TensorDataset(torch.Tensor(samples), torch.Tensor(labels))
dataloader = DataLoader(dataset, batch_size=32, sampler=sampler)

# 使用数据加载器进行训练
for samples, labels in dataloader:
    # 在这里进行训练的代码

在这个示例中，我们首先创建了一个数据集和对应的标签。然后，我们使用 torch.bincount 函数计算每个类别的样本数量，并根据样本数量计算样本权重。接下来，我们使用 WeightedRandomSampler 创建一个权重随机采样器，并将其应用于我们创建的数据集对象。最后，我们使用 DataLoader 加载数据，并在每个迭代中使用权重随机采样得到的样本进行训练。

总结

本文介绍了如何在 PyTorch 中使用 WeightedRandomSampler 来处理类别不平衡的数据集。我们通过计算每个类别的样本权重，然后使用权重随机采样器来平衡数据集中的样本数量。通过合理地使用 WeightedRandomSampler，我们可以帮助模型更好地充分学习和处理类别不平衡的数据集，从而提高模型的性能和准确性。

希望本文能对你理解和使用 WeightedRandomSampler 提供帮助，并在处理类别不平衡的数据集时能有所启发。祝愉快学习和实践！

参考文献：
– PyTorch 官方文档：https://pytorch.org/docs/stable/data.html#torch.utils.data.WeightedRandomSampler