PyTorch – 数据集
在本章中,我们将更多地关注 torchvision.datasets 及其各种类型。PyTorch包括以下数据集加载器—-。
- MNIST
- COCO(字幕和检测)。
数据集包括以下两种类型的大部分函数:
- Transform — 一个接收图像并返回标准东西的修改版本的函数。这些可以和变换一起组成。
-
Target_transform – 一个接收目标并对其进行转换的函数。例如,接收标题字符串并返回一个世界指数的张量。
MNIST
以下是MNIST数据集的示例代码 –
dset.MNIST(root, train = TRUE, transform = NONE,
target_transform = None, download = FALSE)
参数如下 –
- root – 存在已处理数据的数据集的根目录。
-
train – True = 训练集,False = 测试集
-
download – True = 从互联网上下载数据集并把它放在根目录下。
COCO
这需要安装COCO API。下面的例子用来演示使用PyTorch实现数据集的COCO-
import torchvision.dataset as dset
import torchvision.transforms as transforms
cap = dset.CocoCaptions(root = ‘ dir where images are’,
annFile = ’json annotation file’,
transform = transforms.ToTensor())
print(‘Number of samples: ‘, len(cap))
print(target)
实现的产出如下 –
Number of samples: 82783
Image Size: (3L, 427L, 640L)