这篇教程的目标是对一个预训练的 Mask R-CNN 模型进行微调,应用于 Penn-Fudan 行人检测与分割数据集。该数据集包含 170 张图像,里面有 345 个行人实例,我们将通过这个教程来演示如何使用
torchvision
中的新特性,训练一个面向自定义数据集的目标检测和实例分割模型。
注意
此教程仅适用于
torchvision
版本 >=0.16 或 nightly 版本。如果你使用的是
torchvision
<=0.15,请参考另一个教程。
1. 定义数据集
目标检测、实例分割和人体关键点检测的参考脚本可以轻松支持添加新的自定义数据集。数据集应该继承自标准的
torch.utils.data.Dataset
类,并实现
__len__
和
__getitem__
方法。
我们唯一要求的是,数据集的
__getitem__
方法应该返回一个元组:
image
:torchvision.tv_tensors.Image
,形状为 [3, H, W],可以是一个纯张量,也可以是大小为 (H, W) 的 PIL 图像。target</
版权归原作者 静心问道 所有, 如有侵权,请联系我们删除。