CVPR2021: Sparse R-CNN新的目标检测模型

今天我们将讨论由四个机构的研究人员提出的一种方法，其中一个是字节跳动人工智能实验室。他们为我们提供了一种新的方法，称为Sparse R-CNN(不要与 Sparse R-CNN 混淆，后者在 3D 计算机视觉任务上使用稀疏卷积)，该方法在目标检测中实现了接近最先进的性能，并使用完全稀疏和可学习的方法生成边界框。

模型特性

正如论文的名称所暗示的那样，这个模型是端到端的，架构也优雅。它包括从图像中获取特征的基于FPN的主干，上面提到的可学习的建议框和建议特征，以及Dynamic Instance Interactive Head（动态实例交互头），这是本文神经网络体系结构的主要贡献。

Dynamic Instance Interactive Head

给定 N 个建议框，Sparse R-CNN 首先利用 RoIAlign 操作从用建议边界框定义的每个区域的主干中提取特征。每个 RoI 特征都被送入用于对象定位和分类的专用头部，其中每个头部都以特定的可学习建议特征为条件。

建议特征被用作卷积的权重，在上面的图像中，它们被称为“Params”。对感兴趣区域的特征进行卷积处理，得到最终的特征。这样，那些包含大部分前景信息的边界框对最终的目标位置和分类产生影响。同时，自注意模块被嵌入到动态头部，用于推理物体之间的关系，并通过这种卷积来影响预测。

结果

论文作者提供了几个比较表，显示了新方法的性能。Sparse R-CNN与retanet、Faster R-CNN和DETR在ResNet50和ResNet100两种变体中进行了比较。

我们可以看到Sparse R-CNN在R50和R100中都优于RetinaNet 和Faster R-CNN，但它的性能与基于DETR的架构非常相似。

根据作者的说法，DETR 模型实际上是密集到稀疏模型，因为它利用一组稀疏的对象查询，与全局（密集）图像特征进行交互。与 DETR 相比这部分是论文的创新点。

在上面图像上，您可以看到 COCO 数据集上模型推理的定性结果。在第一列中显示了学习的建议框，它们是针对任何新图像进行预测的。在接下来的列中，您可以看到从建议中提炼出来的最终 bbox。它们因迭代学习过程中的阶段而异。

代码

总而言之，我想说，到2020年，我们会看到很多将transformers 应用于图像的论文。transformers 已经在自然语言处理领域证明了自己的价值，并逐渐进入图像处理领域。这篇论文向我们表明，使用transformers 可以创建快速的单级探测器，在质量方面与目前最好的两级探测器相当。

关于实现的所有细节，你可以在作者基于FAIR的DETR和detectron2代码库的代码中找到:https://github.com/PeizeSun/SparseR-CNN

引用

[1] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks https://arxiv.org/abs/1506.01497

[2] YOLO Algorithm and YOLO Object Detection: An Introduction https://appsilon.com/object-detection-yolo-algorithm/

[3] Sparse R-CNN: End-to-End Object Detection with Learnable Proposals https://arxiv.org/abs/2011.12450

本文作者：Emil Bogomolov

标签：

CVPR2021: Sparse R-CNN新的目标检测模型

相关工作

模型特性

结果

代码

引用

发表评论

“CVPR2021: Sparse R-CNN新的目标检测模型”的评论:

关于作者

Deephub

相关阅读

文章导航