0


CVPR2024| 实时目标检测的变革:RT-DETR的突破性性能

论文:DETRs Beat YOLOs on Real-time Object Detection

单位: 百度公司

源代码: RT-DETR GitHub仓库​​​​​​


摘要

实时目标检测领域一直由基于CNN的架构主导,YOLO检测器领先。然而,端到端的基于变换器的检测器(DETRs)的引入彻底改变了这一领域,尽管它们的计算成本很高。在本文中,作者介绍了实时检测变换器(RT-DETR),这是一个突破性的模型,不仅在速度和精度方面实现了最先进的(SOTA)性能,而且消除了传统实时检测器中的非最大抑制(NMS)等后处理步骤的需要,这些步骤一直是传统实时检测器中的瓶颈。

关键技术和创新

RT-DETR模型建立在两个关键创新之上,使其与现有解决方案区别开来:

  1. 高效混合编码器: 作者提出了一个高效的混合编码器,通过解耦内部尺度交互和跨尺度融合来处理多尺度特征。这种设计显著降低了计算负担,同时保持了高性能,实现了实时目标检测。
  2. IoU感知查询选择: 为了进一步提高性能,作者引入了IoU感知查询选择。该机制通过在训练期间加入IoU约束,提供了更高质量的初始对象查询给解码器,从而实现了更准确的对象定位和检测。

实现和设计

RT-DETR模型的设计注重效率和性能。它包括一个主干网络、一个混合编码器和一个带有辅助预测头的变换器解码器。模型利用主干网络的输出特征,并通过混合编码器将它们转换为一系列图像特征。然后,IoU感知查询选择精炼了这些特征,为解码器提供了一组优化的查询。解码器迭代优化这些查询以生成边界框和置信度分数。

实验结果

RT-DETR模型经过广泛测试,并在各种指标上展示了卓越的性能:

  • RT-DETR-L: 在COCO val2017数据集上达到53.0%的平均精度(AP),在T4 GPU上的帧率为114 FPS。
  • RT-DETR-X: 达到54.8% AP,速度为74 FPS,超越了同规模的当代YOLO检测器在速度和精度方面的性能。
  • RT-DETR-R50和R101: 这些RT-DETR的扩展版本进一步提高了性能,其中RT-DETR-R50在108 FPS的速度下达到53.1% AP,RT-DETR-R101在74 FPS的速度下达到54.3% AP。

这些结果将RT-DETR定位为实时目标检测领域的新SOTA,为现有YOLO检测器提供了一个引人注目的替代方案。

优缺点

优点:

  • 实时性能: RT-DETR的高效设计允许实时目标检测,同时不牺牲精度。
  • 端到端检测: 消除了NMS和其他后处理步骤,简化了流程,并避免了与传统检测器相关的延迟。
  • 可扩展性: 模型支持通过使用不同解码器层灵活调整推理速度,便于在各种实时场景中应用。

缺点:

  • 计算复杂性: 虽然比传统的DETRs更高效,但模型仍然需要大量的计算资源,这可能限制其在资源受限的设备上部署。
  • 训练数据需求: 高质量的训练数据对于模型的最优性能至关重要,这在数据有限或未标注的场景中可能是一个挑战。

结论

RT-DETR模型代表了实时目标检测技术的一次重大飞跃。通过解决DETRs的计算挑战并消除NMS等后处理步骤的需要,它为从自动驾驶到视频监控的各种应用提供了一个简化、高性能的解决方案。随着该领域的不断发展,RT-DETR的创新方法为未来端到端目标检测的发展设定了新的标准。


本文转载自: https://blog.csdn.net/2401_83878212/article/details/140147558
版权归原作者 CV视觉 所有, 如有侵权,请联系我们删除。

“CVPR2024| 实时目标检测的变革:RT-DETR的突破性性能”的评论:

还没有评论