YOLOv5/v7 更换骨干网络之 SwinTransformer

提供 YOLOv5 / YOLOv7 / YOLOv7-tiny 模型 YAML 文件

在这里插入图片描述

**本文介绍了一种新的视觉

Transformer

，称为

Swin Transformer

，它可以作为计算机视觉通用的骨干网络。从语言到视觉的转换中，适应

Transformer

所面临的挑战源于两个领域之间的差异，如视觉实体尺度的巨大变化和图像中像素的高分辨率与文本中单词的差异。为了解决这些差异，我们提出了一种分层

Transformer

，其表示是通过

Shifted

窗口计算的。

Shifted

窗口方案通过将自注意计算限制在非重叠的本地窗口内，同时允许跨窗口连接，从而提高了效率。这种分层架构具有在不同尺度下进行建模的灵活性，并且与图像大小的计算复杂度呈线性关系。这些特性使

Swin Transformer

与广泛的视觉任务兼容，包括图像分类（在

ImageNet-1K

上的

87.3

的

top

标签： YOLO 计算机视觉深度学习

本文转载自: https://blog.csdn.net/weixin_43694096/article/details/130141641
版权归原作者 迪菲赫尔曼 所有，如有侵权，请联系我们删除。