Vision Transformer（Pytorch版）代码阅读注释

在这里插入图片描述

Vision Transformer（Pytorch版）代码阅读

前言

因为Google Research官方的Vision Transformer源码是tensorflow版本，而笔者平时多用pytorch，所以在github上找了作者rwightman版本的代码：rwightman/pytorch-image-models/timm/models/vision_transformer.py

Vision Transformer介绍博客：论文阅读笔记：Vision Transformer

下面的代码介绍以

vit_base_patch16_224

(ViT-B/16：patch_size=16, img_size=224)为例。

VIT Model

原文中模型由三个模块组成：
· Linear Projection of Flattened Patches
· Transformer Encoder
· MLP Head

对应代码中的三个模块：
· patch embedding layer
· Block
· Representation layer + Classifier head

Linear Projection of Flattened Patches

在这里插入图片描述
如图，Linear Projection of Flattened Patches的实现的通过一个

kernel_size=stride=16

的卷积加上一个flatten实现的。他的功能是将

    244
   
   
    ×
   
   
    244
   
   
    ×
   
   
    3
   
  
  
   244×244×3
  
 
244×244×3 的的2D Image转换为 
 
  
   
    196
   
   
    ×
   
   
    768
   
  
  
   196×768
  
 
196×768 的Patch Embedding。具体代码及注释如下：

classPatchEmbed(nn.Module):"""
    2D Image to Patch Embedding
    """def__init__(self, img_size=224, patch_size=16, in_c=3, embed_dim=768, norm_layer=None):super().__init__()'''
        image_size = (244,244)
        patch_size = (16,16)
        gird_size = (244/16,244/16)=(14,14)
        num_patches = 14 * 14 = 196
        '''
        img_size =(img_size, img_size)
        patch_size =(patch_size, patch_size)
        self.img_size = img_size
        self.patch_size = patch_size
        self.grid_size =(img_size[0]// patch_size[0], img_size[1]// patch_size[1])
        self.num_patches = self.grid_size[0]* self.grid_size[1]'''
        使用大小为16，stride为16的卷积核实现embeding，
        输出14*14大小，通道为768（768 = 16*16*3，相当于将每个patch部分转换为1维向量）的patch
        '''
        self.proj = nn.Conv2d(in_c, embed_dim, kernel_size=patch_size, stride=patch_size)'''
        如果norm_layer为true则使用layerNorm，这里作者没有使用，
        所以self.norm = nn.Identity()，对输入不做任何改变直接输出
        '''
        self.norm = norm_layer(embed_dim)if norm_layer else nn.Identity()defforward(self, x):
        B, C, H, W = x.shape
        assert H == self.img_size[0]and W == self.img_size[1], \
            f"Input image size ({H}*{W}) doesn't match model ({self.img_size[0]}*{self.img_size[1]})."'''
        self.proj(x):[B,3,244,244]->[B,768,14,14]
        flatten(2):[B,768,14,14]->[B,768,14*14]=[B,768,196]
        transpose(1, 2):[B,768,196]->[B,196,768]
        self.norm(x)不对输入做处理直接输出
        '''    
        x = self.proj(x).flat1ten(2).transpose(1,2)
        x = self.norm(x)return x

Transformer Encoder

Transformer Encoder由Attention、MLP和DropPath代码组成，其结构图如下：
在这里插入图片描述

Multi-Head Attention

关于 Multi-Head Attention 的结构图和详细介绍可查看博文，论文阅读笔记：Attention Is All You Need。
Attention具体代码及注释如下：

classAttention(nn.Module):def__init__(self,
                 dim,# 输入token的dim 768
                 num_heads=8,
                 qkv_bias=False,
                 qk_scale=None,
                 attn_drop_ratio=0.,
                 proj_drop_ratio=0.):super(Attention, self).__init__()'''
        num_heads = 12
        head_dim = 768 // 12 = 64 （Attention is all you need论文中提到的dk=dv=dmodel/h）
        scale = 64 ^ -0.5 = 1/8（Attention is all you need论文中Scaled Dot-Product Attention提到的公式Attention(Q,K,V)中的根号dk分之一）
        qkv:将输入线性映射到q,k,v
        proj：Attention is all you need论文中Multi-Head Attention最后的融合矩阵 Wo，使用 Linear 的实现
        '''
        self.num_heads = num_heads
        head_dim = dim // num_heads
        self.scale = qk_scale or head_dim **-0.5
        self.qkv = nn.Linear(dim, dim *3, bias=qkv_bias)
        self.attn_drop = nn.Dropout(attn_drop_ratio)
        self.proj = nn.Linear(dim, dim)
        self.proj_drop = nn.Dropout(proj_drop_ratio)defforward(self, x):'''
        B = batch_size
        N = 197
        C = 768
        '''
        B, N, C = x.shape
        
        '''
        qkv(x) : [B,197,768] -> [B,197,768*3]
        reshape : [B,197,768*3] -> [B,197,3,12,64] (3分别代表qkv，12个head，每个head为64维向量)
        permute：[B,197,3,12,64] -> [3,B,12,197,64]
        '''
        qkv = self.qkv(x).reshape(B, N,3, self.num_heads, C // self.num_heads).permute(2,0,3,1,4)'''
        q,k,v = [B,12,197,64]
        '''
        q, k, v = qkv[0], qkv[1], qkv[2]# make torchscript happy (cannot use tensor as tuple)'''
        K.transpose(-2, -1) : [B,12,197,64] = [B,12,64,197]
        q @ K.transpose(-2, -1) : [B,12,197,64] @ [B,12,64,197] = [B,12,197,197]
        attn : [B,12,197,197]
        attn.softmax(dim=-1)对最后一个维度（即每一行）进行softmax处理
        '''
        attn =(q @ k.transpose(-2,-1))* self.scale
        attn = attn.softmax(dim=-1)
        attn = self.attn_drop(attn)'''
        attn @ v = [B,12,197,197] @ [B,12,197,64] = [B,12,197,64]
        transpose(1, 2) : [B,197,12,64]
        reshape : [B,197,768]
        '''
        x =(attn @ v).transpose(1,2).reshape(B, N, C)
        x = self.proj(x)
        x = self.proj_drop(x)return x

MLP

在这里插入图片描述
MLP结构和代码都很简单，就是全连接加激活函数加dropout，这里的激活函数用的GELU:

    G
   
   
    E
   
   
    L
   
   
    U
   
   
    (
   
   
    x
   
   
    )
   
   
    =
   
   
    0.5
   
   
    x
   
   
    (
   
   
    1
   
   
    +
   
   
    t
   
   
    a
   
   
    n
   
   
    h
   
   
    [
   
   
    
     2
    
    
     π
    
   
   
    (
   
   
    x
   
   
    +
   
   
    0.044715
   
   
    
     x
    
    
     3
    
   
   
    )
   
   
    ]
   
   
    )
   
  
  
   GELU(x)=0.5x(1+tanh[\frac{2}{π}(x+0.044715x^3)])
  
 
GELU(x)=0.5x(1+tanh[π2(x+0.044715x3)])

MLP模块代码如下：

classMlp(nn.Module):"""
    MLP as used in Vision Transformer, MLP-Mixer and related networks
    """def__init__(self, in_features, hidden_features=None, out_features=None, act_layer=nn.GELU, drop=0.):super().__init__()
        out_features = out_features or in_features
        hidden_features = hidden_features or in_features
        self.fc1 = nn.Linear(in_features, hidden_features)
        self.act = act_layer()
        self.fc2 = nn.Linear(hidden_features, out_features)
        self.drop = nn.Dropout(drop)defforward(self, x):
        x = self.fc1(x)
        x = self.act(x)
        x = self.drop(x)
        x = self.fc2(x)
        x = self.drop(x)return x

DropPath

在Transformer Encoder中代码使用DropPath代替论文中的Dropout，具体代码及注释如下：

defdrop_path(x, drop_prob:float=0., training:bool=False):'''
    x.shape : [B,197,768]
    '''if drop_prob ==0.ornot training:return x
    keep_prob =1- drop_prob
    '''
    shape = [B,1,1]
    即将X的第一维度保留，其他维度改为1
    '''
    shape =(x.shape[0],)+(1,)*(x.ndim -1)# work with diff dim tensors, not just 2D ConvNets'''
    生成形状为shape的随机张量并加上keep_prob
    '''
    random_tensor = keep_prob + torch.rand(shape, dtype=x.dtype, device=x.device)'''
    将随机张量向下取整，一部分为0，一部分为1
    '''
    random_tensor.floor_()# binarize'''
    将x除以keep_prob再乘上随机张量，一部分变成0，一部分保留
    '''
    output = x.div(keep_prob)* random_tensor
    return output
classDropPath(nn.Module):"""
    Drop paths (Stochastic Depth) per sample  (when applied in main path of residual blocks).
    """def__init__(self, drop_prob=None):super(DropPath, self).__init__()
        self.drop_prob = drop_prob
    defforward(self, x):return drop_path(x, self.drop_prob, self.training)

MLP Head

在这里插入图片描述
原文中关于MLP Head的代码：

# Representation layerif representation_size andnot distilled:
     self.has_logits =True
    self.num_features = representation_size
    self.pre_logits = nn.Sequential(OrderedDict([("fc", nn.Linear(embed_dim, representation_size)),("act", nn.Tanh())]))else:
    self.has_logits =False
    self.pre_logits = nn.Identity()# Classifier head(s)
self.head = nn.Linear(self.num_features, num_classes)if num_classes >0else nn.Identity()
self.head_dist =Noneif distilled:
self.head_dist = nn.Linear(self.embed_dim, self.num_classes)if num_classes >0else nn.Identity()

这里的代码也很简单，就不做过多注释了，代码中

distilled = False

，所以:

self.pre_logits = nn.Sequential(nn.Linear,(embed_dim, representation_size)nn.Tanh())

self.head = nn.Linear(self.num_features, num_classes)

MLPHead(x) = self.head(self.pre_logits(x[:, 0]))