医学图像分割(Medical image segmentation)是图像分割在医学领域的重要应用,具有非常高的落地价值。
Transformer和UNet是两种常见的图像分割架构。然而,在图像分割时,Transformer由于low-level细节不足,存在定位能力不足的问题;而UNet则在显式建模长期依赖关系方面局限性大。
【Transformer+UNet】的融合方式,恰恰能充分发挥Transformer和UNet在医学图像分割方面的优势,弥补各自不足,产生显著的效果。因此,如果想发论文,这个方向依旧是个不错的选择。
沃的顶会整理了【Transformer结合UNet】应用于医学图像分割的14种创新方案,论文和代码都有。
**1. MicFormer **
标题:Multimodal Information Interaction for Medical Image Segmentation
方法:MicFormer 的架构基于 Swin-Unet 深度学习分段网络,并通过并行双流架构的结合进一步增强。MicFormer 包含一个 Transformer 架构以及一个具有 U 形特征提取功能的并行子网络,从而促进特征融合,并通过利用可扩展交叉注意机制实现模态之间的连续模块交换。在此框架内,Cross Transformer 模块采用可扩展采样来计算两种模态之间的结构关系,从而重塑一种模态的结构信息,以与 Swin Transformer 同一局部窗口内两种模态的相应结构保持一致。Cross Transformer 模块用于维护模态的原始特征分布,并强调相关的分割特征,同时通过集成两种模态来减轻无关特征的影响。具体来说,它增强了与分割相关的特征,同时通过它们的交互作用削弱了与分割无关的特征的重要性。
创新点:
1)提出了一种新颖的双流多模态特征融合Transformer骨干网络。通过使用可扩展交叉注意融合模块来连续匹配多模态特征。
2)提出了一种新颖的可扩展交叉注意模块,用于自适应搜索空间。
需要的同学添加公众号【沃的顶会】 回复 TU14 即可全部领取
2. GCtx-UNet
标题:GCtx-UNet: Efficient Network for Medical Image Segmentation
方法:Gctx-UNet的核心组件是GC-ViT块,每个GC-ViT块包括局部和全局的多头自注意力(MSA)、多层感知机(MLP)、全局 Token 生成器(GTG)和下采样层。GTG组件为计算添加全局上下文。局部MSA只能 Query 局部窗口内的块,而全局MSA可以在窗口内操作的同时 Query 不同的图像区域。在每一阶段,全局 Query 组件都是预计算的。该块还在下采样层中引入了基于CNN的模块,以包括归纳偏置,这是在ViT和Swin Transformer中缺失的对图像有用的特征。
创新点:
1)作者引入了Gctx-UNet,一种U形网络,它结合了轻量级的视觉 Transformer ,通过有效地捕捉全局和局部特征来增强医学图像分割。编码器和解码器组件之间的下采样和上采样块有效地提供了归纳偏置并建模通道间的依赖关系。
2)在多个医学图像数据集上,Gctx-UNet与传统基于CNN的方法、基于Transformer的方法以及混合方法相比,具有更好的或可比较的性能。同时,Gctx-UNet具有更低的模型复杂度,包括更少的模型参数数量、更低的模型大小、更低的训练和推理时间以及更低的训练FLOPs。
3)Gctx-UNet建模长距离空间依赖关系的能力以及其在分割复杂和小型解剖结构方面的竞争力,使其成为临床应用的有前景的工具。该架构的设计,包括带有跳跃连接的GC-ViT编码器和解码器,使其在保持低于现有技术水平计算复杂性的同时,还能提供高性能。
需要的同学添加公众号【沃的顶会】 回复 TU14 即可全部领取
3. MISSU
标题:MISSU: 3D Medical Image Segmentation via Self-Distilling TransUNet
方法:本文提出的MISSU网络架构建立在编码器-解码器框架之上。在编码器中,输入的MRI扫描X∈RC×H×W×D,具有C个通道(模态),H×W的空间分辨率和D个深度维度(切片),首先通过基于3D CNN的编码器生成局部特征图,捕获空间和深度信息。然后,利用Transformer层对具有长距离依赖关系的全局特征表示进行建模。为了补偿具有详细局部信息的特征(例如器官的形状和边界),本文引入多尺度融合块,接收局部特征并生成多尺度融合输出。此外,还提出了自蒸馏方法,在训练过程中将多尺度融合输出的知识转移到同一层的局部特征,在推理时可以将其去除,以降低计算成本。最后,解码器由多个上采样层组成,对包含全局和局部信息的隐藏特征进行解码,并逐步生成全分辨率分割图。
创新点:
1)本文提出了一种基于Transformer的UNet用于医学图像分割,同时学习全局语义信息和局部空间细节特征。
2)同时,首先提出了一个局部多尺度融合块,通过自蒸馏从主CNN主干在编码器中的跳跃连接中细化细粒度细节。
版权归原作者 沃恩智慧 所有, 如有侵权,请联系我们删除。