ACC-UNet: A Completely Convolutional UNet model for the 2020s (MICCAI2023)
ACC-UNet: A Completely Convolutional UNet model for the 2020s (MICCAI2023) 1. Abstract 由于ViT (Vision Transformer)的引入,UNet和Transformer融合已成为大趋势。最近,又有很多研究人员开始重新思考卷积模型,比如将ConvNext嵌入到ResNet,能够达到Swin Transformer的水平。受此启发,作者提出了一个纯粹的卷积UNET模型 (ACC-UNet),并且超越基于Transfomer的模型(如Swin-UNET或UCTransNet)。 作者研究了基于Transfomer的UNET模型优点:长范围依赖关系和跨级别跳过连接。 ACC-UNet结合了卷积神经网络(ConvNets)的内在归纳偏差和Transformer的设计决策 卷积神经网络(ConvNets)的内在归纳偏差:卷积神经网络具有天生的归纳偏差,这意味着它们在处理图像等数据时具有一些固有的假设和特点。例如,卷积神经网络擅长处理局部特征、平移不变性等,这些特点使它们在图像处理任务中表现出色。 Transformer的设计决策:Transformer是一种不同的神经网络架构,它采用了一些独特的设计决策,例如自注意力机制和位置编码等。这些设计决策使得Transformer在处理长距离依赖性、全局关系等方面表现出色,适合处理序列数据和具有远程依赖的任务。 ACC-UNet 在 5 个不同的医学图像分割基准上进行了评估,并且始终优于卷积网络、Transfomer及其混合网络。 2.Introduction 语义分割是计算机辅助医学图像分析的重要组成部分,可识别并突出显示各种诊断任务中感兴趣的区域。然而,由于涉及图像模态和采集以及病理和生物变化的各种因素,这通常变得复杂[18]。深度学习在这一领域的应用无疑在这方面受益匪浅。最值得注意的是,自推出以来,UNet 模型 [19] 在医学图像分割方面表现出了惊人的功效。结果,UNet 及其衍生品已成为事实上的标准[25]。 学习一下这里的背景描述 原始的 UNet 模型包含对称的编码器-解码器架构(图 1a)并采用跳跃连接,这为解码器提供了在编码器的池化操作期间可能丢失的空间信息。尽管通过简单串联的信息传播提高了性能,但编码器-解码器特征图之间可能存在语义差距。这导致了第二类 UNet 的发展(图 1b)。 U-Net++ [26] 利用密集连接,而 MultiResUNet [11] 在跳过连接上添加了额外的卷积块作为潜在的补救措施。到目前为止,UNet 的历史上所有创新都是使用 CNN 进行的。然而,2020 年的十年给计算机视觉领域带来了根本性的变化。 CNN 在视觉领域的长期主导地位被视觉转换器打破了 [7]。 Swin Transformers [15] 进一步针对一般视觉应用调整了变压器。因此,UNet 模型开始采用 Transformer [5]。 Swin-Unet [9] 用 Swin Transformer 块取代了卷积块,从而开创了一类新的模型(图 1c)。尽管如此,CNN 在图像分割方面仍然具有各种优点,导致了融合这两者的发展[2]。这种混合类 UNet 模型(图 1d)在编码器-解码器中采用卷积块,并沿跳跃连接使用变换器层。 UCTransNet [22]和MCTrans[24]是此类的两个代表性模型。最后,还尝试开发全变压器 UNet 架构(图 1e),例如,SMESwin Unet [27] 在编码器-解码器块和跳跃连接中都使用变压器。 ...