分享赚钱赏收藏举报版权申诉 / 12

立即下载 VIP下载

当前位置：首页 > 行业资料 > 医学/心理学 > 基于Transformer的U型医学图像分割网络综述_傅励瑶.pdf

基于Transformer的U型医学图像分割网络综述_傅励瑶.pdf

上传人：自信****多点

文档编号：277383

上传时间：2023-06-26

格式：PDF

页数：12

大小：1.98MB

《基于Transformer的U型医学图像分割网络综述_傅励瑶.pdf》由会员分享，可在线阅读，更多相关《基于Transformer的U型医学图像分割网络综述_傅励瑶.pdf（12页珍藏版）》请在咨信网上搜索。

1、2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1584-1595ISSN 1001-9081CODEN JYIIDUhttp：/基于Transformer的U型医学图像分割网络综述傅励瑶1，尹梦晓1，2，杨锋1，2*（1.广西大学计算机与电子信息学院，南宁 530004；2.广西多媒体通信与网络技术重点实验室（广西大学），南宁 530004）（通信作者电子邮箱）摘要：目前，医学图像分割模型广泛采用基于全卷积网络（FCN）的U型网络（U-Net）作为骨干网，但卷积神经网络（CNN）在捕捉长距离依赖能力上的劣势限制了分割模型

2、性能的进一步提升。针对上述问题，研究者们将Transformer应用到医学图像分割模型中以弥补CNN的不足，结合Transformer和U型结构的分割网络成为研究热点之一。在详细介绍U-Net和Transformer之后，按医学图像分割模型中Transformer模块所处的位置，包括仅在编码器或解码器、同时在编码器和解码器、作为过渡连接和其他位置进行分类，讨论各模型的基本内容、设计理念以及可改进的地方，并分析了Transformer处于不同位置的优缺点。根据分析结果可知，决定Transformer所在位置的最大因素是目标分割任务的特点，而且Transformer结合U-Net的分割模型能更好地

3、利用CNN和Transformer各自的优势，提高模型的分割性能，具有较大的发展前景和研究价值。关键词：深度学习；卷积神经网络；医学图像分割；U型网络；Transformer中图分类号：TP183 文献标志码：ATransformer based U-shaped medical image segmentation network：a surveyFU Liyao1，YIN Mengxiao1，2，YANG Feng1，2*（1.School of Computer，Electronics and Information，Guangxi University，Nanning Guangxi

4、530004，China；2.Guangxi Key Laboratory of Multimedia Communications and Network Technology（Guangxi University），Nanning Guangxi 530004，China）Abstract:U-shaped Network（U-Net）based on Fully Convolutional Network（FCN）is widely used as the backbone of medical image segmentation models，but Convolutional Ne

5、ural Network（CNN）is not good at capturing long-range dependency，which limits the further performance improvement of segmentation models.To solve the above problem，researchers have applied Transformer to medical image segmentation models to make up for the deficiency of CNN，and U-shaped segmentation

6、networks combining Transformer have become the hot research topics.After a detailed introduction of U-Net and Transformer，the related medical image segmentation models were categorized by the position in which the Transformer module was located，including only in the encoder or decoder，both in the en

7、coder and decoder，as a skip-connection，and others，the basic contents，design concepts and possible improvement aspects about these models were discussed，the advantages and disadvantages of having Transformer in different positions were also analyzed.According to the analysis results，it can be seen th

8、at the biggest factor to decide the position of Transformer is the characteristics of the target segmentation task，and the segmentation models of Transformer combined with U-Net can make better use of the advantages of CNN and Transformer to improve segmentation performance of models，which has great

9、 development prospect and research value.Key words:deep learning;Convolutional Neural Network(CNN);medical image segmentation;U-shaped Network(U-Net);Transformer0 引言相较于传统的学习方法需要手动优化特征表示，神经网络可以自动学习特征表示，并利用梯度下降迭代优化模型，从而得以迅速发展。在计算机视觉领域，近年来大热的卷积神经网络（Convolutional Neural Network，CNN）在各下游任务中表现出其自动学习表示的巨大

10、潜能。随着CNN所含层数的增加，促进了处理各种任务的深度神经网络的提出。如今，深度学习被应用到更多领域解决各类复杂问题，比如专家系统、自然语言处理（Natural Language Processing，NLP）、语音识别和智能医疗等。首个基于全卷积网络（Fully Convolutional Network，FCN）1的 U 型网络（U-shaped Network，U-Net）由文献 2 提出，作为经典的 CNN，文献 2中利用跳跃连接（Skip-Connection）同时保留在下采样中丢失的细节信息和在低分辨率图像中获取到的全局特征，这种融合不同尺度特征的编码器-解码器结构设计大幅提

11、升了分割模型的性能。所以，U型网络是目前医学图像分割任务中应用最广泛的模型之一。自U型网络被提出之后，各种改进版文章编号：1001-9081（2023）05-1584-12DOI：10.11772/j.issn.1001-9081.2022040530收稿日期：2022-04-18；修回日期：2022-07-02；录用日期：2022-07-04。基金项目：国家自然科学基金资助项目（61861004）。作者简介：傅励瑶（1998），女，重庆人，硕士研究生，主要研究方向：计算机视觉、医学图像分割；尹梦晓（1978），女，河南南阳人，副教授，博士，CCF会员，主要研究方向：计算机图形学与虚拟现实、数

12、字几何处理、图像与视频编辑、图论及其应用；杨锋（1979），男，广西玉林人，副教授，博士，CCF会员，主要研究方向：人工智能、网络信息安全、大数据与高性能计算、精准医学。第 5 期傅励瑶等：基于Transformer的U型医学图像分割网络综述的U型网络在许多医学图像分割任务中都有着出色的表现，这足以证明U型网络中的残差多尺度特征融合网络结构有利于处理医学图像分割任务。尽管如此，卷积与生俱来的归纳偏置特点阻碍了分割网络性能的进一步提升，而利用自注意力机制获取全局特征的 Transformer3模型利用它捕捉长距离依赖的优势能弥补 CNN 的不足。在计算机视觉领域，ViT（Vision Trans

13、former）4打开了 Transformer 进入该领域的大门。Transformer 应用于图像分类任务中的优秀表现展现了它在图像处理领域的发展前景。在ViT中，主要工作是把原始图像分割成1616的二维图像块，然后把图像块映射为一维的二维图像块序列以模仿NLP任务的输入。这样的变换既能避免在每个像素之间计算注意力会大幅增加计算和存储负担，又能在不改变NLP任务中的Transformer模型主体结构的前提下将它应用到计算机视觉领域中。ViT 提出之后，在图像分割领域，文献 5 中提出了基于纯Transformer编码器的图像分割模型SETR（SEgmentation TRansformer）

14、；在目标检测任务中，文献6中引入了一个端到端Transformer 编码器-解码器网络DETR（DEtection TRansformer）。医学图像难标注、目标和背景比例极不平衡和对比度低以及边界模糊等问题加大了将 Transformer应用到医学图像分割任务中的难度；同时，医学图像大多是小数据集，难以预训练出专用于医学图像处理的 Transformer 模型。所以，Transformer 在医学图像分割模型中的潜能还有待进一步挖掘。虽然U型网络在医学图像任务中被广泛应用，但是下采样过程中细节特征的损失和卷积神经不擅长捕捉长距离依赖的缺点限

15、制了 U 型网络的发展。为了进一步挖掘Transformer和U型网络在医学图像分割任务中的潜能，本文从两者各自的优势出发，讨论基于Transformer的U型网络在医学图像分割任务中的研究进展，并对相关深度学习网络结构进行全面的研究和分析，有助于读者深入了解Transformer应用于U型网络的优点。在本文最后讨论了两者结合在未来更有潜力的发展建议。1 医学图像分割医学图像分割是计算机视觉领域重要的研究方向，目标是在医学图像上进行像素级别的分类，进而准确地分割目标对象。分割数据集来自专业医学设备所采集到的单模态或者多模态图像，比如核磁共振成

16、像（Magnetic Resonance Imaging，MRI）、计算机断层扫描技术（Computed Tomography，CT）、超声（UltraSound，US）等。传统的非深度学习医学图像分割技术主要依赖于基于阈值、区域生长、边界检测等方法。虽然传统的分割方法速度快且简单，对于硬件要求不高，但是需要人工参与才能得到好的特征表示；而基于深度学习的分割网络可以自动学习特征表示，几乎不需要人工参与，但需要高性能计算机花较长时间训练网络。随着图像处理单元（Graphic Processing Unit，GPU）和内存的发展，训练大多数基于深度学习的网络已不是难题，深度学习随之被应用到各领域完

17、成自动学习目标任务的特征表示。如今，基于 CNN的分割模型广泛用于许多分割任务当中，比如肿瘤分割、皮肤病变区域分割、左右心室分割以及眼底血管分割等。训练这些模型的方法中，除了很少一部分是基于无监督7-9和半监督10-14的方法，其余则是基于全监督15-19的方法，其中最经典的模型便是U型网络。医学图像分割技术的发展对计算机辅助诊断、智能医疗和临床应用等领域的研究有着极其重要的作用。但CNN由于感受野受限，只擅长获取局部特征，而缺乏捕捉长距离依赖的能力，而且卷积核的大小和形状固定，不能有效适应输入图像类型，限制了卷积的应用范围，也降低了分割模型的泛化性；同时，医学图像也存在边界模糊、对比度低、目

18、标大小不一以及模态多样等问题。要有效解决上述问题，获取关键的全局上下文信息是必要的。因此，来自 NLP 领域的利用自注意力机制获取全局特征的Transformer 被用于优化医学图像自动分割技术。在 NLP 任务中使用的 Transformer大多经过在大规模的文本数据集上预训练得到。因为自注意力部分的计算量太大，预训练模型很大程度上能防止模型过拟合。但二维医学图像数据集通常规模较小，难以用于预训练原始的Transformer模块；三维医学图像数据集不仅规模小，而且样本体素多，将它们直接放进Transformer训练会大幅增加模型复杂度，增加过拟合的风险，反而

19、可能降低模型性能。而ViT4中将图像切成多个图像块的做法，不仅可以降低单个样本的计算量和内存消耗，还可以增加数据的多样性，降低模型过拟合的概率，使模型的训练相对容易。借鉴ViT的设计理念，Transformer被应用到医学图像分割网络20-22。2 U型网络医学图像分割是计算机视觉领域重要的研究方向之一，而对准确的分割结果而言，细节信息和全局信息都很重要。如何在全局信息和局部信息之间找到完美的平衡，是提升分割模型性能的重要问题之一。此外，由于大多数医学图像数据集都很小，使训练出兼顾全局和局部特征的分割模型更具有挑战性。为了解决上述问题，U型网络利用它特殊的对称结构在高分辨率图像中获取局部特征

20、，在低分辨率图像中捕捉全局特征，实现端到端的分割。经典U型网络结构如图1所示。2.1二维图像应用U型网络在编码器-解码器结构中，结合上下采样和跳跃连接，融合多尺度特征信息，为分割模型提供了粗细粒度特征图的同时还能加速模型收敛，对于处理医学图像分割任务极其有效。不仅如此，文献 2 提出的U型网络结构不包含全连接层，而是使用参数量少的全卷积层代替。基于U型网络的独特设计，U型网络的分割精度几乎好于当时的所有优秀分割模型。U-Net+23为了能够减小编码器和解码器特征图之间的差异，进一步改进了 U型网络。U-Net+在跳跃连接上加上了若干卷积层，并在各卷积层之间使用密集连接图1经典U型网络总体结构F

21、ig.1Overall structure of classic U-Net1585第 43 卷计算机应用（Dense Connection）24，以减小两边网络特征表达的差异。此外，文献 23 中把编码器中产生的不同尺度的特征图通过上采样至原图大小，然后和标签计算损失，监督特征融合操作。受文献 2 的启发，ResUNet（Residual and U-Net）25把文献2所提出模型的骨干网络的卷积部分用残差网络（Residual Network，ResNet）26代替，在此基础上，ResUNet+27在ResUNet编码器中的每个残差块之后添加压缩提取模块（Squeeze and

22、Extraction Block，SE Block）28，不仅把编码器中不同尺度的特征图传递给解码器，还传递了通道注意力权重。模型利用权重信息过滤掉解码器特征图的多余信息，再将它输入到后面的网络中。实验表明，这种融合两边网络特征的方式比起一次性串联的融合方式更加有效。2.2三维图像应用V-Net（Network for Volumetric medical image segmentation）29把三维卷积层应用到U型分割网络中，用于分割三维医学图像。针对医学图像中常出现的前景和背景极不平衡的情况，文献 29 中提出了Dice损失函数，进一步优化医学图像分割模型。三维 U 型网络（3D U-

23、Net）30将原U型网络中的二维卷积用三维卷积替换，用于从粗标记中半自动或者全自动地进行三维医学图像分割。从以上网络可知，U型网络变体大多侧重于修改 U型网络的网络结构，而Isensee等31更加关注目标任务对U型分割模型的影响，从而设计了自适应分割任务的网络nnU-Net（no new U-Net）。nnU-Net把重心放到数据的预处理和后处理，以及对模型训练超参数的设置，从而提升模型完成分割任务的效率。由于nnU-Net在医学图像分割任务中的表现不错，所以该领域的研究者通常会考虑将 nnU-NeT的分割效果作为参考，同时，它也给非该领域使用者提供了快捷便利的分割工具。如今，U型网络不仅被频

24、繁用于图像分割领域，还出现在道路提取、天气预测和图像分类等领域。各种U型网络的变体在深度学习任务中有着不错的表现，特别是在医学图像分割领域，U型网络更是胜过多数CNN。所以，即使自首个U型网络被提出已过了七年之久，U型网络处理医学图像分割的应用仍然随处可见，研究者们也依然在不断拓展U型网络和其他高性能模块的结合应用，充分挖掘U型网络的潜力。3 Transformer Vaswani等3首次提出Transformer，因其独特的设计赋予了Transformer能处理不定长输入、捕捉长距离依赖和序列到序列（seq2seq）任务的特性。Transformer主要包含解码器和编码器，每个编码器包括位置

25、编码、多头注意力机制、层正则化（Layer Normalization，LN）32、前馈神经网络（Feed Forward Network，FFN）和跳跃连接，而解码器除在输入层增加了一个掩码多头注意力机制以外，其余部分与编码器相同。Transformer结构如图2所示。3.1主要模块3.1.1注意力机制1）自注意力机制：自注意力机制是 Transformer 的关键组成部分，Transformer能够获取长距离依赖主要归功于它。自注意力公式如下：Attention(q，k，v)=Softmax()qkTdkv（1）其中：q、k和 v是输入 X 经线性层映射后的向量；dk是向量 k的维度。2）

26、注意力机制：多头注意力机制中多个 q、k和 v向量分别组成矩阵Q、K和V，将每个组合并行计算后在通道维度进行拼接。在该注意力中，不同的头能够从不同位置的子空间中学习到不同种类的特征表示。下面是多头注意力的公式：MultiHead(Q，K，V)=Concat(Head1，Head2，HeadH)WO；Headi=Attention(QWQi，KWKi，VWVi)（2）其中：i=1，2，H，Headi=head1，head2，headH；WO是是形式为(HdV，dmodel)的输出变换矩阵；WQi和WKi是形式为(dmodel，dK)的矩阵，WVi是形式为(dmodel，dV)的矩阵，dK=dV=

27、dmodel H，H代表多头注意力中头的数量，WQi、WKi和WVi都是用于映射输入的可学习参数矩阵，dmodel是整个序列的维度；Concat（）是矩阵拼接操作；Attention（）是注意力机制。因为每个注意力头的维度减少，所以多头注意力机制和同纬度的单头注意力总的计算量相同。3）掩码多头注意力机制：为了避免解码器位置i依赖位置i后的数据，确保当前输出只依赖于i前的预测，后面的“未知”信息有必要被隐藏，即只用当前位置之前的信息推测结果。3.1.2位置编码因为 Transformer 不含循环神经网络（Recurrent Neural Network，RNN）和 CNN，所以依赖于缺乏序列信

28、息的注意力机制。但对于NLP和图像处理任务，位置信息发挥着重要作用，所以，Transformer 需要自动学习位置信息。经典的Transformer利用正弦和余弦函数学习位置信息，公式如下：|PE(pos，2dpos)=sin()pos/100 002dpos/dmodelPE(pos，2dpos+1)=cos()pos/100 00(2dpos+1)/dmodel（3）其中：pos是当前对象在当前维度的序列所处位置；dpos是位置pos所在维度；100 002dpos/dmodel表示频率。3.1.3层正则化层正则化（LN）克服了批量正则化（Batch Normalization，BN）33

29、难以处理变长输入的序列任务的缺点，把正则化的范围从样本外部转移到样本内部，这样的正则化就不会依赖于图2Transformer总体结构Fig.2Overall structure of Transformer1586第 5 期傅励瑶等：基于Transformer的U型医学图像分割网络综述输入大小，非常适用于NLP任务。详情见文献 32。3.1.4前馈神经网络前馈神经网络（FFN）由两个线性层加上ReLU激活函数（max（0，input）组成，公式如下：NFFN=max(0，XW1+b1)W2+b2（4）其中：X是输入图像矩阵；Wi是和X相同大小的矩阵；bi是长度等于X的通道数的一维向量。3.2S

30、win Transformer相较于处理文字样本，用Transformer训练处理图像或视觉的模型更具有挑战性。因为图像比文本更多样，且分辨率高。Swin Transformer（Shifted-window Transformer）34中提出的窗口多头自注意力（Window Multi-head Self Attention，W-MSA）模块和滑动窗口多头自注意力（Shifted Window Multi-head Self Attention，SW-MSA）模块缓解了 Transformer在视觉领域中应用的困难。在 W-MSA中，图像被分成若干个由若干图像块组成的窗口，计

31、算注意力权重只在窗口内部。在SW-MSA中，利用滑动设计计算各窗口之间注意力分数，以此建立窗口之间的联系。相邻的 W-MSA 和 SW-MSA构成了Swin Transformer模块。相邻Swin Transformer 块的计算方法如下：|z?l=W-MSA(LN(z?l-1)+z?l-1zl=MLP(LN(z?l)+z?lz?l+1=SW-MSA(LN(z?l)+z?lzl+1=MLP(LN(z?l+1)+z?l+1（5）其中：z i表示第i层的输出，z?i表示第i层的中间结果；LN（）表示层正则化；W-MSA（）表示窗口自注意力机制；SW-MSA（）表示滑动窗口自注意力机制；MLP（）

32、表示多层感知机层。Transformer的提出对深度学习框架产生了极大的影响。因为 CNN的归纳偏好，导致 CNN获得长距离信息的成本过高，而Transformer刚好可以弥补CNN的不足。但Transformer获取全局信息的优势，不仅限于轮廓表示、形状描述和根据长距离依赖获取的目标类型先验，更重要的是局部和全局信息需要不同的感受野，跟CNN相比，Transformer中的注意力机制把握长距离相关信息则更加直接有效。可是，来自NLP领域的Transformer并没有考虑计算机视觉任务分辨率高、目标形状和小大差异大等特点，限制了Transformer在计算机视觉领域的应用。Swin Trans

33、former 的出现无疑给 Transformer处理图像或视频的应用开启了一扇新的大门。如今，计算机视觉领域中的Transformer变体也不仅限于Swin Transformer，还有通过改进原始 Transformer子结构使其适用于视觉任务的其他模型，又或者是通过迁移学习和对抗学习方法引入Transformer的模型。即使如此，已存在的基于Transformer的模型会借助 CNN 的归纳偏置更好地发挥作用。所以，探索Transformer结合CNN的模型有着很大的发展前景。4 基于Transformer的U型分割网络 ViT9将Transformer应用到图像分类任务中并取得成功之后

34、，Chen 等20提出了 TransUNet（Transformers and U-Net）。TransUNet的提出开启了Transformer在医学图像分割领域中的应用。由于 Transformer在大规模数据集上才能更好地发挥其优势，而大多数医学图像数据属于小规模数据集，因此，研究进一步改进 Transformer模块使其适用于医学图像处理便成了热门的研究方向之一。其中，最为有效的方法之一就是结合Transformer与U型网络，利用U型网络尽可能减小计算量的同时也能有效捕捉重要信息的特点，充分挖掘Transformer和U型网络的潜力。接下来，本文从Transformer在 U 型网络

35、中所处的不同位置对相关研究工作进行分类讨论。4.1仅编码器TransUNet是首个将Transformer应用到医学图像分割领域的U型网络，如图3所示。该模型直接将编码器中下采样之后的图像序列化，然后套用最原始的Transformer模块进行训练，利用Transformer在低分辨率图像中获取长距离依赖的优势和对称的编码器-解码器结构，提升了模型自动分割的性能。也因为TransUNet直接使用了NLP的Transformer模型，序列中的图像块大小固定，注意力计算量大，所以TransUNet的分割效率还有待进一步提升。文献22结合文献35-36提出了 MedT（Medical Tr

36、ansformer），该网络在位置嵌入中加入门控机制，使模型在训练不同大小的数据集时能够自动调节门控参数，获得适合当前数据集的位置嵌入权重。实验结果表明基于MedT的U型网络能适应不同大小的数据集。基于双编码器-解码器的X-Net（X-shaped Network）37把Transformer作为主干分割网络的编码器，并通过跳跃连接建立基于卷积的辅助网络的编码器和解码器特征图的联系。X-Net中的辅助网络的解码器把图3TransUNet总体框架Fig.3Overall framework of TransUNet1587第 43 卷计算机应用重建图像任务作为代理任务，在约束用于分割任务的编码器

37、的同时，也能让编码器学习到表达能力更强的特征。相较于TransUNet 只有编码器和解码器分支的 U 型对称结构，TransClaw（Claw U-Net with Transformers）21设计了编码器、上采样和解码器三分支的网络结构，利用跳跃连接将各部分的多尺度特征图相连。文献 21 中通过融合上采样的特征图、Transformer 在深层网络获取到的全局上下文信息以及卷积捕捉到的局部特征，使模型得到进一步优化。虽然实验结果显示模型在 Dice 指标上没有明显提升，但在豪斯多夫距离（Hausdorff Distance，HD）指标上有着不错的表现。受GoogLeNet

38、38和 Swin Transformer 的启发，TransConver（Transformer and Convolution parallel network）39用Transformer模块和卷积模块替换GoogLeNet中的多分支结构，利用基于交叉注意力机制交互全局和局部特征（Cross-Attention Fusion with Global and Local features，CAFGL）模块替换GoogLeNet的过滤器拼接层得到 TC-Inception（Transformer Convolution Inception），再放到 U 型网络的编

39、码器中。CNN 和 Swin Transformer通过交叉注意力模块交换三维脑部图像的细节特征和全局背景信息，在提高肿瘤分割精度的同时，还降低了模型的计算负载，提升了模型训练效率。以上提到的大多数网络侧重于提升模型精度，在一定程度上忽略了模型的效率。为了同时权衡分割模型的速度和准确度，LeViT-UNet（Vision Transformer based U-Net）15嵌入了快速推理网络LeViT（Vision Transformer）40。由于LeViT既能提高模型推理速度又能有效地从特征图中提取全局上下文信息，将LeViT置于U型结构的编码器中，有利于模型从经卷积之后得到的具有空

40、间先验的特征图中获取全局特征。LeViT-UNet在Synapse数据集上的分割精度超过了大多数模型，特别值得注意的是，LeViT-UNet在当时的快速分割网络中分割性能最好。为了降低模型复杂度，TransFuse（Fusing Transformer and CNNs）41使用在 ImageNet 数据集上预训练之后的 DeiT（Data-efficient image Transformers）42减少模型参数，并且设计了并行的 CNN 模块和Transformer特征提取模块。为了充分利用两者优势，作者在并行的U型网络中设计新的跳跃连接BiFusion Block，

41、该模块从Transformer的特征图中提取通道特征，从CNN的特征图中提取空间特征，然后有效地融合两者，以便引导后面的特征提取网络。Swin UNETR（Swin UNEt TRansformers）43是基于 Swin Transformer 提出的一个自监督预训练分割模型。该模型在5 050张非目标CT图像中分别在对比学习、掩码体素块和随机数据增强三个代理任务上预训练Swin Transformer模块。这三个代理任务能够帮助预训练模型学习到感兴趣区域（Region Of Interest，ROI）信息、邻近体素信息和结构先验知识。在目标任务中，微调之后的Swin Transformer

42、模块结合卷积层在三维医学图像分割任务中有着出色的表现。4.2仅解码器Li 等44提出了基于压缩-扩展 Transformer 的解码器Segtran。其中，压缩注意力模块来自于专门处理无序集合特征的 Set Transformer45中的 ISAB（Induced Squeezed Attention Block）。ISAB 通过过渡特征图 I（形为 md 的矩阵）浓缩 X（形为nd的矩阵）（n m）的关键信息，这样做可以大幅降低注意力模块的复杂度。对于扩展注意力模块，作者从混合高斯分布好于单一高斯分布的事实出发，提出了用多个单头Transformer代替多头注意力机制的策略，以适应数据的多样

43、性，获取更有区分度的样本特征。在位置编码部分，为了能够获得像素的局部性和语义的连续性，文献 44 基于原Transformer中的正弦位置编码，提出了可学习的正弦位置编码。实验结果表明可学习的位置编码以及多个 Transformer提取的特征都能给模型性能带来一定的提升。4.3编码器和解码器前面所介绍的工作将 Transformer 单独放在编码器或解码器中，接下来将讨论把Transformer同时放在编码器和解码器中的分割模型。nnFormer（not another transFormer）46在网络中交替使用Transformer和CNN，并提取每一尺度的特征信息进行多尺度监督学习，保证

44、多尺度的特征表达尽可能准确；但引入多个Transformer会大幅增加计算负载，于是文献46 将Transformer提前在ImageNet中预训练之后，固定注意力模块和多层感知机（Multi-Layer Perceptron，MLP）层参数，其他部分根据目标任务进行新的学习。另外，受 Swin Transformer启发，文献 46 还用三维窗口替换原来的二维窗口，在窗口内进行自注意力计算，相较于原始的三维多头注意力机制，计算量减少了90%以上。为了避免三维窗口和三维图像不匹配而导致计算时填充冗余信息，三维窗口大小根据三维图像专门设定。不仅如此，作者提出用连续的、小的卷积层比ViT中直接用单

45、个的、大的卷积层学到的嵌入层有着更丰富的位置信息，还有助于降低模型复杂度。与模型nnFormer 用于处理三维医学图像一样，D-Former（Dilated transFormer）47借鉴空洞卷积提出了由局部处理模块（Local Scope Module，LSM）和全局处理模块（Global Scope Module，GSM）组成的空洞 Transformer。其中，邻近的若干图像块组成的单元构成了 LSM 的作用范围，GSM 的作用范围则是从整个特征图中选择间隔为g的图像块组成的单元。LSM 和GSM模块的联合能够提取出区分度很强的局部和全局上下文联系。该模块在 Synapse 数据集上的

46、分割 Dice 值高达88.93%，超过了许多高表现的分割模型。Huang 等16设计了高效的分割模型 MISSFormer（Medical Image Segmentation tranSFormer）。在注意力模块，K和V被调整为（N/S，CS），以减小序列长度，再用于计算注意力，然后用线性层将结果的通道恢复到C：new_k/v=Reshape(N/S，C S)W(C S，C)（6）其中：W(a，b)代表输出形式为(a，b)的二维权重矩阵；Reshape()代表重塑矩阵的函数；N=h w（h和w分别输入图像长和宽）；S是压缩率。这样自注意力模块的

47、计算复杂度从 O（N2）降低到 O（N2/S），即使处理高分辨率的图像也容易了许多。作者还用卷积层、跳跃连接和层正则化的组合替换感知机层，进而再减少计算量。值得一提的是，作者所用的跳跃连接是一个全新的设计，作者称为增强上下文联系的Transformer 过渡连接（Enhanced Transformer Context Bridge）。该模块将编码器得到的多尺度特征图整合之后拉成一个大的序列放入 Transformer模块。文献 16 中提出的跳跃连接不仅能从低分辨图像中习得全局特征和从高分辨率图像中获得有辨别性的局部信息，还能有效获取两种表示之间的联系。实验表明MISSFormer16在多器

48、官分割数据集上的表现好于Swin UNet48。针对自注意力机制只关注单个样本内部的联系，而忽略了样本之间的联系的问题，MT Net（Mixed Transformer U-Net）49将外部注意力（External Attention）50机制应用到改进后的Transformer模块，并称为混合Transformer模块（Mixed Transformer Module，MTM）。该模块由三种不同1588第 5 期傅励瑶等：基于Transformer的U型医学图像分割网络综述的注意力模块连接而成，分别是局部、全局和外部注意机制。局部和全局注意力模块用于提取样本内的特征表达，外部注意力机制则用

49、于建立样本之间的联系。整个U型网络中包含 4个 MTM和 4个卷积块。实验结果表明建立样本之间的联系有助于提升模型分割精度。类似于MTM中的局部和全局注意力的设计理念，PCAT-UNet（Patches Convolution Attention based Transformer U-Net）51提出了图像块间的卷积自注意力（Cross Patches Convolutional self-Attention，CPCA）块和图像块内的卷积自注意力（Inner Patches Convolution self-Attention，IPCA）块分别用于提取图像块之间和内部像素之间的全局特征。但是

50、与传统的Transformer不同，PCAT中的注意力机制基于CNN构成。为了减小编码器和解码器特征表示之间的区别，PCAT通过特征分组注意力模块（Feature Grouping Attention Module，FGAM）中的平均池化层进行下采样，并将每次得到的特征图在通道维度均分成n份再放到m个卷积层中，以在不同的通道组合中提取详细且多样的特征。Luo 等52提出了由 U 型网络和 Swin Transformer 共同作为主干网络的半监督模型。该模型通过 CNN和 Transformer之间的相互学习（CNN的伪标签监督Transformer预测结果，Transfo

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

版权申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 Transformer 医学图像分割网络综述傅励瑶

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。