SMViT:用于新冠肺炎诊断的轻量化孪生网络模型.pdf
《SMViT:用于新冠肺炎诊断的轻量化孪生网络模型.pdf》由会员分享,可在线阅读,更多相关《SMViT:用于新冠肺炎诊断的轻量化孪生网络模型.pdf(12页珍藏版)》请在咨信网上搜索。
1、计算机科学与探索Journal of Frontiers of Computer Science and Technology1673-9418/2023/17(10)-2499-12doi:10.3778/j.issn.1673-9418.2210070SMViT:用于新冠肺炎诊断的轻量化孪生网络模型马自萍1+,谭力刀2,马金林2,陈勇31.北方民族大学 数学与信息科学学院,银川 7500212.北方民族大学 计算机科学与工程学院,银川 7500213.宁夏医科大学总医院 放射介入科,银川 750004+通信作者 E-mail:摘要:针对新冠肺炎的深度学习诊断模型存在的准确率不高、泛化能力较
2、差和参数量较大的问题,基于ViT和孪生网络,提出了一种新冠肺炎诊断的轻量化孪生网络SMViT。首先,提出了循环子结构轻量化策略,使用多个具有相同结构的子网络构成诊断网络,从而降低网络的参数量;其次,提出ViT掩码自监督预训练模型,以增强模型的潜在特征表达能力;然后,构建新冠肺炎诊断的孪生网络SMViT,有效提升模型的诊断准确率,改善小样本下模型泛化能力较差的问题;最后,使用消融实验验证并确定了模型结构,通过对比实验验证模型的诊断性能和轻量化能力。实验结果表明:与最具竞争力的ViT架构的诊断模型相比,该模型在X-ray数据集上的准确率、特异度、灵敏度与F1分数值分别提高了1.42%、4.62%、
3、0.40%和2.80%,在CT图像数据集上的准确率、特异度、灵敏度与F1分数值分别提高了2.16%、2.17%、2.05%和2.06%;在样本量较小时,模型具有较强的泛化能力;与ViT相比,SMViT模型具有更小的参数量和更高的诊断性能。关键词:新冠肺炎诊断;孪生网络;ViT模型;自监督学习;轻量化模型文献标志码:A中图分类号:TP391.5SMViT:Lightweight Siamese Masked Vision Transformer Model for Diagnosis ofCOVID-19MA Ziping1+,TAN Lidao2,MA Jinlin2,CHEN Yong31.
4、School of Mathematics and Information Science,North Minzu University,Yinchuan 750021,China2.School of Computer Science and Engineering,North Minzu University,Yinchuan 750021,China3.Department of Radiological Intervention,General Hospital of Ningxia Medical University,Yinchuan 750004,ChinaAbstract:In
5、 order to solve the problems of low accuracy,poor generalization ability and large number of parametersin the diagnosis model of COVID-19 based on deep learning,a lightweight siamese architecture network SMViT(siamese masked vision transformer)for COVID-19 diagnosis based on ViT(vision transformer)a
6、nd siamese networkis proposed.Firstly,a lightweight strategy of cyclic substructure is proposed,which uses multiple subnets with thesame structure to make a diagnosis network,thereby reducing the number of network parameters.Secondly,maskedself-supervised pre-training model based on ViT is proposed
7、to enhance the potential feature expression ability ofthe model.Then,in order to effectively improve the diagnostic accuracy of the diagnosis model of COVID-19,andimprove the poor generalization ability of the model under small samples,this paper constructs the twin network基金项目:国家自然科学基金(61462002);宁夏
8、自然科学基金(2022AAC03268,2020AAC03215,2020AAC02004)。This work was supported by the National Natural Science Foundation of China(61462002),and the Natural Science Foundation ofNingxia(2022AAC03268,2020AAC03215,2020AAC02004).收稿日期:2022-10-18修回日期:2023-02-20Journal of Frontiers of Computer Science and Technol
9、ogy计算机科学与探索2023,17(10)由于新冠病毒的传播速度极快,对全人类的生命健康带来了严重的危害。因此,快速精确地诊断出新冠肺炎对患者治疗与切断病毒传播链具有重要意义。研究表明,新冠肺炎患者在患病期间几乎都会出现肺部性状的改变1-2。手动标记影像数据不仅对检查人员的临床经验要求较高,而且费力耗时,而基于深度学习的智能影像诊断技术具有诊断速度快、灵敏度高的优点3。用于新冠肺炎诊断的经典深度网络主要有4-9:VGGNet、ResNet、DenseNet、InceptionNet、CapsNet和EfficientNet等网络。VGGNet使用小核卷积与小核池化来保证少量参数下获取更多细节
10、特征,一些学者将 VGGNet作为主干网络用于新冠肺炎诊断取得了不错的效果4。ResNet采用残差连接的结构将浅层特征与深层特征直接相连,有效地缓解了梯度消失、梯度弥散和网络退化的问题5。DenseNet中任意层之间都有直接的连接,利用所有层的特征来预测结果以提升网络的鲁棒性6。InceptionNet采用多尺度的多分支卷积层来提取不同尺度的特征,使用11的卷积与全局平均池化来使网络参数减少的同时提高运算速度7。CapsNet通过将capsule嵌套在其他层中来减小网络深度,每个 capsule可以检测图像中的一类特定实体,通过动态路由机制向父层反馈检测到的实体。基于CapsNet架构的新冠肺
11、炎诊断网络由于其深度较浅,对设备算力要求不高8。EfficientNet由B0B7共8个不同尺度的子网络构成,通过交替使用33与55的卷积层来提取特征,并使用组合缩放系数来同时调整网络的宽度与深度,实现了较高的新冠肺炎诊断准确度9。由于常规病毒性肺炎与新冠肺炎的影像特征差别很小,基础网络往往难以准确地进行分类。因此,研究者提出了一些多模型结合的方法。Ozkaya等10提出了一种多模型深层特征融合和排列的新冠肺炎检测方法(deep features fusion and ranking technique,DFFRT)。类似地,Rahimzadeh等11提出基于Xception12和ResNet
12、的级联神经网络。这类网络虽然实现了精度的提升,但灵敏度不足。为此,Togacar 等13结合MobileNetV214和 SqueezeNet15构造级联网络,并且借助支持向量机(support vector machine,SVM)16对有效特征进行组合,提升了模型的灵敏度。多模型结合的方法虽然在一定程度上提升了模型的诊断性能,但是大多数新冠肺炎数据集的样本数量十分有限,而常规架构下的深度学习网络会由于训练数据不足导致网络泛化能力较弱,难以在小样本数据集上取得良好的效果。因此,Zheng等提出了 DeCoVNet17模型,该模型通过与弱监督方法18结合,采用数据增强技术有效缓解了数据集过小带
13、来的过拟合问题,但是该模型容易导致较高的假阴性率。为此,Narin等19巧妙地使用结合迁移学习的二进制Resnet模型(binary classification of transfer learningResnet,BTLResnet)来解决数据量少和训练时间不足的问题,改善了假阴性问题。与BTLResnet模型不同,Wang等20提出了基于 DenseNet121的新冠肺炎分类和预后分析方法,该方法使用双步迁移策略来解决新冠肺炎数据集样本数量不足的问题,在数据集较小的情况下取得了较高的诊断准确率。与此类似的是,Chowdhury等21提出基于EfficientNet的集成网络(effici
14、ent COVID-19 detection network,ECOVNet)。该网络使用在 ImageNet上预训练的权重进行迁移,通过集成预测的方法来降低模型的泛化误差,提高了在新冠肺炎X-ray图像小数据集的诊断准确率。综上所述,基于迁移学习的方法解决了数据集样本不足的问题,然而,简单的迁移学习技术对源域数据与目标域数据的相似度要求较高,复杂的迁移学习技术在不同任务上需要使用不同的迁移策略,可移植性差。为此,He等提出一种自监督预训练框架(masked autoencoder,MAE)22,通过在原图像上随机掩盖一定比例的像素块作为模型的输入数据,使SMViT.Finally,the a
15、blation experiment is used to verify and determine the structure of the model,and thediagnostic performance and lightweight capacity of the model are verified through comparative experiments.Experimental results show that,compared with the most competitive ViT-based diagnostic model,the Accuracy,Spe
16、cificity,Sensitivity and F1 scores of this model on the X-ray dataset have increased by 1.42%,4.62%,0.40%and2.80%respectively,and the Accuracy,Specificity,Sensitivity and F1 scores on the CT image dataset have increasedby 2.16%,2.17%,2.05%and 2.06%respectively.The SMViT model has strong generalizati
17、on ability for smallsample size datasets.Compared with ViT,SMViT model has smaller parameters and higher diagnostic performance.Key words:diagnosis of COVID-19;siamese network;vision transformer;self-supervised learning;lightweight model2500马自萍 等:SMViT:用于新冠肺炎诊断的轻量化孪生网络模型用原图像作为标签来训练模型。受此启发,本文构建了 MAE
18、策略下的 ViT(vision transformer)模型以缓解复杂的迁移学习技术的可移植性差问题。目前,在许多视觉任务中ViT模型展现了其全局的优越性,与卷积神经网络(convolutional neural net-work,CNN)相比,性能有了显著的提升23。但是,ViT模型的多头自注意力机制会对全局的特征表示进行学习,这导致其参数量显著增加。为此,本文采用循环子结构的方法对模型进行轻量化,通过在单个子网络上循环更新梯度来避免训练时产生过大的计算图。对由多个结构相同的编码器块构成的 ViT模型,该方法可明显降低其参数量。1本文方法1.1轻量化策略本文提出了循环子结构轻量化策略,其网络
19、训练流程如图 1所示。设一个神经网络A由结构相同的子网络A1,A2,An构成,子网络Ak的输出为子网络Ak+1的输入,网络A的总参数量为子网络A1参数量的n倍。设神经网络B仅由子网络B1构成,B1与A1结构相同,因此网络B的总参数量为子网络A1参数量。通过公式推导证明,在网络A与网络B有相同输入、标签、网络参数的情况下,将子网络B1复用n次后,每一轮训练将会得到相同的结果。该策略对由多个具有相同结构的子网络构成的复杂网络具有轻量化效果。理论证明如下:将神经网络表示为函数的形式,设子网络A1为函数output=f1(input),子网络A2为函数output=f2(input),子网络Ak为函数
20、output=fk(input),子网络B1为函数output=g(input),其中input为网络的输入,output为网络的输出。设神经网络中采用sigmoid作为激活函数,并将一个子网络分为输入层、隐 含 层 与 输 出 层。由 神 经 网 络 的 定 义 可 知,f1(input),f2(input),fn(input),g(input)的形式均可表示为:11+e-(W*X+b)(1)其中,W为神经网络中输出层与前一层各连接的权重,b为偏置项,X为隐含层的输出。由式(1)易知,表示神经网络的函数在定义域内无穷次可导。因此,任意表示神经网络的函数均可利用泰勒公式将其表示为一个多项式函数
21、。若将所有的子网络函数均按泰勒公式展开到固定的阶数,则函数f1(input),图1网络A与网络B的训练流程Fig.1Training process of networkAand networkB2501Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(10)f2(input),fn(input),g(input)均可表示为同阶的多项式函数:f(x)=anxn+an-1xn-1+a2x2+a1x+a0(2)网络A可表示为:outA=fn(fn-1(f2(f1(input)(3)网络B可表示为:outB=
22、g(g(g(g(input)(4)其中,函数g()复合了n次。设多项式函数g()的第m阶为omxm,多项式函数fn()的第m阶为pnmxm。通过归纳假设法可以证明,当n=1时:outA=p1mxm(5)outB=omxm(6)若令om=p1m,则式(3)与式(4)相等。当n=k时:outA=pkmp(k-1)m.p2mp1mxkm(7)outB=om(k-1)m+(k-1)xkm(8)若令om(k-1)m+(k-1)=pkmp(k-1)m.p2mp1m,则式(3)与式(4)相等。当n=k+1时:outA=p(k+1)mpkm.p2mp1mx(k+1)m(9)outB=omkm+kx(k+1)m
23、(10)若令omkm+k=p(k+1)mpkm.p2mp1m,则式(3)与式(4)相等,即可以通过将单个子网络复用n次来达到与由n个子网络构成的复杂网络相等的效果。1.2轻量化的孪生架构网络本文提出轻量化的SMViT(siamese masked visiontransformer)网络模型,其结构如图2所示。从图2可以看出,轻量化 SMViT模型的编码器通过将一个编码器子块循环使用来取得与原本由多个编码器子块堆叠构成的编码器相同的效果,有效减少了网络参数量与训练模型所需显存。在SMViT的预训练网络中,编码器负责提取高维特征表示,解码器则通过与未掩码图像计算MSE(mean square e
24、rror)损失来细粒度地还原图像,从而有效地增强了模型的潜在特征表示能力。MSE损失公式为:MSE=1ni=1n(yi-yi)2(11)最后,搭建一个孪生网络头用于新冠肺炎的诊断。1.3孪生网络头孪生网络的核心思想是利用神经网络将两个输入样本映射到新的空间中进行表示,通过对两个样本在新空间的表示计算损失,来评价两个输入的相似度24。由于孪生网络具有权值共享的特性,这样可以保证两个不同样本的输出在同一域内25。近年来,孪生网络已成为各种视觉表示学习模型中的常见结构,它将最大化两幅同一类别图像之间的相似性,并最小化两幅不同类别图像之间的相似性。孪生神经网络可以将分类问题转化为模板匹配的问题,进而具
25、备较强的小样本学习能力,且不易被错误样本干扰26。因此,在ViT的编码器上添加一个由全连接层与MSE损失构成的孪生网络头,其结构如图2所示。其中,编码器与解码器负责掩码自监督预训练,预训练完成后再训练由编码器与孪生网络头组成的诊断网络,此时,编码器梯度将不再更新。由于肺部图像中图2SMViT网络结构图Fig.2Structure of SMViT2502马自萍 等:SMViT:用于新冠肺炎诊断的轻量化孪生网络模型不同区域对是否被判定为新冠肺炎的贡献度不同,在孪生网络头中,全连接层将对输入样本的特征图进行加权。然后计算两个样本加权后的MSE损失来判定两个样本是否属于同一类别。嵌入了孪生网络头后,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SMViT 用于 肺炎 诊断 量化 孪生 网络 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。