融合Transformer的带钢缺陷实时检测算法.pdf
《融合Transformer的带钢缺陷实时检测算法.pdf》由会员分享,可在线阅读,更多相关《融合Transformer的带钢缺陷实时检测算法.pdf(8页珍藏版)》请在咨信网上搜索。
1、Computer Engineering and Applications计算机工程与应用2023,59(16)融合Transformer的带钢缺陷实时检测算法张涛源1,2,3,谢新林1,2,3,谢刚1,2,3,张林1,2,31.太原科技大学 电子信息工程学院,太原 0300242.先进控制与装备智能化山西省重点实验室,太原 0300243.平板显示智能制造装备关键技术研发工程研究中心,太原 030024摘要:在带钢的生产过程中通常会产生影响产品质量的表面缺陷。针对带钢表面缺陷检测效率低以及小目标缺陷检测精度差的问题,提出一种融合 Transformer 的带钢缺陷实时检测算法 TRSD-YO
2、LO(Transformer real-timestrip steel defects detection-YOLO)。设计一种结合Transformer自注意力机制的特征提取模块BottleNeckCSPTR,通过自注意力的增强来提升模块对小目标缺陷信息的获取能力;运用BottleNeckCSPTR模块构建新的主干特征提取网络CSPDarknetTR,并将动态激活函数Meta-ACON与主干网络相融合,进一步强化网络对缺陷特征的表示能力;提出一种轻量级双向加权特征金字塔结构BiFPN-Light作为融合多尺度特征的方式,提高网络对小尺寸缺陷的检测精度。实验结果表明,提出的算法在NEU-DET
3、数据集上mAP达到了82.2%,较原有的YOLOv4算法提高了5.3个百分点;同时检测速度达到31.3 FPS,可匹配工业场景的需求。关键词:带钢缺陷检测;YOLOv4;Transformer;双向特征金字塔(BiFPN)文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2210-0450Real-Time Strip Steel Defect Detection Algorithm Fused with TransformerZHANG Taoyuan1,2,3,XIE Xinlin1,2,3,XIE Gang1,2,3,ZHANG Lin1,2,
4、31.School of Electronic Information Engineering,Taiyuan University of Science and Technology,Taiyuan 030024,China2.Shanxi Key Laboratory of Advanced Control and Equipment Intelligence,Taiyuan 030024,China3.Research and Development Engineering Research Center for Key Technology of Flat Panel Display
5、Intelligent Manufacturing,Taiyuan 030024,ChinaAbstract:In the production process of strip steel,surface defects often affect the quality of products.Aiming at the prob-lems of poor detection accuracy and low detection efficiency of existing detection methods for small target defects on stripsteel su
6、rface,a real-time detection algorithm TRSD-YOLO(Transformer real-time strip steel defects detection YOLO)fused with Transformer is proposed.Firstly,a feature extraction module BottleNeckCSPTR combined with Transformer sself-attention mechanism is designed to enhance the module s ability to obtain sm
7、all target defect information through theenhancement of self-attention.Secondly,the BottleNeckCSPTR module is used to build a new backbone feature extrac-tion network CSPDarknetTR,and the dynamic activation function Meta-ACON is integrated with the backbone to furtherstrengthen the network s ability
8、 to represent defect features.Finally,a lightweight bidirectional weighted feature pyramidstructure BiFPN-Light is proposed as a way to fuse multi-scale features to improve the network s detection accuracy forsmall defects.The experimental results show that the algorithm proposed in this paper achie
9、ves a mAP of 82.2%on theNEU-DET dataset,which is 5.3 percentage points higher than the original YOLOv4 algorithm.At the same time,thedetection speed reaches 31.3 FPS,which can meet the needs of industrial scenarios.Key words:strip steel defect detection;YOLOv4;Transformer;bidirectional feature pyram
10、id network(BiFPN)基金项目:山西省重点研发计划(202102020101005);山西省自然科学基金(202103021224056);山西省回国留学人员科研资助项目(2021-046)。作者简介:张涛源(1997),男,硕士研究生,CCF学生会员,研究方向为深度学习、目标检测;谢新林(1990),男,博士,讲师,CCF会员,研究方向为图像语义分割、深度学习;谢刚(1972),通信作者,男,博士,教授,CCF会员,研究方向为机器视觉、图像理解,E-mail:;张林(1996),男,硕士研究生,研究方向为深度学习、目标检测。收稿日期:2022-10-27修回日期:2023-01-
11、04文章编号:1002-8331(2023)16-0232-082322023,59(16)在带钢的生产过程中,产品质量控制占据着重要地位1,完善的质量检测系统可以有效地保证产品的良品率。但由于生产环境的不确定性和生产工艺的约束,带钢的表面常会产生一些缺陷,如麻点、斑块、划痕等,会极大地影响带钢的产品性能,继而影响后续的安全使用。在对产品质量要求日益严格的大趋势下,如何准确高效地检测出产品表面缺陷成为行业亟待解决的问题,由此也引起了业界关于不同形式缺陷检测方法的研究2。原始的基于人工目检的方法不仅需要耗费大量的人力物力,检测的精度也难以得到保证。传统的机器学习方法,如Canny边缘检测等3,虽
12、然在一定程度上解决了缺陷检测的成本问题,但检测精度和抗干扰能力还有待提升。近年来,随着计算机技术与硬件算力的不断优化与发展,深度学习卷积神经网络受到了明显关注,结合深度学习进行带钢表面缺陷检测的方法逐渐替代了传统的缺陷检测方法。目前,已有大量的国内外学者将深度学习算法应用于钢材表面的缺陷检测上。其中一部分算法主要解决了缺陷的分类问题。例如,Liu等4提出了一种基于GAN(generative adversarial networks)的带钢表面缺陷检测分类方法,通过修改特征输出层、改进损失函数等方法提升网络的准确率。但这类网络只面向缺陷分类的问题,更加复杂的缺陷定位问题并没有得到有效的解决。相
13、较于分类算法,基于深度学习的目标检测算法在分类的同时还可以获得缺陷的具体位置信息,更适合运用于缺陷检测领域。目标检测算法主要分为两类:一类是基于区域建议的两阶段(two-stage)检测算法;另一类是基于回归思想的单阶段(one-stage)检测算法。以Faster R-CNN5等为代表的两阶段算法通过生成预选框、细粒度物体检测两步完成对目标的检测。例如,向宽等6提出一种改进Faster R-CNN的铝材表面缺陷检测网络,在原主干网络中加入特征金字塔结构加强特征提取能力,并运用感兴趣区域校准算法校正缺陷定位信息,最后通过K-means聚类算法获取更适宜缺陷检测的锚框。尽管上述改进网络能够改善表
14、面小缺陷的检测能力,但是这类算法的检测速度较低,难以满足工业化对实时性的需求。而单阶段算法,如 SSD(single shotmultibox detector)7、YOLO(you only look once)系列8-9、RetinaNet10等使用了回归思想,无需生成预选框,可以直接在网络中完成特征提取,以及实现物体分类和位置预测,检测速度较快,更适合应用于对速度要求高的工业检测领域。例如,李维刚等11提出一种改进的YOLOv3算法模型,使用加权K-means聚类算法来提高先验框与特征图层的匹配度,并调整YOLOv3算法的网络结构,通过形成新的大尺度检测图层来融合浅层特征与深层特征,提高
15、检测精度。Kou等12利用无锚框结构开发了一种基于YOLOv3的端到端缺陷检测模型,通过引入密集卷积块丰富提取到的特征信息,使得模型具有更高的性能。以上这类缺陷检测网络虽然具备了单阶段算法优点,但是仍难以同时满足工业缺陷检测对速度和精度的需求。针对以上问题,本文提出一种改进YOLOv4的缺陷检测网络TRSD-YOLO(Transformer real-time strip steeldefects detection-YOLO),在保证实时性的前提下解决带钢表面小目标缺陷检测准确率偏低的问题。本文的基线网络为在PyTorch框架下重构的YOLOv4。该网络根据网络宽度和深度的不同分为YOLOv
16、4s、YOLOv4m、YOLOv4l、YOLOv4x 四种网络结构,其中 YOLOv4s 的参数量最小,其深度为YOLOv4的1/3,每一层的通道宽度为YOLOv4的一半。出于实时性和轻量化的考虑,本文选用YOLOv4s网络结构进行改进,所做的工作主要分为以下三方面:(1)以 YOLOv4s 网络结构为基础,设计了一种结合 Transformer 自注意力机制的特征提取模块 Bottle-NeckCSPTR,将BottleNeckCSP的局部位置感知能力与Transformer全局信息提取能力相融合,使网络在提取局部特征的同时迅速扩大感受野,结合更多的信息以提升小目标缺陷检测精度。(2)运用设
17、计的BottleNeckCSPTR模块构建新的主干特征提取网络CSPDarknetTR,并引入一种动态激活函数Meta-ACON替换主干网络中的激活层,进一步强化网络捕获空域讯息和提取特征的能力,提升网络的检测精度。(3)设计了一种轻量级双向加权特征金字塔结构BiFPN-Light运用于颈部网络中,通过加权的方式融合不同尺度的特征,使得网络可以更好地平衡不同尺度的特征信息,增强网络检出缺陷的能力。1相关算法原理1.1YOLOv4基本网络YOLOv4的网络结构可以按模块划分为主干网络、颈部网络、检测网络三大部分。YOLOv4的主干网络采用的是CSPDarknet53,其中的BottleNeckC
18、SP结构将输入分为两部分,对一部分进行计算,另一部分则直接与计算后的结果进行Concat,降低了计算成本。SPP(spatialpyramid pooling)模块通过融合多尺度的特征,提升了模型的感受野。图片经过主干网络进行特征提取后输出三个不同大小的特征图并输入颈部网络。颈部网络主要为PANet特征金字塔结构。PANet结构反复运用高维度与低维度之间的信息,增强了不同尺度的特征提取能力。检测网络即YOLO Head则通过两次卷积将颈部网络输出的特征图进行整合,在调整通道数之后输入检测头,经损失函数计算后得到检测结果。张涛源,等:融合Transformer的带钢缺陷实时检测算法233Comp
19、uter Engineering and Applications计算机工程与应用2023,59(16)YOLOv4的损失函数主要由定位损失、置信度损失以及分类损失三部分组成,其中置信度损失以及分类损失两部分与YOLOv3中的损失函数相同。在定位损失部分,YOLOv4使用了CIoU函数作为目标边框信息损失的计算方式。CIoU的计算方式如下:CIoU=IoU-2(b,bgt)c2-v(1)其中,2(b,bgt)表示预测框与真实框中心点的欧式距离,c代表包含预测框与真实框的闭区域内对角线的距离,为权重系数,v则用来表示长宽比的相似性,与v的计算方式如下:=v1-IoU+v(2)v=42 arcta
20、nwgthgt-arctanwh2(3)最终,CIoU损失的计算公式如下:LossCIoU=1-CIoU(4)LossCIoU=1-IoU+2(b,bgt)c2+v(5)1.2Transformer简介Transformer13的特点是Self-Attention机制的运用。随着ViT(vision transformer)14的出现,基于Self-Attention机制的模型在许多视觉领域中取得了优异的表现。ViT将原始图片均匀地分割成若干个patch,并将每个patch展平成为序列后输入到 Transformer 模块的编码器部分,最后通过全连接层对图片进行分类。DETR(detectio
21、ntransformer)15首次将Transformer应用于目标检测领域,为CNN与Transformer的结合开辟了新的思路。DETR运用了Transformer编码器与解码器结构,首先通过CNN主干网络对输入图像做特征提取,在加入位置信息后送入编码器,得到候选特征,再由解码器进行解码,并输出最后的检测结果。2本文算法本文算法 TRSD-YOLO 的构建基于 YOLOv4s 结构,由主干网络、颈部网络和检测网络构成。其中主干网络为CSPDarknetTR,颈部网络为BiFPN-Light。总体结构图如图1所示。2.1BottleNeckCSPTR模块本文受ViT与DETR的启发,使用Tr
22、ansformer的编码器模块结合BottleNeckCSP模块,构建了一个新的用于目标检测领域的特征提取模块BottleNeckCSPTR,如图2所示。图像在输入该模块后,先运用卷积操作把局部感受野上得到的权值通过一个聚合函数在整个特征图中共享,为图像处理带来至关重要的归纳偏置。接着将特征图输入由多头注意力层(multi-headattention)和多层感知器层(multilayer perceptron,MLP)形成的Transformer模块,模块的具体结构如图3。运用基于输入特征上下文的加权平均操作,通过相似性函数动态计算相关像素对之间的注意力权重,使得注意力模块能够自适应地关注全局
23、感受野下的不同区域,将更多的注意力聚焦于缺陷区域,捕捉更多有效的特征。同时,由于深层卷积操作中特征图的尺寸较小,导致小目2242243211211264565612828282561414512771 024 77512CBAConv+BN+ACONSPPCSPCBMConv+BN+MishBiFPN_Add+BottleNeckCSP2BottleNeckCSPTR BottleNeck BottleNeckCSP YOLO HeadUpsampleUpsampleDownsampleDownsampleBackbone:CSPDarknetTRNeck:BiFPN-Light图1TRSD-
24、YOLO网络结构图Fig.1Architecture of TRSD-YOLO networkInputFeature MapConv 11 BottleNecknConv2dConcatConv2dBN+ActivateConv 11 Transformer BlockOutputFeature MapConvConv2dBN+Activate=+图2BottleNeckCSPTR模块结构图Fig.2Structure diagram of BottleNeckCSPTR module2342023,59(16)标在特征图上的信息更加不明显。Transformer模块的加入可以补充卷积操作所
25、缺少的全局信息,突出小目标在特征图中的表示,提升对小目标的检测能力。Transformer 模块的具体操作方式如下:将形式为b,C,H,W的特征图矩阵x输入模块之中。其中b代表 Batch_size,即每次输入模块的特征图数量,C为输入特征图的通道数,H和W分别表示特征图的高和宽。特征图矩阵x输入模块后,首先通过展平操作将H和W两个维度组成的矩阵重构为一维向量,并调整为HW,b,C的形式以匹配多头注意力层的输入。接着与通过线性层处理得到通道数相同的逐像素位置编码信息相结合形成新的输入I,并输入多头注意力层对信息进行处理。处理后的信息在通过MLP层后,运用与输入特征矩阵重构时相反的操作将信息重构
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 融合 Transformer 带钢 缺陷 实时 检测 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。