分销赏收藏举报申诉 / 8

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 融合Transformer的带钢缺陷实时检测算法.pdf

融合Transformer的带钢缺陷实时检测算法.pdf

上传人：自信****多点

文档编号：582396

上传时间：2024-01-02

格式：PDF

页数：8

大小：1.84MB

《融合Transformer的带钢缺陷实时检测算法.pdf》由会员分享，可在线阅读，更多相关《融合Transformer的带钢缺陷实时检测算法.pdf（8页珍藏版）》请在咨信网上搜索。

1、Computer Engineering and Applications计算机工程与应用2023，59（16）融合Transformer的带钢缺陷实时检测算法张涛源1，2，3，谢新林1，2，3，谢刚1，2，3，张林1，2，31.太原科技大学电子信息工程学院，太原 0300242.先进控制与装备智能化山西省重点实验室，太原 0300243.平板显示智能制造装备关键技术研发工程研究中心，太原 030024摘要：在带钢的生产过程中通常会产生影响产品质量的表面缺陷。针对带钢表面缺陷检测效率低以及小目标缺陷检测精度差的问题，提出一种融合 Transformer 的带钢缺陷实时检测算法 TRSD-YO

2、LO（Transformer real-timestrip steel defects detection-YOLO）。设计一种结合Transformer自注意力机制的特征提取模块BottleNeckCSPTR，通过自注意力的增强来提升模块对小目标缺陷信息的获取能力；运用BottleNeckCSPTR模块构建新的主干特征提取网络CSPDarknetTR，并将动态激活函数Meta-ACON与主干网络相融合，进一步强化网络对缺陷特征的表示能力；提出一种轻量级双向加权特征金字塔结构BiFPN-Light作为融合多尺度特征的方式，提高网络对小尺寸缺陷的检测精度。实验结果表明，提出的算法在NEU-DET

3、数据集上mAP达到了82.2%，较原有的YOLOv4算法提高了5.3个百分点；同时检测速度达到31.3 FPS，可匹配工业场景的需求。关键词：带钢缺陷检测；YOLOv4；Transformer；双向特征金字塔（BiFPN）文献标志码：A中图分类号：TP391doi：10.3778/j.issn.1002-8331.2210-0450Real-Time Strip Steel Defect Detection Algorithm Fused with TransformerZHANG Taoyuan1，2，3,XIE Xinlin1，2，3,XIE Gang1，2，3,ZHANG Lin1，2，

4、31.School of Electronic Information Engineering,Taiyuan University of Science and Technology,Taiyuan 030024,China2.Shanxi Key Laboratory of Advanced Control and Equipment Intelligence,Taiyuan 030024,China3.Research and Development Engineering Research Center for Key Technology of Flat Panel Display

5、Intelligent Manufacturing,Taiyuan 030024,ChinaAbstract：In the production process of strip steel,surface defects often affect the quality of products.Aiming at the prob-lems of poor detection accuracy and low detection efficiency of existing detection methods for small target defects on stripsteel su

6、rface,a real-time detection algorithm TRSD-YOLO（Transformer real-time strip steel defects detection YOLO）fused with Transformer is proposed.Firstly,a feature extraction module BottleNeckCSPTR combined with Transformer sself-attention mechanism is designed to enhance the module s ability to obtain sm

7、all target defect information through theenhancement of self-attention.Secondly,the BottleNeckCSPTR module is used to build a new backbone feature extrac-tion network CSPDarknetTR,and the dynamic activation function Meta-ACON is integrated with the backbone to furtherstrengthen the network s ability

8、 to represent defect features.Finally,a lightweight bidirectional weighted feature pyramidstructure BiFPN-Light is proposed as a way to fuse multi-scale features to improve the network s detection accuracy forsmall defects.The experimental results show that the algorithm proposed in this paper achie

9、ves a mAP of 82.2%on theNEU-DET dataset,which is 5.3 percentage points higher than the original YOLOv4 algorithm.At the same time,thedetection speed reaches 31.3 FPS,which can meet the needs of industrial scenarios.Key words：strip steel defect detection;YOLOv4;Transformer;bidirectional feature pyram

10、id network（BiFPN）基金项目：山西省重点研发计划（202102020101005）；山西省自然科学基金（202103021224056）；山西省回国留学人员科研资助项目（2021-046）。作者简介：张涛源（1997），男，硕士研究生，CCF学生会员，研究方向为深度学习、目标检测；谢新林（1990），男，博士，讲师，CCF会员，研究方向为图像语义分割、深度学习；谢刚（1972），通信作者，男，博士，教授，CCF会员，研究方向为机器视觉、图像理解，E-mail：；张林（1996），男，硕士研究生，研究方向为深度学习、目标检测。收稿日期：2022-10-27修回日期：2023-01-

11、04文章编号：1002-8331（2023）16-0232-082322023，59（16）在带钢的生产过程中，产品质量控制占据着重要地位1，完善的质量检测系统可以有效地保证产品的良品率。但由于生产环境的不确定性和生产工艺的约束，带钢的表面常会产生一些缺陷，如麻点、斑块、划痕等，会极大地影响带钢的产品性能，继而影响后续的安全使用。在对产品质量要求日益严格的大趋势下，如何准确高效地检测出产品表面缺陷成为行业亟待解决的问题，由此也引起了业界关于不同形式缺陷检测方法的研究2。原始的基于人工目检的方法不仅需要耗费大量的人力物力，检测的精度也难以得到保证。传统的机器学习方法，如Canny边缘检测等3，虽

12、然在一定程度上解决了缺陷检测的成本问题，但检测精度和抗干扰能力还有待提升。近年来，随着计算机技术与硬件算力的不断优化与发展，深度学习卷积神经网络受到了明显关注，结合深度学习进行带钢表面缺陷检测的方法逐渐替代了传统的缺陷检测方法。目前，已有大量的国内外学者将深度学习算法应用于钢材表面的缺陷检测上。其中一部分算法主要解决了缺陷的分类问题。例如，Liu等4提出了一种基于GAN（generative adversarial networks）的带钢表面缺陷检测分类方法，通过修改特征输出层、改进损失函数等方法提升网络的准确率。但这类网络只面向缺陷分类的问题，更加复杂的缺陷定位问题并没有得到有效的解决。相

13、较于分类算法，基于深度学习的目标检测算法在分类的同时还可以获得缺陷的具体位置信息，更适合运用于缺陷检测领域。目标检测算法主要分为两类：一类是基于区域建议的两阶段（two-stage）检测算法；另一类是基于回归思想的单阶段（one-stage）检测算法。以Faster R-CNN5等为代表的两阶段算法通过生成预选框、细粒度物体检测两步完成对目标的检测。例如，向宽等6提出一种改进Faster R-CNN的铝材表面缺陷检测网络，在原主干网络中加入特征金字塔结构加强特征提取能力，并运用感兴趣区域校准算法校正缺陷定位信息，最后通过K-means聚类算法获取更适宜缺陷检测的锚框。尽管上述改进网络能够改善表

14、面小缺陷的检测能力，但是这类算法的检测速度较低，难以满足工业化对实时性的需求。而单阶段算法，如 SSD（single shotmultibox detector）7、YOLO（you only look once）系列8-9、RetinaNet10等使用了回归思想，无需生成预选框，可以直接在网络中完成特征提取，以及实现物体分类和位置预测，检测速度较快，更适合应用于对速度要求高的工业检测领域。例如，李维刚等11提出一种改进的YOLOv3算法模型，使用加权K-means聚类算法来提高先验框与特征图层的匹配度，并调整YOLOv3算法的网络结构，通过形成新的大尺度检测图层来融合浅层特征与深层特征，提高

15、检测精度。Kou等12利用无锚框结构开发了一种基于YOLOv3的端到端缺陷检测模型，通过引入密集卷积块丰富提取到的特征信息，使得模型具有更高的性能。以上这类缺陷检测网络虽然具备了单阶段算法优点，但是仍难以同时满足工业缺陷检测对速度和精度的需求。针对以上问题，本文提出一种改进YOLOv4的缺陷检测网络TRSD-YOLO（Transformer real-time strip steeldefects detection-YOLO），在保证实时性的前提下解决带钢表面小目标缺陷检测准确率偏低的问题。本文的基线网络为在PyTorch框架下重构的YOLOv4。该网络根据网络宽度和深度的不同分为YOLOv

16、4s、YOLOv4m、YOLOv4l、YOLOv4x 四种网络结构，其中 YOLOv4s 的参数量最小，其深度为YOLOv4的1/3，每一层的通道宽度为YOLOv4的一半。出于实时性和轻量化的考虑，本文选用YOLOv4s网络结构进行改进，所做的工作主要分为以下三方面：（1）以 YOLOv4s 网络结构为基础，设计了一种结合 Transformer 自注意力机制的特征提取模块 Bottle-NeckCSPTR，将BottleNeckCSP的局部位置感知能力与Transformer全局信息提取能力相融合，使网络在提取局部特征的同时迅速扩大感受野，结合更多的信息以提升小目标缺陷检测精度。（2）运用设

17、计的BottleNeckCSPTR模块构建新的主干特征提取网络CSPDarknetTR，并引入一种动态激活函数Meta-ACON替换主干网络中的激活层，进一步强化网络捕获空域讯息和提取特征的能力，提升网络的检测精度。（3）设计了一种轻量级双向加权特征金字塔结构BiFPN-Light运用于颈部网络中，通过加权的方式融合不同尺度的特征，使得网络可以更好地平衡不同尺度的特征信息，增强网络检出缺陷的能力。1相关算法原理1.1YOLOv4基本网络YOLOv4的网络结构可以按模块划分为主干网络、颈部网络、检测网络三大部分。YOLOv4的主干网络采用的是CSPDarknet53，其中的BottleNeckC

18、SP结构将输入分为两部分，对一部分进行计算，另一部分则直接与计算后的结果进行Concat，降低了计算成本。SPP（spatialpyramid pooling）模块通过融合多尺度的特征，提升了模型的感受野。图片经过主干网络进行特征提取后输出三个不同大小的特征图并输入颈部网络。颈部网络主要为PANet特征金字塔结构。PANet结构反复运用高维度与低维度之间的信息，增强了不同尺度的特征提取能力。检测网络即YOLO Head则通过两次卷积将颈部网络输出的特征图进行整合，在调整通道数之后输入检测头，经损失函数计算后得到检测结果。张涛源，等：融合Transformer的带钢缺陷实时检测算法233Comp

19、uter Engineering and Applications计算机工程与应用2023，59（16）YOLOv4的损失函数主要由定位损失、置信度损失以及分类损失三部分组成，其中置信度损失以及分类损失两部分与YOLOv3中的损失函数相同。在定位损失部分，YOLOv4使用了CIoU函数作为目标边框信息损失的计算方式。CIoU的计算方式如下：CIoU=IoU-2(b,bgt)c2-v（1）其中，2(b,bgt)表示预测框与真实框中心点的欧式距离，c代表包含预测框与真实框的闭区域内对角线的距离，为权重系数，v则用来表示长宽比的相似性，与v的计算方式如下：=v1-IoU+v（2）v=42 arcta

20、nwgthgt-arctanwh2（3）最终，CIoU损失的计算公式如下：LossCIoU=1-CIoU（4）LossCIoU=1-IoU+2(b,bgt)c2+v（5）1.2Transformer简介Transformer13的特点是Self-Attention机制的运用。随着ViT（vision transformer）14的出现，基于Self-Attention机制的模型在许多视觉领域中取得了优异的表现。ViT将原始图片均匀地分割成若干个patch，并将每个patch展平成为序列后输入到 Transformer 模块的编码器部分，最后通过全连接层对图片进行分类。DETR（detectio

21、ntransformer）15首次将Transformer应用于目标检测领域，为CNN与Transformer的结合开辟了新的思路。DETR运用了Transformer编码器与解码器结构，首先通过CNN主干网络对输入图像做特征提取，在加入位置信息后送入编码器，得到候选特征，再由解码器进行解码，并输出最后的检测结果。2本文算法本文算法 TRSD-YOLO 的构建基于 YOLOv4s 结构，由主干网络、颈部网络和检测网络构成。其中主干网络为CSPDarknetTR，颈部网络为BiFPN-Light。总体结构图如图1所示。2.1BottleNeckCSPTR模块本文受ViT与DETR的启发，使用Tr

22、ansformer的编码器模块结合BottleNeckCSP模块，构建了一个新的用于目标检测领域的特征提取模块BottleNeckCSPTR，如图2所示。图像在输入该模块后，先运用卷积操作把局部感受野上得到的权值通过一个聚合函数在整个特征图中共享，为图像处理带来至关重要的归纳偏置。接着将特征图输入由多头注意力层（multi-headattention）和多层感知器层（multilayer perceptron，MLP）形成的Transformer模块，模块的具体结构如图3。运用基于输入特征上下文的加权平均操作，通过相似性函数动态计算相关像素对之间的注意力权重，使得注意力模块能够自适应地关注全局

23、感受野下的不同区域，将更多的注意力聚焦于缺陷区域，捕捉更多有效的特征。同时，由于深层卷积操作中特征图的尺寸较小，导致小目2242243211211264565612828282561414512771 024 77512CBAConv+BN+ACONSPPCSPCBMConv+BN+MishBiFPN_Add+BottleNeckCSP2BottleNeckCSPTR BottleNeck BottleNeckCSP YOLO HeadUpsampleUpsampleDownsampleDownsampleBackbone：CSPDarknetTRNeck：BiFPN-Light图1TRSD-

24、YOLO网络结构图Fig.1Architecture of TRSD-YOLO networkInputFeature MapConv 11 BottleNecknConv2dConcatConv2dBN+ActivateConv 11 Transformer BlockOutputFeature MapConvConv2dBN+Activate=+图2BottleNeckCSPTR模块结构图Fig.2Structure diagram of BottleNeckCSPTR module2342023，59（16）标在特征图上的信息更加不明显。Transformer模块的加入可以补充卷积操作所

25、缺少的全局信息，突出小目标在特征图中的表示，提升对小目标的检测能力。Transformer 模块的具体操作方式如下：将形式为b,C,H,W的特征图矩阵x输入模块之中。其中b代表 Batch_size，即每次输入模块的特征图数量，C为输入特征图的通道数，H和W分别表示特征图的高和宽。特征图矩阵x输入模块后，首先通过展平操作将H和W两个维度组成的矩阵重构为一维向量，并调整为HW,b,C的形式以匹配多头注意力层的输入。接着与通过线性层处理得到通道数相同的逐像素位置编码信息相结合形成新的输入I，并输入多头注意力层对信息进行处理。处理后的信息在通过MLP层后，运用与输入特征矩阵重构时相反的操作将信息重构

26、为二维，最终获得更加关注于缺陷信息的特征图。其中，多头注意力结构如图3虚线部分，输入的向量I通过与每组三个可训练的共享变化矩阵WQi、WKi、WVi相乘得到对应的矩阵Qi、Ki、Vi，具体公式如下：Qi=IWQi,Ki=IWKi,Vi=IWVi（6）得到的代表不同特征的矩阵经过缩放点积注意力模块（scaled dot-product attention）处理，计算自注意力的分数值。计算方法为：首先将Qi与Ki做点积，将点积的结果除以dk，然后经过Softmax函数将结果限制在0到1之间，最后将Softmax输出的结果与Vi矩阵相乘，得到该点的注意力分数。其中dk为防止通过Softmax操作后梯

27、度过小的缩放因子。在得到注意力分数后，模块将通过Concat操作把计算后得到的多个注意力头拼接起来，并运用线性变换矩阵Wo得到多头注意力结构处理的最终结果。以上操作的具体公式为：headi=Attention(Qi,Ki,Vi)=softmaxQiKTidkVi（7）MultiHead(Q,K,V)=Concat(head1,head2,headi)WO（8）2.2主干网络的改进原 YOLOv4 算法的主干网络由 BottleNeck 模块、BottleNeckCSP 模块以及若干卷积模块组成。由于Transformer模块对全局信息的感知需要将特征图进行矢量重构，在输入特征图较大的情况下增加

28、过量的BottleNeckCSPTR模块会导致网络参数量激增，在训练和预测时会占用大量的计算资源。且重复对特征图全局信息进行提取并不利于网络对局部特征的学习。于是，本文运用新的特征提取模块BottleNeckCSPTR替换原主干网络中最后一层的BottleNeckCSP模块，构成了新的主干网络CSPDarknetTR，在增加少量计算量的同时强化网络的全局感知能力。激活函数的运用可以使网络从数据中学习复杂映射的能力更强。YOLOv4算法中使用的Mish激活函数拥有平滑、非单调、无上界有下界等特点，相较于常用的ReLU及其变体激活函数拥有更好的性能。但其仍属于静态激活函数，无法通过根据不同的输入特

29、征对激活函数进行相应调整的方式来提高对复杂数据的处理能力。针对该问题，本文引入了动态激活函数Meta-ACON16，它可以通过网络自适应地学习激活函数的结构并决定是否激活神经元。Meta-ACON为函数族ACON（ActivateOrNot）的一部分。作者把Swish函数统一至ReLU函数族中，并将ReLU 的一般形式 Maxout 系列激活函数拓展得到ACON系列激活函数。其中，ACON-C的表达式为：fACON-C(x)=S(p1x,p2x)=(p1-p2)x(p1-p2)x+p2x（9）它可以涵盖现阶段大部分的激活函数甚至更加复杂的变体形式。其中p1和p2是两个可学习的参数，网络可通过学

30、习这两个参数来自适应地调整激活函数的形式。则作为平滑因子，用来控制神经元是否激活。在ACON-C中，被设定为超参数，需要人为定义。Meta-ACON则在ACON-C的基础上进行改进，设计了一个自适应函数来计算平滑因子，使其可以根据输入的特征矩阵x动态地控制神经元的激活与否。自适应函数的设计使用了通道空间作为目标，公式如下：c=W1W2h=1Hw=1Wxc,h,w（10）首先对H、W维度求均值，然后通过两个11的卷积层调整通道数，最后由Sigmoid激活函数将c的最终结果限制在（0，1）之间，用于控制该神经元是否激活。InputFeature MapPositionEncodingLinearM

31、ulti-HeadAttentionReshapeMLPOutputFeature MapReshape Scaled Dot-ProductAttentionConcatWoQiKiViIIIWQiWKiWVi图3Transformer模块结构图Fig.3Structure diagram of Transformer module张涛源，等：融合Transformer的带钢缺陷实时检测算法235Computer Engineering and Applications计算机工程与应用2023，59（16）其中c表示在通道维度上共享该参数，W1与W2为两个卷积层的参数，并有W1CC/r,W2

32、C/rC,C为通道数，r为两卷积层间的缩放因子，设置为16以节省参数量。本文通过替换激活函数为Meta-ACON的方式形成了新的激活层，并使用新的激活层替换了主干网络CSPDarknetTR 中的所有激活层。Meta-ACON 的运用使得激活层可以根据不同的输入做出相应的变换，并自适应地决定其非线性程度，使得网络可以更好地适宜不同的数据分布，在面对样本点多且分布复杂的小目标检测时，网络可以更好地对正负样本进行分类，提高模型的泛化性能。2.3BiFPN-Light结构BiFPN结构17是在 EfficientDet目标检测算法上提出的特征融合方法，它是一种重复加权的双向特征金字塔网络。PANet

33、等特征融合方法对所有输入特征一视同仁，无法分辨不同输入特征之间的重要程度。BiFPN结构采用了快速归一化的加权优化策略，它使用可学习的权值来分辨不同输入特征的重要程度。具体实现公式如下：O=ii+jjxi（11）其中，是数值为0.000 1的常数，用以防止分母为0，这里取值较小是为了避免数值不稳定。i、j为输入的特征图数量，xi为输入的特征图矩阵。i、j两个权值在每次训练后会通过ReLU激活函数将值限制在大于0小于1的范围内。该结构将通过多次训练获得融合效果最好的权值。本文在BiFPN的基础上，提出一种BiFPN-Light结构，如图4所示。该结构反复应用自顶向下和自底而上两个方向上的特征融合

34、策略，并结合当前层的特征，更好地实现了对多尺度特征信息的融合。首先，本文设计的BiFPN-Light结构相较于BiFPN删除了两个网络节点，从而匹配输入YOLO Head的三个特征层。简化的结构可以降低网络的参数量，加快模型的推理速度。其次，该结构相较于原网络中的PANet结构删除了只有一个输入边且没有进行特征融合的节点，并在处于同一级别的输入输出节点之间添加了一条额外的连接边，在不增加计算成本的情况下融合了更多的特征，增强了小目标的表征能力。最后，使用Add结合操作替换BiFPN中的Concat结合操作，并匹配了网络中特征融合层的通道数。Add操作相较于Concat操作起到了更好的信息融合作

35、用，增加了每个像素所包含的信息，减小了计算量，更有利于将处理后的特征图输入YOLO Head中用于最终的分类以及预测。3实验结果与分析本实验的操作系统使用 Ubuntu18.04，CPU 为 2 颗IntelCore 4214R，GPU为1张NVIDIA Tesla T4 16 GB，利用CUDA10.1与Cudnn7.5.2加快GPU运算。编程语言为Python3.7，使用OpenCV3.4.1进行图像处理，并安装第三方库支持模型训练。本文的模型训练参数如下：设置目标的类别置信度阈值为0.5，初始学习率为0.01，采用SGD方式对训练进行优化，momentum参数设置为0.937，权重衰减系

36、数为0.000 5，防止数据过拟合。输入图像的尺寸为224224，数据集输入的批大小设置为4，共训练1 000个epoch。3.1数据集及评价指标实验使用的数据集为NEU-DET带钢表面缺陷数据集18，该数据集收集了带钢表面的六种缺陷，分别为裂纹（Cr）、杂质（In）、斑块（Pa）、麻点（Ps）、氧化铁皮压入（Rs）和划痕（Sc）。每类缺陷拥有图片 300张，共 1 800张图片，原始图片大小为200200像素。将每类缺陷按照 9 1 的比例随机分为训练集和测试集，即总训练集1 620 张，测试集 180 张，其中包括每类缺陷训练集各270张，测试集各30张。本文利用准确率（Precision

37、）以及召回率（Recall）计算出的平均精度均值（mAP）、参数量（Params）和每秒帧数（FPS）作为网络模型性能的评价指标，具体计算公式为：Precision=TPTP+FP100%（12）Recall=TPTP+FN100%（13）mAP=1Ki=1KAPi（14）其中，TP为被正确预测的正例，FP为被错误预测为正例的负例，FN为被错误预测为负例的正例，K为检测类别数，AP为各类检测的精度。参数量（Params）为各个模块结合后网络的空间复杂度。每秒帧数（FPS）为将 batch-size设置为 1时使用Tesla T4 16 GB在测试集上得到的检测速度。3.2消融实验结果为验证本文

38、所提出的主干网络、激活函数层以及轻量级双向加权特征金字塔结构是否能够提高网络的性BottleNeckCSPBottleNeckCSPAdd&BottleNeckCSP2ConvConvAdd&BottleNeckCSP2Add&BottleNeckCSP2BottleNeckCSPTRSPPCSPConvAdd&BottleNeckCSP2YOLOHeadYOLOHeadYOLOHeadBackboneBiFPN-LightUpsampleUpsampleDownsampleDownsample图4BiFPN-Light结构图Fig.4Structure diagram of BiFPN-Li

39、ght2362023，59（16）能，并判断各个模块之间是否存在影响，选择了消融实验的方式进行验证，实验结果如表1所示。表1中，Trans表示替换主干网络为CSPDarknetTR，ACON表示将主干网络中的激活函数替换为Meta-ACON，BiFPN-L 表示使用 BiFPN-Light 结构替换原网络中的PANet结构。根据消融实验结果Model 2Model 4可知，本文设计的主干网络CSPDarknetTR对网络mAP的提升最大，相较于原算法提高了2.9个百分点。对于主干网络中激活层以及颈部网络的改进也分别使得网络的mAP获得了2.5个百分点以及1.4个百分点的提升。这表明主干网络、激

40、活函数以及颈部网络的改进相较于原算法均可以提升网络的检测精度，增强算法对小目标缺陷信息的提取能力。为更直观地体现新主干网络CSPDarknetTR对网络注意力的影响，引入了一种注意力可视化方法GradCAM19。该方法可在网络验证阶段生成热力图，通过观察热力图的关注区域即可分析网络是否学习到正确的特征信息。图5所示为使用GradCAM方法在缺陷图像验证结果图上绘制的注意力热力图，其中Ground Truth为缺陷图像的真值标签，YOLOv4s为原算法，YOLOv4s+Trans表示更换主干网络为CSPDarknetTR。分析图像可知，得益于 Transformer注意力模块对全局信息的关注，新

41、的主干网络使算法整体的注意力更加集中于缺陷区域，相较于原主干网络更加适用于缺陷检测任务。Model 5Model 7的实验结果证明了本文的各个改进点之间可以较好地融合。对比Model 6与Model 2可知，本文提出的BiFPN-Light结构与新主干网络结合后加快了模型的检测速度，同时提升了检测精度，这说明BiFPN-Light结构可以在有效加强特征提取能力的同时降低模型的复杂度。最终将各个实验改进点融合后mAP提升达5.3个百分点，速度也达到了实时检测的标准。由图6可知，本文提出的改进算法对各类缺陷的检测精度均有提升，特别是对缺陷类别中小目标的检测存在显著的优势。如裂纹（Cr）、杂质（In

42、）、氧化铁皮压入（Rs）等缺陷检测精度得到了较大的提高，其中杂质一类缺陷AP值提升达9.5个百分点。这表明本文对主干网络的设计以及BiFPN-Light特征提取结构的运用，使得网络整体对于小目标的检测能力得到了较为显著的提升。图7通过可视化的对比方式直观地体现出改进算法的优势。由图分析可知，改进后的算法检出了部分原算法无法检出的缺陷。分析斑块（Pa）类图的缺陷检测结果，原算法将图中下半部分的缺陷识别为多处缺陷，而改进后的算法成功将其识别为一处缺陷。缺陷的整体识别表明，改进后的算法相较于原算法拥有更佳的全局信息提取能力。同时观察麻点（Ps）类图的检测结果，改进的网络成功识别出图中除麻点以外的斑块

43、缺陷，且对于亮度较暗且模糊的缺陷识别效果更好，这表明改进后的算法相比原算法拥有更强的泛化能力。3.3算法对比与分析为验证本文算法的可行性和性能优势，与目前广泛运用于缺陷检测领域的部分算法进行了对比。所选用的算法均为检测速度较快的单阶段目标检测算法，数据集使用NEU-DET带钢表面缺陷数据集。同时，具有模型缩放功能的算法均采用了参数量相近的结构。不同算法检测精度、参数量及检测速度的对比如表2所示。由数据可知，改进算法的总体性能表现优于主流的单阶段缺陷检测算法。在麻点和划痕两类缺陷上，本文算法的检测精度优于其他对比算法，且麻点一类缺陷的ModelModel 1Model 2Model 3Model

44、 4Model 5Model 6Model 7TRSD-YOLOTransACONBiFPN-LmAP/%76.979.879.478.380.180.580.082.2FPS64.550.836.661.733.053.235.331.3表1消融实验结果Table 1Ablation experiment resultsGround TruthYOLOv4sYOLOv4s+Trans图5注意力区域分布对比Fig.5Comparison of attention area distributionYOLOv4sTRSD-YOLOScRsPsPaInCr平均精度AP/%020.040.060.0

45、80.0100.0缺陷类别53.047.283.073.596.893.293.690.470.261.096.596.4图6TRSD-YOLO与YOLOv4s检测效果对比Fig.6Comparison of detection effects betweenTRSD-YOLO and YOLOv4s张涛源，等：融合Transformer的带钢缺陷实时检测算法237Computer Engineering and Applications计算机工程与应用2023，59（16）检测精度得到了较大的提升。与同样使用模型缩放的算法如EfficientDet-d0、YOLOv4s、YOLOv5s和YO

46、LOXs对比，本文算法在增加较少参数量的情况下提高了整体检测精度。YOLOXs算法对于氧化铁皮压入缺陷的检测精度较好，分析原因是其使用的无锚结构对于正负样本的处理更加均匀。与SSD、YOLOv3算法做比较，三种算法在各类缺陷检测精度上各有优劣，其中YOLOv3算法的各类缺陷检测精度和平均精度与本文算法较为相近，但参数量是本文算法的近5倍，过高的参数量不利于网络的部署与运用。综上所述，本文改进算法在保证实时性的同时检测精度更高，更加契合于要求实时、高精度的带钢缺陷检测任务。4结束语本文提出了一种融合Transformer的带钢缺陷实时检测算法TRSD-YOLO，实现了对带钢表面缺陷的高精度实时检

47、测。通过改进主干网络和特征融合结构，提高了算法的检测性能。实验表明，本文算法使得小目标缺陷的检测精度得到提升，且检测效果优于主流的单阶段缺陷检测算法，在NEU-DET公开数据集上的mAP达到了82.2%。同时，本文算法在Tesla T4上的FPS为31.3，满足工业场景下带钢缺陷实时检测的要求。未来可以通过对数据集进行处理解决数据不足的问题，也可通过与无锚框算法相结合来解决正负样本不平衡的问题，从而降低计算成本，提高模型训练与预测过程的效率。参考文献：1 HE Y，SONG K，MENG Q，et al.An end-to-end steel sur-face defect detection

48、 approach via fusing multiple hier-archical featuresJ.IEEE Transactions on Instrumentationand Measurement，2019，69（4）：1493-1504.2 罗东亮，蔡雨萱，杨子豪，等.工业缺陷检测深度学习方法综述J.中国科学：信息科学，2022，52（6）：1002-1039.LUO D L，CAI Y X，YANG Z H，et al.Survey on industrialdefect detection with deep learningJ.Science in China：Infor

49、mation Sciences，2022，52：1002-1039.3 郭萌，胡辽林，赵江涛.基于Kirsch和Canny算子的陶瓷碗表面缺陷检测方法J.光学学报，2016，36（9）：27-33.GUO M，HU L L，ZHAO J T.Surface defect detection methodof ceramic bowl based on Kirsch and Canny operatorJ.Acta Optica Sinica，2016，36（9）：27-33.4 LIU K，LI A，WEN X，et al.Steel surface defect detectionusing

50、 GAN and one-class classifierC/2019 25th Inter-national Conference on Automation and Computing，2019：1-6.Ground TruthYOLOv4sTRSD-YOLOCrInPaPsRsSc图7TRSD-YOLO与YOLOv4s检测效果可视化对比Fig.7Visual comparison of detection effects of TRSD-YOLO and YOLOv4sModelSSDEfficientDet-d0YOLOv3YOLOv4sYOLOv5sYOLOXsTRSD-YOLOAP

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 融合 Transformer 带钢缺陷实时检测算法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。