基于CNN-Transformer双流网络的烧结火焰燃烧状态分类.pdf
《基于CNN-Transformer双流网络的烧结火焰燃烧状态分类.pdf》由会员分享,可在线阅读,更多相关《基于CNN-Transformer双流网络的烧结火焰燃烧状态分类.pdf(7页珍藏版)》请在咨信网上搜索。
1、文章编号:1002-2082(2023)05-1030-07基于 CNN-Transformer 双流网络的烧结火焰燃烧状态分类梁秀满,安金铭,曹晓华,曾凯,王福斌,刘贺飞(华北理工大学电气工程学院,河北唐山063210)摘摘 要:要:烧结火焰图像中具有细粒度的局部火焰状态特征信息和复杂多变的全局火焰状态特征信息,而传统的卷积神经网络往往对局部特征更加敏感,难以提取火焰状态的全局特征信息,从而制约烧结火焰特征的表达能力,导致烧结火焰状态分类识别精度低。针对此类问题,提出一种基于CNN-Transformer 的双流网络特征融合分类方法,该方法包含CNN(convolutionalneuraln
2、etworks)流和 Transformer 流两个模块,首先将 CNN 块和 Transformer 块并行设计,CNN 流提取烧结火焰RGB 图像中的局部特征信息,Transformer 流提取烧结火焰 GRAY 图像的全局特征信息;然后,将双流网络分别提取的烧结火焰状态局部特征信息和全局特征信息进行级联交互特征融合;最后,利用 softmax 分类器实现烧结火焰状态的分类。实验结果表明,火焰分类准确率可达 96.20%,与传统卷积神经网络相比提升 6%8%的识别准确率。关键词:关键词:卷积神经网络;Transformer;特征融合;烧结火焰;图像分类中图分类号:TN911.73;TP39
3、1.41文献标志码:ADOI:10.5768/JAO202344.0502003Classification of combustion state of sintering flame based on CNN-Transformerdual-stream networkLIANGXiuman,ANJinming,CAOXiaohua,ZENGKai,WANGFubin,LIUHefei(CollegeofElectricalEngineering,NorthChinaUniversityofScienceandTechnology,Tangshan063210,China)Abstract
4、:Thesinteringflameimagehasfine-grainedlocalflamestatefeatureinformationandcomplexglobalflamestatefeatureinformation.However,thetraditionalconvolutionalneuralnetworkisoftenmoresensitivetolocalfeatures,anditisdifficulttoextracttheglobalfeatureinformationoftheflamestate,whichrestrictstheexpressionabili
5、tyofsinteringflamefeatures,resultinginlowaccuracyintheclassificationandrecognitionofthesinteringflamestate.Inresponsetosuchproblems,adual-streamnetworkfeaturefusionclassificationmethod based on CNN-Transformer was proposed,which includes two modules:convolutional neuralnetworks(CNN)flowandTransforme
6、rflow.Firstly,theCNNblockandtheTransformerblockweredesignedinparallel.TheCNNstreamextractsthelocalfeatureinformationoftheRGBimageofthesinteringflame,andtheTransformerstreamextractstheglobalfeatureinformationoftheGRAYimageofthesinteringflame.Then,thelocalfeatureinformationandtheglobalfeatureinformati
7、onofthesinteringflamestateextractedbythedual-streamnetworkwasfusedusingthecascadeinteractivefeaturefusionmethod.Finally,thesoftmaxclassifierwasusedtoachievetheclassificationofsinteringflamestates.Theexperimentalresultsshowthattheflame classification accuracy can reach 96.20%,which is 6%8%higher than
8、 that of the traditional收稿日期:2022-09-14;修回日期:2022-11-10基金项目:教育部产学研协同育人项目(202002133014);河北省自然科学基金高端钢铁联合研究基金(F2019209323)作者简介:梁秀满(1973),女,副教授,硕士生导师,主要从事检测技术与智能装置研究。E-mail:通信作者:曾凯(1990),男,讲师,博士研究生,主要从事机器视觉研究。E-mail:第44卷第5期应用光学Vol.44No.52023年9月JournalofAppliedOpticsSep.2023convolutionalneuralnetwork.Key
9、 words:convolutionalneuralnetwork;Transformer;featurefusion;sinteringflame;imageclassification引 言优质的铁矿石不仅能节约能源、降低生产成本,而且能减少对环境的污染,烧结作为炼铁过程中的一个重要环节,工艺过程十分复杂,包括焦炭燃料破碎、矿物配料、加水制粒、烧结及筛分等多个环节1。烧结终点是评价烧结成品品质的重要依据,是与烧结矿的产量、成本和能源消耗相关的重要工艺参数。烧结终点的判断依据,主要分为两类:1)分析烧结工艺影响烧结终点的相关参数,包括烧结机台车速度、点火温度、煤气压力、煤气流量、负压、终点温
10、度等,由于工艺的复杂性、计算的偏差,因此通用性不强;2)基于机器视觉的烧结火焰图像状态分类,通过图像处理分析料层与烧结终点的位置关系,该方法具有节省看火工人力资源、自动化程度高等优点。烧结断面火焰图像的燃烧状态能有效判断烧结终点的位置,从而提高优质铁矿的产出率2。因此,准确识别烧结火焰的不同燃烧状态对优化钢铁产业及提高能源利用率都具有重要意义。卷积神经网络在图像分类领域占据着重要的地位,以强大的图像特征提取能力被广泛应用于各种图像分类任务,取得了十分显著的效果。近几年,深度学习已逐步应用在钢铁产业,包括:应用图像分类技术的烧结看火、应用目标检测技术的板坯表面质量检测、应用图像分割技术的带式运输
11、机皮带跑偏检测以及铁水包扒渣识别等3。2012 年,AlexNet 网络4的出现标志着卷积神经网络逐步走向深度学习。ResNet 网络5解决了卷积网络随着卷积层的加深出现的梯度消失、梯度爆炸等网络退化问题,但由于参数过多导致模型训练速度不理想。MobileNet 网络6中的深度可分离网络能够在不影响识别准确率的情况下提升模型运行速度。卷积神经网络善于提取局部信息,然而,烧结火焰图像的大面积火焰区域依赖于全局特征信息,采用卷积神经网络进行图像分类,使得火焰识别任务的效率低,准确率难以提升。近年来,Transformer 在自然语言处理取得了重大的研究进展,其在图像分类也得到了广泛的应用。ViT网
12、络7将 Transformer 应用在图像分类任务上,但无法建模一张图片的局部信息。通过上述分析,本研究结合 CNN 网络善于提取局部特征和 Transformer 更加聚焦于全局特征信息的特点,构建了一种基于 CNN-Transformer 双流网络分类模型,以解决烧结火焰利用单流网络结构提取特征信息不全面的问题,从而提高烧结火焰图像分类识别精度。1 模型架构设计卷积神经网络利用卷积核对图像的像素进行卷积运算,然后得到特征映射矩阵,提取相应位置的局部特征,虽然可以通过扩大感受野捕捉全局特征,但这可能需要更密集但具有破坏性的池化操作,例如 RseNet-185由于中间池化层缺乏细粒度的全局上下
13、文建模,难以获取烧结火焰全局图像信息,从而影响分类识别精度。Transformer 将图像分成固定大小的 patch,然后通过线性变换得到 patchembedding,最后使用注意力机制,编码图像特征矩阵的任意两个位置反映了复杂的空间变换和长距离特征依赖性,构成了全局表示,但受限于计算复杂度,Transformer 需要减小输入分辨率、增大下采样步长,这造成切分 patch 阶段损失图像细节信息,忽略了局部特征细节,降低了背景和前景之间的可辨别性。因此,本文为了提高火焰识别的准确率,在传统卷积神经网络引入 Transformer结构,构建 Transformer 全局特征流,与 CNN 流局
14、部特征流进行特征融合建模双流网络。根 据 烧 结 断 面 火 焰 图 像 的 特 点,RGB(red-green-blue)彩色火焰图像具有更加细粒度的局部特征信息,利用 CNN 流提取彩色图像中更多颜色通道的细粒度局部信息,能够增强与全局信息的交互性。烧结火焰状态分类同时依赖于火焰的全局表观特征,利用 Transorformer 流提取灰度火焰图像中的全局特征信息,在满足全局表观特征信息的需求下,加快了模型运行速度。然后,利用级联交互特征融合模块,将 CNN 流提取的局部特征与 Transformer 流提取的全局特征进行融合,得到具有全局性且细粒度的烧结火焰特征信息。整体网络模型如图 1
15、所示,该网络模型包括:基于ResNet-18 的 CNN 模块、基于 ViT 的 Transformer 模块、特征融合和 softmax 损失函数。应用光学2023,44(5)梁秀满,等:基于 CNN-Transformer 双流网络的烧结火焰燃烧状态分类1031Input2242243PatchPosition19Layer NormLayer NormMLPLinear LayerFeature cascadeMulti-HeadAttention11211264K=7S=2K=3S=2K=3S=2K=3S=1K=1S=1Linear Layer565664Convolutionalla
16、yerMaxPoolinglayerDepthwise convolutionPointwise convolutionFeature interactionResidual blockhT-CLoss functionUnderburned flameNormal flameOverburning flamehC-ThFFSoftmaxTransformer Block图 1 CNN-Transformer 双流网络模型Fig.1 CNN-Transformer two-stream network model1.1 CNN 流充分利用卷积神经网络局部感知的特点,可以有效地提取烧结断面火焰空
17、间局部信息,因此双流网络基于卷积神经网络设计了 CNN 流。综合考虑烧结断面火焰图像的小数据集和网络模型训练效率的问题,选取 ResNet-18 作为 CNN 流的骨干网络结构,并改变网络残差结构为深度可分离卷积结构。深度可分离卷积包含两种卷积结构:深度卷积(DW)和逐点卷积(PW),如图 2 所示。首先,深度卷积对输入特征图的每个通道利用 33 卷积层独立进行卷积运算,得到相同数量的特征;然后,将输出的特征图经过 11 卷积核进行通道数的加权组合。采用深度可分离卷积能够使网络在不影响准确率的前提下明显降低网络计算量,获得更高效的轻量化网络8。N211122N33 conv11 convNDe
18、pthwise convolutionPointwise convolution.N2 1.图 2 深度可分离卷积结构Fig.2 Structure diagram of depth separable convolution1.2 Transformer 流虽然 CNN 流利用深度可分离卷积的 ResNet-18 网络提取了局部特征信息,但未能根据烧结火焰图像大面积火焰区域很好地提取全局特征信息。因此,为了更好地保留烧结断面火焰图像的空间信息,引入 Transformer 流对烧结火焰图像特征提取进行补充。Transformer 结构对图像进行全局 self-attention,得到较好的全
19、局信息特征,适用于有大面积火焰区域的烧结图像,由于烧结火焰图像以位置信息、火焰区面积等特征进行火焰状态的分类,因此将RGB 彩色图像转化为灰度图输入 Transformer 流中,减少参数量提升模型训练速度,同时不损失全局 特 征 信 息。Transformer 是 以 MSA(mutil-headattention)多头注意力为基础的模块,注意力根据输入特征的重要程度进行权重匹配。该结构为多个单头注意力并行,但由于自注意力计算方式的特点,架构推理速度被严重限制。EdgeNeXt9的分割深度转置注意编码器(SDTA)中自注意力计算模块使以往查询矩阵 Q(HWC)、键矩阵 QT(CHW)之间的空
20、间维度计算转变为通道维度上的注意力计算,仅对查询矩阵进行转置,得到CC 矩阵,可以更加有效地编码全局上下文。计算公式如式(1)所示,对图像特征矩阵进行线性变换。Attention(Q,K,V)=Softmax(QTKdk)VMSA(X)=Concat(head1,headh)Woheadi=SAc(XWiQ,XWiK,XWiV)(1)式中:Q 为查询矩阵;K 为键矩阵;V 为值矩阵;SAc为通道 self-attention 计算;Wo为特征融合矩阵。1.3 双流特征融合CNN-Transformer 双流网络将卷积结构与Trans-former 结构的优点有效结合,提高烧结火焰图像的分类识别
21、精度。ZADEHA 提出的 TFN(tensorfusion1032应用光学第44卷第5期network)10特征融合方式将提取的特征进行维度扩增,然后对不同特征求笛卡尔积,不仅计算了两个特征空间的相关性,而且保留了各自的特定特征信息。但该方法增加了特征维度,导致模型参数量增大,模型容易过拟合。低秩多模态融合(LMF,low-rankmultimodalfusion)11利用低秩权重张量和输入张量的并行分解来计算基于张量的融合,解决了 TFN 维度增加的问题,降低了时间复杂度。但 CNN 流和 Transformer 流的特征维度不同,上述特征融合方式无法将全局特征与局部特征精准地相互嵌入,使
22、得识别精度不高。为了更好地融合 CNN 流提取的局部特征与Transformer 流提取的全局特征,加入特征耦合单元(FCU)12和级联的融合策略。FCU 为一种交互性的方式将两路网络获取的特征融合,逐步融合特征图和 patchembedding。这种交互特征融合方式的优点是特征信息交互共享,但两路网络信息交互过程中也会不可避免地损失较多信息。为了解决这个问题,本文提出了一种新的基于级联特征耦合单元(cascadingfeaturecouplingunits,C-FCU)的特征融合模块,可以获取更全局且具体的特征表达。所提出的特征融合模块如图 3 所示。由于CNN 和 Transformer
23、的特征维度不一致,因此利用11 卷积和上下采样来实现维度和通道的对齐。当馈送到 Transformer 分支时,特征图首先需要通过 11 卷积来对齐 patchembedding 的通道数,然后使用下采样模块完成空间维度对齐。FCU 下采样仅采用平均池化来压缩信息,受到文献 13 启发,本文将最大池化与平均池化结合,最大池化能够编码目标的显著性信息,可以更加精准地将 CNN流的分辨性较强的特征信息交互到 Transformer流。当从 Transformerbranch 反馈到 CNN 分支时,patchembedding 需要双线性插值上采样以对齐空间尺度,然后通过 11 卷积将通道维度与
24、CNN 特征图的维度对齐,最后将两路网络输出的特征进行级联操作,即得到了级联交互特征融合图。整体运算过程如下:hCT=1(k11(AvgPool(hC)+MaxPool(hC)+hThTC=2(Interpolate(1(k11(AvgPool(hC)+MaxPool(hC)+hT)k11)+hChFF=hCT,hTC(2)式中:hC表示 CNN 流局部特征图;hT表示 Transfor-mer 流全局特征图;hC-T表示CNN 流交互到Transfor-mer 流的特征图;hT-C表示 Transformer 流交互到CNN 流的特征图;hFF表示融合后的特征图;knn12表示 nn 卷积核
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 CNN Transformer 双流 网络 烧结 火焰 燃烧 状态 分类
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。