基于深度学习的干扰环境下火焰识别研究_高伟.pdf
《基于深度学习的干扰环境下火焰识别研究_高伟.pdf》由会员分享,可在线阅读,更多相关《基于深度学习的干扰环境下火焰识别研究_高伟.pdf(10页珍藏版)》请在咨信网上搜索。
1、文章编号:1009-6094(2023)06-1889-10基于深度学习的干扰环境下火焰识别研究高 伟,孙 意,李艳超,周永浩(大连理工大学化工学院精细化工国家重点实验室,辽宁大连 116024)摘 要:传统的火焰识别方法依赖于提取火焰的物理特征,存在精确度差、应用范围窄等问题。通过对比已有的线性网络、谷歌网络和残差网络的性能,确定残差网络的误差最小,准确度最高,并选取残差网络构建火焰特征识别网络DarkNet53。自行构建数据集,并将干扰对象设置为灯光、太阳和火焰图标,将三者与火焰图像一起构成数据集。基于YOLO v3 算法在上述干扰环境下对火焰进行识别和网路性能测试。结果表明,基于深度学习
2、的火焰识别方法能够准确区分火焰和类似火焰的干扰因素,实现了在多干扰环境下对火焰的准确有效识别。仅使用普通的广角摄像机就可以对开阔空间中的火焰进行准确识别,降低了应用成本,此外,该方法还适用于多种场景,提高了方法的适用范围。关键词:安全工程技术科学;火焰识别;火焰数据集;卷积神经网络;残差网络中图分类号:X932 文献标志码:ADOI:10.13637/j.issn.1009-6094.2021.2417收稿日期:20220104作者简介:高伟,教授,从事安全科学与工程研究,gaoweidlut 。基金项目:国家自然科学基金优秀青年基金项目(51922025)表 1 20162020 我国火灾事
3、故统计数据1Table 1 Statistics on fire accidents in my country from 2016 to 2020年份火灾次数/万次死亡人数受伤人数直接财产损失/亿元201631.21 5821 06537.20201728.11 39088136.00201823.71 40779836.75201923.31 33583736.12202025.21 18377540.090 引 言火的诞生对于人类社会的进步和发展至关重要。然而,在生产和生活过程中,因自然或人为因素导致的火灾和爆炸事故屡见不鲜。表 11展示了20162020 年我国火灾事故统计数据,频繁发
4、生的事故对人民生命和财产安全造成了严重危害。为发展高效的事故预防和减灾措施,快速并准确的火焰识别技术不可或缺。火灾发生时往往伴随着发光、发热和产生烟雾等现象,传统的火焰探测器基于以上物理特性来判断火灾是否发生。这种检测方法对环境和空间依赖性大,实时性和可靠性差2,由于其探测原理存在固有的缺陷,并未得到广泛的应用。随着计算机技术的发展,依据火焰视觉特征识别火焰的图像型火焰检测技术逐渐发展起来。火焰的视觉特征包括静态特征和动态特征。其中,静态特征主要包括火焰的光谱特征和几何特征等。Wirth 等3于2010 年提出一种基于改进的 YCbCr 色彩空间直方图反射投影算法进行火焰识别。严云洋等4通过
5、RGB 彩色空间建立了火焰的彩色模型,并提出了基于连通区域面积阈值化的单像素宽度目标轮廓特征的抽取方法。为了减少只依据静态特征进行识别的误报率,结合火焰的动态特征,可以进一步提高火焰识别的准确率。Ollero 等5依据频闪、火焰面积扩张等特性提出了利用图像相关性进行火灾检测的方法,但是该方法过于理想化和规律化,导致方法的应变力、适应性较差。近些年,神经网络技术在计算机视觉领域得到了飞速发展,被广泛应用于人脸识别、图像分类、物体识别等方向。线性神经网络、谷歌神经网络和残差网络都是常见的目标识别网络,得到了广泛的应用。宋卫国等6使用线性神经网络与传统方法进行了对比,验证了线性神经网络更高的特征提取
6、性能。周宇晨等7在 2021 年将线性神经网络对甲烷分层旋流火焰进行振荡预报,预报精度达到 90%以上。朱永红等8使用改进的线性神经网络实现了对陶瓷窖内火焰的识别,识别准确率达到 96.5%。陈钦柱9881第 23 卷第 6 期2023 年 6 月 安全 与 环 境 学 报Journal of Safety and Environment Vol.23 No.6Jun.,2023等9引入 Inception 模块,构建了 GoogleNet,加深了网络深度,对视频中的火焰进行了识别,具有很高的计算效率和检测准确度。庞殊杨等10使用残差网络对转炉火焰的 8 种状态进行分类识别,识别的准确率高达
7、98.73%,实现了高精度识别的应用需求。喻立春等11使用以残差网络为主干的 Mask RCNN 算法,相比于原先的算法,改进算法的识别定位精度更高,检测准确率提升超过 5%,实现了对火焰的识别。线性神经网络出现时间早、研究成熟、改进模型众多,因 此 应 用 广 泛。剩 余 二 者(GoogleNet 和ResNet)出现时间较晚,目前对常见目标诸如人脸、汽车、行人和建筑物等目标的识别较多,而对与安全工程相关的火焰、火灾等目标的识别较少。因此本文将通过对比选择上述性能最优的网络来搭建火焰特征提取网络,并且使用自行构建的数据集完成对火焰的检测与识别任务。1 神经网络介绍1.1 线性神经网络的结构
8、人工神经网络(Artificial Neural Networks,ANN)是基于生物学中神经网络的基本原理,模拟人脑神经系统对复杂信息处理机制的一种数学模型。该模型以并行分布的处理能力、高容错性、智能化等优点,受到各学科领域的关注。图 2 LeNet 结构Fig.2 Structure of LeNet图 1 人工神经网络结构Fig.1 Structure of artificial neural networkxi+1=WTxi(1)人工神经网络以处理向量和数组为主,其结构简图如图 1 所示,主要由 3 部分构成,分别为输入层、隐藏层和输出层。网络中的每 1 层都是 1 个一维向量,通过式
9、(1)所示的线性运算关系进行层与层之间的连接。其中,xi和 xi+1表示网络第 i 和第i+1 层向量,W 表示权值矩阵,xij表示第 i 层的第 j个节点。1.2 卷积神经网络的结构卷积神经网络(Convolutional Neural Networks,CNN)是在人工神经网络的基础上发展起来的一种新型的网络结构。20 世纪 90 年代,Lecun 等12提出了 LeNet 模型,其结构如图 213所示。该网络在ANN 线性运算的基础上引入了卷积运算模块和反向传播算法(Back Propagation),确立了卷积神经网络的现代结构,使得 CNN 能够对图像这种特殊的数据结构进行处理。Le
10、Net5 中首次使用了卷积操作,主要用于提取图像中的局部特征信息。为了突出卷积后图像主要的特征信息,对图像进行下采样(或池化,DownPooling)处理。全连接(Full Connection)将所有经过卷积操作得到的多个表征局部特征的向量重新拼接成一个含有所有特征信息的向量。最后通过多次线性运算输出结果进行后续的损失函数的计算和参数优化过程。LeNet 确立了现代 CNN 最基本的结构:卷积+下采样(池化)+全连接。在 LeNet 网 络 之 后,诞 生 了 极 具 突 破 性 的AlexNet 网络。AlexNet 引入了激活函数,激活函数将非线性因素引入到神经网络中,使得神经网络可以逼
11、近任意一种非线性函数14,使网络的性能得到了极大的提升。自此,卷积神经网络结构已趋于完整。2 常见神经网络性能对比2.1 MNIST 数据集MNIST 数据集是由美国国家标准与技术研究所0981 Vol.23 No.6 安全 与 环 境 学 报 第 23 卷第 6 期(National Institute of Standards and Technology 或NIST)创建的,是深度学习中最常用和最简单的数据集15。MNIST 数据集是由数万张 28 28 像素的手写数字(0 9)图像组成。该数据集包含训练集和测试集 2 部分,分别包含 60 000 张训练图像和10 000 张测试图像。
12、2.2 网络中的运算模块线性网络(LinearNet)、谷歌网络(GoogleNet)和残差网络(ResNet)是 3 种常用的网络结构,由于其快速、高效的运算和处理能力得到了科研人员的青睐,被广泛应用于人工智能领域。本文使用 MNIST数据集训练这 3 种已有的网络进行网络性能的研究。图 3 LinearNet 结构Fig.3 Structure of LinearNet2.2.1 LinearNet 结构LinearNet 包含全连接、线性运算、激活和反向传播过程。它首先通过全连接将 MNIST 数据集中的28 28 的图像重整成长度为 784 的一维向量,随后通过如图 3(a)所示的线性
13、运算和激活运算不断地对向量进行处理,最终将长度为 10 的向量作为网络输出对图像上的数字进行分类处理,该网络结构如图 3(b)所示。该网络的结构比较简单,处理对象为简单的一维向量,对图像中目标的特征提起能力相对较弱。2.2.2 GoogleNet 结构GoogleNet 在 2014 年 ImageNet 图像分类中获得了冠军,性能优越。GoogleNet 模型的创新之处在于引入了 Inception 模块,这是一种网中网(Network inNetwork)结构,即网络中的节点也是一个网络。Inception 模块是一种具有局部优良拓扑结构的网络,如图 4(a)所示。该模块对输入图像执行 4
14、 次不同的卷积或池化操作,最后将获得的多个特征拼接在一起,作为一个节点的输出。在常规的卷积神经网络中添加 Inception 模块,就构成了本研究使用的如图 4(b)所示的 GoogleNet。Inception 模块的优势在于增加了网络深度,同时减少了不必要的参数量。Inception 模块在每一个节点处同时采用1 1、3 3和 5 5 的 3 种卷积核而非只有 5 5 的卷积核来处理图像,使网络在结构上变得更“宽”而不是更“深”,减少了不必要参数量,降低了运算成本。1 1 卷积降低运算成本的原理如图 5 所示。假设当前图像具有192 个通道,尺寸为28 28,为保持图像大小不变,在卷积时对
15、图像进行步长为 2 的填充处理,再通过 5 5 卷积运算将原图像通道降为32。只有 5 5 卷积的情况,如图 5(a)所示,其参数量超为 1.2 亿个。当引入 1 1 卷积后,如图 5(b)所示,同样对含有 192 个通道的图像进行步长为 2的填充处理,首先通过一个 1 1 的卷积操作降低其通道数,再用 5 5 的卷积操作将其通道数扩大至32,其运算量只有 0.12 亿。前后参数量相差 10 倍。因此,对图像进行 1 1 的卷积运算降低其通道数可以显著降低运算量。3 3 卷积减少参数量的原理与之类似。2.2.3 ResNet 结构残差网络(ResNet)是一种新型网络结构,用于加深网络,提高网
16、络的性能,它是为了解决网络深度加深导致网络性能下降的问题而诞生的。ResNet 中的残差模块建立了层与层之间的跨层连接,是网络的核心结构。试验表明,随着网络层级的加深,模型精度确实得到了提高,但是当网络层级超过一定数目时,模型精度大幅下降,反而低于浅层网络的识别精度。网络层数加深降低了网络性能是因为在优化过1981 2023 年 6 月 高 伟,等:基于深度学习的干扰环境下火焰识别研究 Jun.,2023程中出现了梯度消失的现象,使得优化过程停滞或图 4 GoogleNet 结构Fig.4 Structure of GoogleNet图 5 2 种卷积运算对比Fig.5 Comparison
17、of two convolution operations无法收敛,从而使得网络性能退化。而残差模块能够很好地解决上述问题。模块结构如图 6(a)所示,残差模块包含 2 种映射,一种是恒等映射(图 6(a)中折线部分);另一种是残差映射(图 6(a)中除折线以外的部分)16。一个残差块的形式如式(2)所示。H(x)=F(x,W)+x(2)图 6 ResNet 结构Fig.6 Structure of ResNet式中x、H(x)分别表示输入和输出。F(x,W)称为残差项,表示对输入 x进行了 2 次卷积和 1 次激活操作后的输出值。在引入残差块之前,希望得到H(x)=x,即恒等映射,网络需要学
18、习恒等映射的参数来实现权值的更新。但是在残差网络中,只需令F(x,W)=H(x)-x=0(3)2981 Vol.23 No.6 安全 与 环 境 学 报 第 23 卷第 6 期这样就把训练目标从训练恒等变换的参数转变为训练式(3)的参数。训练目标转换使得训练过程更简单,因为每一层网络的参数初始化都趋于 0,故可使网络收敛更快。如图 6(b)所示为含有残差块的 ResNet 结构。ResNet 在下采样与下一次卷积之间添加一个残差块,加深网络深度,提高了网络性能,大大提高了网络运算效率。2.3 网络的性能对比经过前面的讨论,得知 3 种神经网络的性能参数如表 2 所示。2 种卷积神经网络(Goo
19、gleNet 与ResNet)的最大、最小损失函数均小于线性网络(LinearNet)。在 GoogleNet 和 ResNet 对 比 中,ResNet 的最大损失函数和最小损失函数均最小,即ResNet 损失函数的最大值小于 GoogleNet 损失函数的最 大 值;且 ResNet 损 失 函 数 的 最 小 值 小 于GoogleNet 损失函数的最小值,这表明 ResNet 的收敛性更好。此外,ResNet 的最大测试精度与平均测试精度均大于 GoogleNet,这表明 ResNet 提取目标特征的能力最强。如图 7 所示,在整个的训练过程中,整体上 3 种网络的精度由大到小为 Re
20、sNet、GoogleNet、LinearNet。综上所述,使用 ResNet 组成目标的特征识别网络是合理的。表 2 3 种神经网络性能参数对比Table 2 Comparison of three neural network performance parameters网络名称最大损失函数最小损失函数平均测试精度/%最大测试精度/%LinearNet2.2520.02296.6998.05GoogleNet0.6620.01498.6198.94ResNet0.4530.01098.8099.06图 7 3 种网络的精度与训练周期的关系图Fig.7 Relationship betwee
21、n the accuracy of the threenetworks and the training period3 火焰识别试验及分析3.1 DarkNet 网络YOLO v3 的主干特征提取网络是 DarkNet53,其主要作用是提取训练图像的特征17,其结构如图 8所示。该网络结合了残差网络和 DarkNet19,采用1 1 和 3 3 的卷积层和残差模块相连接的思想,由卷积层、批量归一化(Batch Normalization)层和LeakyReLU 层共同组成。DarkNet53 网络由 6 个卷积层和 5 个残差块组成,而且所包含的 5 个残差块运算重复次数不同,分别为 1、2
22、、8、8 和 4。输入的图像张量为 3 416 416,首先经过一次 3 3 卷积运算改变通道数,输出图像尺寸变为32 416 416,再通过3 3 卷积运算扩大通道数、提取主要特征,尺寸变为 64 208 208;随后进入第一个残差块进行运算,该残差块包含 2 次卷积运算和 1 次残差运算,首先对图像进行1 1 卷积运算,缩小通道数以减少参数量,图像变为 32 208 208,再用 3 3 的卷积核扩大通道数,变为64 208 208,上述所有的运算只重复 1 次,其图 8 DarkNet53 网络结构Fig.8 DarkNet53 structure3981 2023 年 6 月 高 伟,
23、等:基于深度学习的干扰环境下火焰识别研究 Jun.,2023他的残差块进行相似的运算,最终图像尺寸变为 13 13 1024。随后,YOLO v3 依据 DarkNet53 提取的 3个特征张量进行后续的特征提取和目标的识别。特征识别网络能够通过提取火焰的视觉特征来对火焰进行识别。火焰的视觉特征主要包括火焰图像压缩后得到的像素的分布以及像素值的大小。特征神经网络对一张图片进行处理过后,图片像素会被压缩然后生成一个较小的张量,该张量中包含了网络提取的火焰特征,通过对比该特征与标签值的差距大小来判断图像中是否包含火焰。3.2 数据集的建立数据集的质量很大程度上会影响目标检测模型的精度。目前没有公认
24、的体量大而且权威的火焰数据集,本文中采用的数据集火焰图像均来自百度、谷歌等网站上的火焰图像以及从火灾视频上截取的帧,含有干扰因素的图像也来自于网络。本研究使用的数据集主要可分为3 大类,如图9所示。1)普通火焰:包括蜡烛、电器火焰等中小型火焰,其主要特点是火焰形状较为规则和稳定,火焰烟雾较少。图 9 部分火焰数据集Fig.9 Part of the flame data set2)火灾火焰:主要包括森林火灾、草原火灾、汽车火灾、房屋火灾等大型火焰,其主要特点为火焰形态不规则,颜色不一而且伴有浓烟。3)含干扰因素的图像:灯光、太阳和试验室中的火焰图标等是试验中常见的干扰源。部分灯光发出的黄光在视
25、觉上与火焰光相类似,因此可能引起火焰识别系统的误报;此外,太阳光也会发出与火焰类似的黄色光或红色光,同样也会干扰系统对火焰的识别;火焰标志由于其在形态上与火焰相似,也是一种常见的干扰因素。以上 3 种干扰因素会干扰火焰识别系统,将干扰因素错误识别为火焰,引起如图 10 所示的误报。建立干扰数据集是为了使网络能够对火焰和与其具有相似特征的目标进行准确区分。本算法将火焰和干扰因素(灯光、太阳和火焰标志)同时进行标注,标签分别为 fire(火焰)、sun(太阳)、fire_sign(火焰图标)和 light(灯光),对火焰的标注如如图 11 所示。图像的数量分别为 80 张、40张、40 张和40
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 深度 学习 干扰 环境 火焰 识别 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。