改进YOLOv5的复杂环境道路目标检测方法.pdf
《改进YOLOv5的复杂环境道路目标检测方法.pdf》由会员分享,可在线阅读,更多相关《改进YOLOv5的复杂环境道路目标检测方法.pdf(11页珍藏版)》请在咨信网上搜索。
1、Computer Engineering and Applications计算机工程与应用2023,59(16)道路系统是交通运输的重要组成部分。公安部数据显示,截至 2022 年底,全国机动车保有量达 4.17 亿辆1。机动车保有量的增加给道路带来了巨大的压力,交通事故也随之增多。除了天气和车辆本身机械故障等客观因素外,传统汽车驾驶要求驾驶员时刻观察周围道路信息,过度疲劳、走神容易造成交通事故。随着人改进YOLOv5的复杂环境道路目标检测方法袁磊,唐海,陈彦蓉,高刃,吴文欢湖北汽车工业学院 电气与信息工程学院,湖北 十堰 442002摘要:为解决复杂环境下道路目标检测任务中由于目标尺度变化多
2、样、密集遮挡以及光照不均匀等导致的漏检问题,提出了一种基于 YOLOv5 的道路目标检测改进方法 CTC-YOLO(contextual transformer and convolutionalblock attention module based on YOLOv5)。针对小目标,改进网络检测头结构,增加多尺度目标检测层,提高小目标检测精度。为了充分利用输入的上下文信息,在特征提取部分引入上下文变换模块(contextual transformer networks,CoTNet),设计了CoT3模块,引导动态注意力矩阵学习,提高视觉表征能力。在Neck部分的C3模块集成卷积块注意力模型
3、(convolutional block attention module,CBAM),以在各种复杂的场景中找到注意力区域。为进一步验证CTC-YOLO方法,采取了一些有用的策略,如模型集成位置选择和对比其他注意力机制。实验结果表明,在公开数据集KITTI、Cityscapes以及BDD100K上mAP0.5分别达到89.6%、46.1%和57.0%,相较基线模型分别提高3.1个百分点、2.0个百分点和1.2个百分点。与其他模型相比,检测效率更高,有效改善了复杂环境中的目标检测问题。关键词:复杂环境;目标检测;YOLOv5;注意力机制文献标志码:A中图分类号:TP391doi:10.3778/
4、j.issn.1002-8331.2304-0251Improved YOLOv5 for Road Target Detection in Complex EnvironmentsYUAN Lei,TANG Hai,CHEN Yanrong,GAO Ren,WU WenhuanSchool of Electrical and Information Engineering,Hubei University ofAutomotive Technology,Shiyan,Hubei 442002,ChinaAbstract:To solve the problem of missed detec
5、tion in road object detection tasks in complex environments due to diversetarget scale changes,dense occlusion and uneven lighting,an improved method for road object detection CTC-YOLO(con-text transformer and convolutional block attention module based on YOLOv5)is proposed.Firstly,for small targets
6、,improve the network detection head structure,add a multi-scale target detection layer,and improve the accuracy of smalltarget detection.Secondly,in order to fully utilize the input contextual information,introduce a context transformer net-works(CoTNet)module in the feature extraction section,and d
7、esign a CoT3 module to guide dynamic attention matrixlearning and improve visual representation ability.Finally,the C3 module in the Neck section integrates the convolutionalblock attention module(CBAM)to locate attention regions in complex scenes.To further validate the CTC-YOLO methodproposed in t
8、his paper,some useful strategies are adopted,such as model integration position selection and comparisonwith other attention mechanisms.The experimental results show that the mAP0.5 on the publicly available datasets KITTI,Cityscapes and BDD100K reaches 89.6%,46.1%and 57.0%,respectively,which are 3.
9、1,2.0 and 1.2 percentage pointshigher than the baseline model,respectively.Compared with other models,the detection efficiency is higher and effectivelyimproves the problem of object detection in complex environments.Key words:complex environment;target detection;YOLOv5;attentional mechanism基金项目:国家自
10、然科学基金(52072116,52075107);湖北省自然科学基金(2022CFB53B);湖北省教育厅科学技术研究项目(Q20201801);湖北汽车工业学院博士科研启动基金(BK202004)。作者简介:袁磊(1995),男,硕士研究生,CCF会员,研究领域为图像处理和目标检测,E-mail:madness_;唐海(1975),通信作者,男,博士,副教授,硕士生导师,CCF会员,研究领域为图像处理和知识工程;陈彦蓉(1998),女,硕士研究生,CCF会员,研究领域为网络通信和图像处理。收稿日期:2023-04-19修回日期:2023-06-07文章编号:1002-8331(2023)16
11、-0212-112122023,59(16)工智能的发展,自动驾驶技术的研究也越来越成熟。汽车在行驶过程中,与前车未保持足够距离是导致追尾事故的主要原因。因此,为了预留充足的反应时间和制动距离,及时且准确地检测出前方道路环境的目标,对于汽车自动驾驶有着重要的意义。但是城市建设在不断提高道路的复杂程度,例如道路上行走的人、骑行的人和远处的机动车,这些模糊不清的小目标在图像上占有的位置小,只能提供有限的特征信息;行驶的车辆和行人之间相互遮挡以及障碍物遮挡;光照条件不佳、夜间环境以及路缘背景干扰等。这些问题给道路目标的准确检测造成了诸多困难,容易出现误检漏检,从而对目标检测算法的可靠性提出了更高要求
12、。近年来,随着计算机硬件、人工智能技术的提高和计算机视觉技术的发展,研究基于深度学习的道路目标检测方法对智能驾驶领域具有重要意义。目前计算机和深度学习技术正处于快速发展阶段,而深度学习具有多种目标检测算法和目标跟踪算法,因此在车辆辅助驾驶系统中得到了广泛的应用。在当前深度学习方面,广泛应用的目标检测算法主要分为两类:一是单阶段目标检测算法。该算法不需要区域候选网络模块,可以利用网络直接生成目标位置、类别等相关信息,并在目标帧中包含回归问题。在定位问题中,该算法属于端到端目标检测。代表性算法模型有SSD(single shot multiboxdetector)2、YOLO(you only l
13、ook once)3-9系列算法。二是两阶段目标检测算法。该算法可以将目标检测分为两个阶段,第一阶段计算样本候选框,第二阶段主要针对检测网络。在此条件下,对探测目标候选区域的位置和类别进行了分类和识别。代表性算法模型有R-CNN(regions with convolutional neural networkfeatures)10、Fast R-CNN11、Faster R-CNN12和Mask R-CNN13。YOLO与R-CNN系列算法相比,简单高效,适合工程应用。已有研究中,更多深度学习的任务都引入了注意力机制14-15,并取得了良好的表现。Zhang等16为降低遮挡对车辆目标的误检率
14、,提出了一种基于改进YOLOv5网络的不同交通场景下车辆检测的改进方法。该方法利用 Flip-Mosaic算法增强了对小目标的感知能力,但适用的道路场景比较单一。Li17提出了一种基于YOLOv5网络的目标检测算法,用于检测车辆或人行横道等道路物体,主要针对小目标,引入了注意机制,改进后的网络模型能够更准确有效地在空中识别和定位道路目标。Jin等18在真实道路场景目标检测任务中,提出一种改进的YOLOv3方法。增加检测层,使用K-means聚类算法替代原网络中的K-means聚类算法,改进后的方法平均检测精度较高。江德港等19提出一种基于EfficientNet的无人机车辆目标检测算法,mAP
15、达到了92.6%,适用于无人机场景下的车辆检测任务。刘英璇等20提出一种基于Faster R-CNN的道路交通标志多目标实时检测方法,准确率虽达到71%以上,但检测时间过长。这些算法都取得了不错的成果,但难以在精度和速度之间实现良好的平衡。针对上述问题,本文提出了CTC-YOLO(contextual transformer and convolutionalblock attention module based on YOLOv5)模型。本文工作如下:(1)通过在特征金字塔中增加160160尺寸的检测层,增强对小目标的学习能力,弥补了检测目标的尺寸范围小的缺点;(2)设计 CoT3模块,将
16、 CoTNet21集成到特征提取器中,以获取丰富的全局空间图像特征;(3)为在特定大覆盖图像中找到注意区域,在特征提取网络C3模块中引入卷积块注意力模型(CBAM)22,解决训练过程中的梯度消失问题;(4)为了尽可能模拟真实道路条件,在具有挑战性的Geiger等23构建的KITTI基准测试数据集、Cordts等24构建的城市街道场景数据集Cityscapes以及Yu等25构建的BDD100K数据集上对本文所提方法进行了验证。1基准模型YOLO系列的开发通过采用深度学习方法带来了目标检测技术的变化。目前,YOLO系列包括YOLOv1、YOLOv2、YOLOv3、YOLOv4、YOLOv5、YOL
17、Ov6 和最新推出的YOLOv7。YOLOv5是对YOLOv4的改进,该模型更快、更准确,模型参数更少,更容易适应车辆中嵌入的各种设备,在YOLO系列模型中较为成熟且稳定。YOLOv5依据模型的宽度和深度,分为五种不同尺寸的模型,即YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5n和YOLOv5x,其中较小的模型具有较少的参数、较低的精度和更快的速度。为了更好地满足交通场景中目标检测的实时性要求,本文选择YOLOv5 6.0版本中的YOLOv5s模型作为基准模型进行改进,如图1所示,体系结构分为四部分,分别是Input、Backbone、Neck和Output。Input部分为输入
18、图像,在这一部分通常进行图像增强预处理,将输入图像按网络的输入大小进行缩放,并进行归一化操作。在训练阶段采用Mosaic数据增强。Backbone部分主要分为CBS、C3和SPPF模块。使用Conv(k=6,s=2,p=2)代替原来的Focus层;C3模块是CSPBottleneck模块,具有3倍卷积;末尾的SPPF指定一个卷积核,每次池化后的输出会成为下一个池化的输入,比原来的SPP模块更快。YOLOv5的Neck部分沿用了FPN(feature pyramidnetwork)+PANet(path aggregation network)26的结构。FPN采用自顶向下的侧边连接,PANet
19、在FPN的基础上添加由下而上的路线传输位置信息,弥补了位置信息,加强了特征融合能力。Output 部分为输出部分,分别在 8080、4040 和2020的尺度下进行预测。袁磊,等:改进YOLOv5的复杂环境道路目标检测方法213Computer Engineering and Applications计算机工程与应用2023,59(16)2模型的优化为了提升基于深度学习的道路目标检测模型的性能,本文以YOLOv5为基准模型,设计了融合注意力机制的道路目标检测模型CTC-YOLO。改进后的模型如图2所示。2.1多尺度的改进原始的 YOLOv5 为三尺度检测,在 Backbone 部分步幅为2的整
20、个下采样过程中,可以获取更多的语义信CBSCBSCBSCBSCBSSPPF3C36C39C3CBSUpsampleC3_FCBSConvConvConvConcatConcatNeckHead8080Small target 4040Medium target 2020Large target CBSConcatCBSUpsampleConcatCBS=ConvBatchNormSiLUBottleneckCBS2=Bottleneck_F=CBSBottleneck_FConcatCBSCBSConcatCBSMaxPoolingMaxPoolingMaxPoolingSPPF=C3=CBS
21、BottleneckConcatCBSCBSBackbone3C3C3_FC3_FC3_FC3_FCBS2图1YOLOv5结构图Fig.1Structure diagram of YOLOv5CBSCBSCBSCBSCBSSPPF3CoT36CoT39CoT33CoT3CBSUpsampleC3_FCBSUpsampleCBSUpsampleCBSCBSCBSC3CBAMConvConvConvConvConcatConcatConcatConcatConcatConcatNeckHead160160X-Small target 8080Small target 4040Medium targ
22、et 2020Large target BackboneC3_FC3_FC3_FC3_F图2改进后的结构图Fig.2Improved structure diagram2142023,59(16)息,但会丢失大量的详细特征信息,尤其是微小尺寸物体的语义特征。Zhu等27在无人机捕获场景中,针对小目标任务增加一个更小尺度,得到了明显效果。受文献27启发,本文新增一个浅层检测输出到Output部分来关注较小的对象,将其相关特征融合层添加到Neck部分。利用跳跃连接,将附加的特征融合结构添加到Neck部分,以融合Backbone部分中高级语义特征图和浅层中更详细的位置信息,增强对微小目标的检测能力。
23、尽管额外的检测尺度将增加网络参数和 GFLOPs(Giga floating-point operations per second)计算量,但提高了对微小物体的检测能力,位置信息相对丰富,更加适用于目标尺寸变化范围大的复杂道路场景。图2中Output部分的红色虚线内是增加的160160大小的尺度,Neck部分的红色虚线内是该尺度相对应的特征融合部分。2.2改进C3模块Transformer28是一种主要基于自注意力机制的深度神经网络,最初应用于自然语言处理领域。受到Transformer强大的表示能力的启发,研究人员提出将Transformer扩展到计算机视觉任务,来提高语义的可分辨性。图3
24、为传统自注意力机制和本文的CoT模块。在传统的自注意力机制中,所有的query-key关系都是隔离的,其中丰富的上下文信息并没有被探索。针对背景复杂道路,为合并全局信息的检测提供更高层次的检测特征,可用一个 Transformer类型的模块来改善这一缺陷。CoT模块可以将上下文信息挖掘和自注意集成在同一个体系结构中。它可以促进自注意力学习,同时有效地利用相邻像素的上下文信息,增强输出特征映射的表示能力。传统多头注意力机制的计算如图4(a)所示。给定一个2D特征图X(XRHWC)(H为高,W为宽,C为通道数)。keys、queries和values通过Q=XWq,K=XWk,V=XWv计算。嵌入
25、矩阵(Wq,Wk,Wv)采用11的卷积实现。得到K和Q局部关系矩阵R(RRHW(kkCh),表达式如下:R=KQ(1)其中,Ch是头的数目,是局部矩阵乘法。利用位置信息对局部关系矩阵R进行丰富:R=R+PQ(2)其中,PRkkCk表示相对位置信息。使用softmax得到注意力矩阵A=Softmax(R),再根据V学习得到局部注意力矩阵,表达式如下:Y=VA(3)CoT模块的原理如图4(b)所示。给定一个大小为HWC的2D特征图X(XRHWC)。在CoT模块中key采用了kk的卷积操作进行编码以获取图像局部静态上下文信息,这里可以看作在局部信息上进行了静态的建模。然后将图像局部上下文信息与Q进行
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 改进 YOLOv5 复杂 环境 道路 目标 检测 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。