嵌入重评分机制的自然场景文本检测方法_刘艳丽.pdf
《嵌入重评分机制的自然场景文本检测方法_刘艳丽.pdf》由会员分享,可在线阅读,更多相关《嵌入重评分机制的自然场景文本检测方法_刘艳丽.pdf(9页珍藏版)》请在咨信网上搜索。
1、基金项目:国家自然科学基金资助项目(61963017);上海市科技计划项目(23010501000);上海市教育科学研究项目(C2022056);教育部人文社会科学研究项目(22YJAZH145)收稿日期:20210409修回日期:20210422第 40 卷第 2 期计算机仿真2023 年 2 月文章编号:10069348(2023)02022808嵌入重评分机制的自然场景文本检测方法刘艳丽1,2,王毅宏2,张恒1,2,程晶晶2(1 上海电机学院电子信息学院,上海 201306;2 华东交通大学信息工程学院,江西 南昌 330000)摘要:针对自然场景文本检测中存在大量假阳性问题,提出了嵌入
2、重评分机制的自然场景文本检测方法。引入实例分割网络(Mask CNN)作为基本框架,实现对自然场景中多方向、不规则文本的检测;设计文本掩膜重评分机制,通过预测文本掩膜的质量,将文本的语义类别信息与其对应的掩膜完整性信息相结合,重新评估文本掩膜的质量,精确了文本的候选区域;重新设计损失函数的作用范围。上述模型基于端到端训练,在 ICDA2013、ICDA2015 和 TotalText 等数据集进行性能测试,结果表明,提出的方法有效的提高了字符分割的完整性,较之现有方法明显地提高了文本检测的准确率和召回率,更适合自然场景中的不规则文本的识别。关键词:文本检测;文本识别;自然场景;实例分割中图分类
3、号:TP399文献标识码:BText Detection in Natural Scenes Based on EmbeddedeScore MechanismLIU Yanli1,2,WANG Yihong2,ZHANG Heng1,2,CHENG Jingjing2(1 School of Electronic Information,Shanghai Dianji University,Shanghai 201306,China;2 School of Information Engineering,East China Jiaotong University,Nanchang Jian
4、gxi 330000,China)ABSTACT:In order to solve the problem of false positives in text detection of natural scenes,a text detection meth-od based on embedded rescoring is proposed This paper introduced the instance segmentation network(Mask CNN)as the basic framework to realize multidirectional and irreg
5、ular text detection in natural scenes By predictingthe quality of the text mask,and combining the semantic category information of the text with its corresponding maskintegrity information,the quality of the text mask was re evaluated,and the candidate regions of the text wereprecisely refined The s
6、cope of the loss function was redesigned The model was based on endtoend training,and itsperformance was tested on ICDA2013,ICDA2015 and TotalText datasets The results show that this method effec-tively improves the integrity of character segmentation,significantly improves the accuracy and recall r
7、ate of text de-tection compared with existing methods,and is more suitable for irregular text recognition in natural scenesKEYWODS:Text detection;Text recognition;Natural scene;Instance segmentation1引言自然场景文本是指存在于任意自然情境下的文本内容,例如广告牌、商品包装、商场指示牌等。近年来,基于深度学习的自然场景文本检测与识别方法快速发展,广泛应用于智能机器人、无人驾驶等领域,并成为当下研究热点
8、。与文档图像中的文本不同,自然场景中的文本检测与识别方法主要存在以下三方面挑战:自然场景图像背景复杂、存在类文本目标如窗户或栅栏等;图像本文在字体大小、排列方向、文本稀疏程度等方面有很大的差异性;自然场景图像中文本上存在光照强度不均衡、拍照角度不统一等干扰因素。为了应对上述挑战,大量基于深度学习的自然场景文本识别方法被提出。其中,文本检测与文本识别的研究大部分是分开处理的,文本检测阶段通过训练有素的检测器从原始图像中定位文本区域。现有的文本检测方法主要包括以下822几种:基于区域建议的方法、基于语义分割的方法、基于区域建议和语义分割的方法。如文献 1 提出一种基于笔画角度变换和宽度特征的自然场
9、景文本检测方法;文献 2提出了嵌入注意力机制的自然场景文本检测方法。文献 3 中提出通过语义分割检测多方向场景文本。相比于水平或多方向场景的文本检测,针对自然场景中的任意形状文本的检测方法不多。文本识别阶段的主要任务是对定位好的文字区域进行识别,现有的文本识别技术主要包括以下几种:基于朴素卷积神经网络的方法、基与时序特征分类的方法、基于编码器和解码器的方法。如文献 4 中使用卷积神经网络和循环神经网络对图像特征提取,用连接时序分类(connectionisttemporal classification,CTC)输出识别的序列;文献 5 中提出通过注意力机制的序列到序列模型来识别场景文本。虽然
10、基于文本检测加文本识别的方法看似简单有效,但检测性能无法达到最佳,因为检测和识别阶段是高度相关的:检测质量的高低决定了识别的准确率、识别结果可以给检测阶段提供信息反馈,纠正检测误差。针对该问题,端到端的文本识别框架68 被提出。如文献 9,10等将实例分割应用于文本检测与识别。图 1场景文本检测与识别基于实例分割的方法解决了图像文本形式多样的问题,并且可以从不同干扰因素下定位文本。但是检测效果受到自然场景图像背景复杂、各种噪声的影响,极易导致文本检测出现大量假阳性样本和不完整检测等,如图 1(c)所示。在实例分割任务中,文本掩膜的质量分数被量化为文本分类的置信度。然而真实文本掩膜的质量分数为实
11、例掩膜与其对应的地面真值的 IoU(Intersection over Union),通常与文本分类分数相关性不强。如图 1(d)所示,实例分割得到精确的文本框以及该文本框对应的高分类置信度 scls,然而文本分类置信度 scls与文本掩膜置信度 smask存在一定差异。使用文本分类的置信度来衡量文本掩膜的质量是不恰当的,因为文本分类置信度仅用于区分文本类别,而不知道文本掩膜的实际质量和完整性,从而在一定程度上导致自然场景文本检测出现大量假阳性样本。为了解决文本检测假阳性问题,本文提出嵌入重评分机制的自然场景文本检测方法。该方法在实例分割网络(MaskCNN)的基础上进行改进,实现了对自然场景
12、中多方向、不规则文本的检测。具体来说,本文方法首先参考实例分割中利用预测的掩膜与地面真值之间的像素级别 IoU 来描述实例分割质量,提出一种学习掩膜交并比网络;其次通过引入重评分机制,将文本语义类别信息与文本掩膜完整性信息相结合,矫正真实文本掩膜质量与文本掩膜置信度之间的偏差,提高文本检测与实例分割的精确性。总之,本文的主要内容如下:1)使用实例分割网络检测自然场景中的文本,兼顾自然场景中规则文本与不规则文本的检测,并通过 FPN 融合深层、浅层 CNN 语义信息,兼顾小尺度文本与大尺度文本的检测,提升召回率。2)设计重评分机制,通过学习预测掩膜的分数,将预测得到的掩膜分数与文本分类分数相结合
13、,重新评估文本掩模的质量,提升实例分割的准确性,保证检测文本的完整,进一步提高召回率。3)在三个文本检测与识别模型常用的数据集 IC-DA2013、ICDA2015 和 TotalText 进行对比试验从而分析、评估本文方法。2嵌入重评分机制的文本检测网络本文方法以 Mask CNN11 为基础网络架构,如图 2 所示。包括:用于提取图像特征的特征金字塔网络 FPN12、用于生成文本区域建议的区域建议网络 PN13、用于边界框回归的 Fast CNN13、用于文本分割和字符分割的 MaskHead 分支、用于字符掩膜评分的重评分模块。2.1CNN 特征提取自然场景中的文本复杂多样,存在不同的尺
14、寸,而不同尺寸的文本对应着不同的特征。低层特征的语义信息较少,但目标位置准确,有利于检测小尺寸的文本框;高层的特征语义信息较为丰富,但是目标位置比较粗略,有利于检测大尺度的文本框。针对该问题,本文在 CNN 特征提取模块使用了 FPN,以 esNet101 为骨干网络,如图 3 所示。对于在单尺度的图像输入,FPN 使用自顶向下的体系结构来融合不同分辨率的特性。图中 C2,C3,C4,C5 分别表示 esNet101中的 conv2_x、conv3_x、conv4_x、conv5_x 层,经过 FPN 处理计算得到特征层集合表示为 fi=f2,f3,f4,f5,f6,计算公式如下所示fi=Co
15、nvi(Ci)+Upsample(fi+1)Convi(Ci)MaxPool(fi1)i 2,3,4i=5i=6(1)其中,Upsample()表示步长为 2 的上采样,MaxPool()表示922图 2本文方法流程图图 3特征金字塔网络最大值池化计算;由于 fi的每一层均会作为 PN 的输入并完成回归与分类计算,所以 Convi()为 11 卷积模板的卷积层,并约束 fi的通道数为 256。通过深层特征的上采样与浅层特征进行融合,在顾及小尺度目标检测的同时,增强对大尺度目标的感知,一定程度上提升文本检测召回率。2.2文本区域建议与边界框回归候选区域生成网络(egion Proposal Ne
16、twork,PN)为后续的 Fast CNN 和 Mask 分支生成文本候选区域(OIs)起到关键的作用。针对自然场景中的文本大小不一致、方向不统一等问题,PN 网络参考 FPN12,根据锚的大小在不同阶段分配锚。具体来说,在 P2,P3,P4,P5,P6 五个阶段把锚的面积分别设置为 322,642,1282,2562,5122 像素,其次参考文献 13,在不同的阶段把锚的长宽比设置为(0.5,1,2)。同样的,本文方法采用 oI Align11 对 PN 生成的边界框的特征进行统一表示,相比于 oI 池化,oI Align 保留了更准确的位置信息,提升了生成掩膜的精度,这对于掩膜分支中的分
17、割任务相当重要。Fast CNN 分支的输入由 oI Align 根据 PN 提出的文本区域建议生成,主要任务包括:边界框分类和边界框回归,其主要目的是为检测到的文本区域提供更加准确的位置信息。Fast CNN 将文本检测视为分类问题,首先利用已经获得的建议区域对应的深度特征,通过全连接层与Softmax 函数计算得到每个区域建议属于什么类别(文本、背景),输出类别概率向量;其次通过回归文本边界框获取文本区域建议的位置偏移量,用于回归更加精确的文本检测框。3嵌入重评分模块3.1重评分机制一般情况下,经过 PN 生成的得分高的 OIs 中存在大量非文本实例即负样本。因而在对文本、非文本分类的同时
18、,过滤更多的非文本区域,有助于提升正样本的准确性,生成更准确的 OIs。本文方法将文本实例特征与其对应的预测掩膜结合起来学习,提出引入重评分机制的自然场景文本检测方法,如图 4 所示。图 4重评分机制首先,在传统实例分割任务中,虽然输出结果是文本掩032膜,但对掩膜打分却是和文本边界框检测共享的,是针对文本区域分类置信度计算出来的分数,该分数和文本分割掩膜的质量未必一致,用来评价文本掩膜的质量可能出现偏差。文本掩膜的质量由文本预测的掩膜与该文本对应的地面真值之间的像素 IoU 来描述,本文方法设计直接学习文本掩膜IoU 的网络,通过将预测的文本掩膜分数与分类分数相乘,重新评估文本掩模置信度,最
19、终文本掩模置信度将同时考虑文本语义类别信息与文本掩膜的完整性信息。Smask表示文本掩膜置信度,理想的 Smask量化为预测的文本掩膜和其对应的地面真实掩膜的交并比。其中每一个文本掩膜只属于一类,且 Smask对有地面真值的类别只可能有正值,对于其它的类别的得分为零。本文方法将学习任务分为掩膜分类和 MaskIoU 回归,所有对象类别表示为:Smask=SclsSiou。其中 Scls专注于掩膜分类,已在 Mask Head 分支阶段的分类任务中完成,从而专注于掩膜交并比回归的 Siou将作为重评分模块的主要任务。图 5Mask Head 结构图Mask Head 分支主要负责三项任务:文本实
20、例分割、字符实例分割和文本序列识别,如图 5 所示。输入一个大小为 1664 的 OI 特征,连续经过三个卷积层和一个反卷积层后,输出 38 份概率图,包括文本实例概率图、字符(包含字符和数字)实例概率图、字符背景概率图。其中,文本概率图用于预测矩形区域中的文本实例区域,不同的字符实例概率图用于预测矩形区域中不同字符区域;字符背景概率图用于预测矩形区域中非文本区域。为了将预测的字符图解码为字符序列,文本采用像素投票算法首先对背景图进行二值化,其值从 0 到 1,阈值为0.75;然后根据二值化图中的连接区域获得所有字符区域;计算所有字符图每个区域的平均值;平均值可以看作是区域的字符分类概率,它可
21、以看作字符的置信度,平均值最大的字符类将分配给该区域。具体过程如算法 1 所示。然后,根据英语的书写习惯将所有字符从左到右进行分组。算法 1像素投票输入:背景 B,字符图 C1)在二值化背景图上生成连通域 2)S3)for r in do4)score5)for c in C do6)mean=Average(c r)7)scorescores+mean8)SS+Argmax(scores)9)return S3.2掩膜预测重评分模块的主要任务是将预测的文本掩膜与其对应真实文本掩膜之间 IoU 进行回归。如图 6 所示。图 6特征融合模块在重评分模块中,将 oI Align 层的特征和预测的掩
22、膜连接起来作为该网络的输入。在连接时,使用卷积核大小为2、步长 2 的最大池化层使得预测的掩膜与 oI 相同的空间尺寸。对于地面真值类,网络中只选择返回 MaskIoU,而不是所有的类。重评分网络由 4 个卷积层和 3 个全连接层组成。对于 4 个卷积层,将所有卷积层的核大小设置为 3,滤波器个数设置为 256。对于 3 个全连接层,前两个全连接层的输出设置为 1024,最后一个全连接层的输出设置为类别的数量。3.3文本标签的生成本文方法在训练阶段输入图像的地面真值由以下部分组成:P=p1,p2pm 和 C=C1=(cc1,cl1),C2=(cc2,cl2),Cn=(ccn,cln),其中 p
23、i表示的是文本实例区域,由一个多边形框构成。ccj和 clj分别代表了字符像素对应的位置与类别。首先用最小的水平矩形来覆盖多边形,然后遵循Faster CNN 中的方法为 PN 网络和 Fast CNN 网络生成目标。其中地面真值 P、C 以及 PN 提供的建议区域为Mask Head 生成两种类型的目标:用于预测矩形区域中文本实例区域的文本概率图和用于预测矩形区域中不同字符区域的字符实例概率图。给定建议区域 r,Mask Head 参考文献 13 的匹配机制获得最佳水平矩形,相应的文本实例区域和字符区域进一步得到。然后将匹配的多边形和字符框移动并调整大小来对齐建议区域,目标地图的 的计算根据
24、以下公式Bx=(Bx0 min(rx)W/(max(rx)min(rx)(2)By=(By0 min(ry)H/(max(ry)min(ry)(3)其中(Bx,By)和(Bx0,By0)分别表示的是更新后的多边形顶点和原始多边形顶点。(rx,ry)是提议 r 的顶点。之后,在初始化为零的遮罩上规范化多边形并填充多边形区域值为 1。字符实例的生成如下:通过固定字符边界框的中心点并将其边缩短到原始边的四分之一来缩小所有字符边界框,将缩小字符边界框中的像素值设置为其相应的类别索引,将缩小字符边界框之外的像素值设置为 0,如果没有字符边框批注,则132所有值都设置为1。3.4损失函数本文方法是多任务的
25、,依据 Mask CNN 中损失函数的设计思路,本文方法加入全局文本实例分割损失和字符分割损失。损失函数如下L=Lrpn+1Lcls+2Lbox+3Lglobal+4Lchar(4)其中 Lrpn、Lcls和 Lbox是 PN 和 Fast CNN 的损失函数,Lglobal和 Lchar参考文献 9,表示实例分割损失和字符分割损失。Lglobal=1NNn=1 yn log(S(xn)+(1 yn)log(1 S(xn)(5)对于 Lglobal,N 表示全局文本地图的像素总数,yn(yn(0,1)代表像素标签,xn表示输出 N 的像素。Lchar=1NNn=1WnT1t=0Yn,tlog(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 嵌入 评分 机制 自然 场景 文本 检测 方法 艳丽
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。