分销赏收藏举报申诉 / 9

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 嵌入重评分机制的自然场景文本检测方法_刘艳丽.pdf

嵌入重评分机制的自然场景文本检测方法_刘艳丽.pdf

上传人：自信****多点

文档编号：455417

上传时间：2023-10-11

格式：PDF

页数：9

大小：728.54KB

《嵌入重评分机制的自然场景文本检测方法_刘艳丽.pdf》由会员分享，可在线阅读，更多相关《嵌入重评分机制的自然场景文本检测方法_刘艳丽.pdf（9页珍藏版）》请在咨信网上搜索。

1、基金项目:国家自然科学基金资助项目(61963017);上海市科技计划项目(23010501000);上海市教育科学研究项目(C2022056);教育部人文社会科学研究项目(22YJAZH145)收稿日期:20210409修回日期:20210422第 40 卷第 2 期计算机仿真2023 年 2 月文章编号:10069348(2023)02022808嵌入重评分机制的自然场景文本检测方法刘艳丽1，2，王毅宏2，张恒1，2，程晶晶2(1 上海电机学院电子信息学院，上海 201306;2 华东交通大学信息工程学院，江西南昌 330000)摘要:针对自然场景文本检测中存在大量假阳性问题，提出了嵌入

2、重评分机制的自然场景文本检测方法。引入实例分割网络(Mask CNN)作为基本框架，实现对自然场景中多方向、不规则文本的检测;设计文本掩膜重评分机制，通过预测文本掩膜的质量，将文本的语义类别信息与其对应的掩膜完整性信息相结合，重新评估文本掩膜的质量，精确了文本的候选区域;重新设计损失函数的作用范围。上述模型基于端到端训练，在 ICDA2013、ICDA2015 和 TotalText 等数据集进行性能测试，结果表明，提出的方法有效的提高了字符分割的完整性，较之现有方法明显地提高了文本检测的准确率和召回率，更适合自然场景中的不规则文本的识别。关键词:文本检测;文本识别;自然场景;实例分割中图分类

3、号:TP399文献标识码:BText Detection in Natural Scenes Based on EmbeddedeScore MechanismLIU Yanli1，2，WANG Yihong2，ZHANG Heng1，2，CHENG Jingjing2(1 School of Electronic Information，Shanghai Dianji University，Shanghai 201306，China;2 School of Information Engineering，East China Jiaotong University，Nanchang Jian

4、gxi 330000，China)ABSTACT:In order to solve the problem of false positives in text detection of natural scenes，a text detection meth-od based on embedded rescoring is proposed This paper introduced the instance segmentation network(Mask CNN)as the basic framework to realize multidirectional and irreg

5、ular text detection in natural scenes By predictingthe quality of the text mask，and combining the semantic category information of the text with its corresponding maskintegrity information，the quality of the text mask was re evaluated，and the candidate regions of the text wereprecisely refined The s

6、cope of the loss function was redesigned The model was based on endtoend training，and itsperformance was tested on ICDA2013，ICDA2015 and TotalText datasets The results show that this method effec-tively improves the integrity of character segmentation，significantly improves the accuracy and recall r

7、ate of text de-tection compared with existing methods，and is more suitable for irregular text recognition in natural scenesKEYWODS:Text detection;Text recognition;Natural scene;Instance segmentation1引言自然场景文本是指存在于任意自然情境下的文本内容，例如广告牌、商品包装、商场指示牌等。近年来，基于深度学习的自然场景文本检测与识别方法快速发展，广泛应用于智能机器人、无人驾驶等领域，并成为当下研究热点

8、。与文档图像中的文本不同，自然场景中的文本检测与识别方法主要存在以下三方面挑战:自然场景图像背景复杂、存在类文本目标如窗户或栅栏等;图像本文在字体大小、排列方向、文本稀疏程度等方面有很大的差异性;自然场景图像中文本上存在光照强度不均衡、拍照角度不统一等干扰因素。为了应对上述挑战，大量基于深度学习的自然场景文本识别方法被提出。其中，文本检测与文本识别的研究大部分是分开处理的，文本检测阶段通过训练有素的检测器从原始图像中定位文本区域。现有的文本检测方法主要包括以下822几种:基于区域建议的方法、基于语义分割的方法、基于区域建议和语义分割的方法。如文献 1 提出一种基于笔画角度变换和宽度特征的自然场

9、景文本检测方法;文献 2提出了嵌入注意力机制的自然场景文本检测方法。文献 3 中提出通过语义分割检测多方向场景文本。相比于水平或多方向场景的文本检测，针对自然场景中的任意形状文本的检测方法不多。文本识别阶段的主要任务是对定位好的文字区域进行识别，现有的文本识别技术主要包括以下几种:基于朴素卷积神经网络的方法、基与时序特征分类的方法、基于编码器和解码器的方法。如文献 4 中使用卷积神经网络和循环神经网络对图像特征提取，用连接时序分类(connectionisttemporal classification，CTC)输出识别的序列;文献 5 中提出通过注意力机制的序列到序列模型来识别场景文本。虽然

10、基于文本检测加文本识别的方法看似简单有效，但检测性能无法达到最佳，因为检测和识别阶段是高度相关的:检测质量的高低决定了识别的准确率、识别结果可以给检测阶段提供信息反馈，纠正检测误差。针对该问题，端到端的文本识别框架68 被提出。如文献 9，10等将实例分割应用于文本检测与识别。图 1场景文本检测与识别基于实例分割的方法解决了图像文本形式多样的问题，并且可以从不同干扰因素下定位文本。但是检测效果受到自然场景图像背景复杂、各种噪声的影响，极易导致文本检测出现大量假阳性样本和不完整检测等，如图 1(c)所示。在实例分割任务中，文本掩膜的质量分数被量化为文本分类的置信度。然而真实文本掩膜的质量分数为实

11、例掩膜与其对应的地面真值的 IoU(Intersection over Union)，通常与文本分类分数相关性不强。如图 1(d)所示，实例分割得到精确的文本框以及该文本框对应的高分类置信度 scls，然而文本分类置信度 scls与文本掩膜置信度 smask存在一定差异。使用文本分类的置信度来衡量文本掩膜的质量是不恰当的，因为文本分类置信度仅用于区分文本类别，而不知道文本掩膜的实际质量和完整性，从而在一定程度上导致自然场景文本检测出现大量假阳性样本。为了解决文本检测假阳性问题，本文提出嵌入重评分机制的自然场景文本检测方法。该方法在实例分割网络(MaskCNN)的基础上进行改进，实现了对自然场景

12、中多方向、不规则文本的检测。具体来说，本文方法首先参考实例分割中利用预测的掩膜与地面真值之间的像素级别 IoU 来描述实例分割质量，提出一种学习掩膜交并比网络;其次通过引入重评分机制，将文本语义类别信息与文本掩膜完整性信息相结合，矫正真实文本掩膜质量与文本掩膜置信度之间的偏差，提高文本检测与实例分割的精确性。总之，本文的主要内容如下:1)使用实例分割网络检测自然场景中的文本，兼顾自然场景中规则文本与不规则文本的检测，并通过 FPN 融合深层、浅层 CNN 语义信息，兼顾小尺度文本与大尺度文本的检测，提升召回率。2)设计重评分机制，通过学习预测掩膜的分数，将预测得到的掩膜分数与文本分类分数相结合

13、，重新评估文本掩模的质量，提升实例分割的准确性，保证检测文本的完整，进一步提高召回率。3)在三个文本检测与识别模型常用的数据集 IC-DA2013、ICDA2015 和 TotalText 进行对比试验从而分析、评估本文方法。2嵌入重评分机制的文本检测网络本文方法以 Mask CNN11 为基础网络架构，如图 2 所示。包括:用于提取图像特征的特征金字塔网络 FPN12、用于生成文本区域建议的区域建议网络 PN13、用于边界框回归的 Fast CNN13、用于文本分割和字符分割的 MaskHead 分支、用于字符掩膜评分的重评分模块。2.1CNN 特征提取自然场景中的文本复杂多样，存在不同的尺

14、寸，而不同尺寸的文本对应着不同的特征。低层特征的语义信息较少，但目标位置准确，有利于检测小尺寸的文本框;高层的特征语义信息较为丰富，但是目标位置比较粗略，有利于检测大尺度的文本框。针对该问题，本文在 CNN 特征提取模块使用了 FPN，以 esNet101 为骨干网络，如图 3 所示。对于在单尺度的图像输入，FPN 使用自顶向下的体系结构来融合不同分辨率的特性。图中 C2，C3，C4，C5 分别表示 esNet101中的 conv2_x、conv3_x、conv4_x、conv5_x 层，经过 FPN 处理计算得到特征层集合表示为 fi=f2，f3，f4，f5，f6，计算公式如下所示fi=Co

15、nvi(Ci)+Upsample(fi+1)Convi(Ci)MaxPool(fi1)i 2，3，4i=5i=6(1)其中，Upsample()表示步长为 2 的上采样，MaxPool()表示922图 2本文方法流程图图 3特征金字塔网络最大值池化计算;由于 fi的每一层均会作为 PN 的输入并完成回归与分类计算，所以 Convi()为 11 卷积模板的卷积层，并约束 fi的通道数为 256。通过深层特征的上采样与浅层特征进行融合，在顾及小尺度目标检测的同时，增强对大尺度目标的感知，一定程度上提升文本检测召回率。2.2文本区域建议与边界框回归候选区域生成网络(egion Proposal Ne

16、twork，PN)为后续的 Fast CNN 和 Mask 分支生成文本候选区域(OIs)起到关键的作用。针对自然场景中的文本大小不一致、方向不统一等问题，PN 网络参考 FPN12，根据锚的大小在不同阶段分配锚。具体来说，在 P2，P3，P4，P5，P6 五个阶段把锚的面积分别设置为 322，642，1282，2562，5122 像素，其次参考文献 13，在不同的阶段把锚的长宽比设置为(0.5，1，2)。同样的，本文方法采用 oI Align11 对 PN 生成的边界框的特征进行统一表示，相比于 oI 池化，oI Align 保留了更准确的位置信息，提升了生成掩膜的精度，这对于掩膜分支中的分

17、割任务相当重要。Fast CNN 分支的输入由 oI Align 根据 PN 提出的文本区域建议生成，主要任务包括:边界框分类和边界框回归，其主要目的是为检测到的文本区域提供更加准确的位置信息。Fast CNN 将文本检测视为分类问题，首先利用已经获得的建议区域对应的深度特征，通过全连接层与Softmax 函数计算得到每个区域建议属于什么类别(文本、背景)，输出类别概率向量;其次通过回归文本边界框获取文本区域建议的位置偏移量，用于回归更加精确的文本检测框。3嵌入重评分模块3.1重评分机制一般情况下，经过 PN 生成的得分高的 OIs 中存在大量非文本实例即负样本。因而在对文本、非文本分类的同时

18、，过滤更多的非文本区域，有助于提升正样本的准确性，生成更准确的 OIs。本文方法将文本实例特征与其对应的预测掩膜结合起来学习，提出引入重评分机制的自然场景文本检测方法，如图 4 所示。图 4重评分机制首先，在传统实例分割任务中，虽然输出结果是文本掩032膜，但对掩膜打分却是和文本边界框检测共享的，是针对文本区域分类置信度计算出来的分数，该分数和文本分割掩膜的质量未必一致，用来评价文本掩膜的质量可能出现偏差。文本掩膜的质量由文本预测的掩膜与该文本对应的地面真值之间的像素 IoU 来描述，本文方法设计直接学习文本掩膜IoU 的网络，通过将预测的文本掩膜分数与分类分数相乘，重新评估文本掩模置信度，最

19、终文本掩模置信度将同时考虑文本语义类别信息与文本掩膜的完整性信息。Smask表示文本掩膜置信度，理想的 Smask量化为预测的文本掩膜和其对应的地面真实掩膜的交并比。其中每一个文本掩膜只属于一类，且 Smask对有地面真值的类别只可能有正值，对于其它的类别的得分为零。本文方法将学习任务分为掩膜分类和 MaskIoU 回归，所有对象类别表示为:Smask=SclsSiou。其中 Scls专注于掩膜分类，已在 Mask Head 分支阶段的分类任务中完成，从而专注于掩膜交并比回归的 Siou将作为重评分模块的主要任务。图 5Mask Head 结构图Mask Head 分支主要负责三项任务:文本实

20、例分割、字符实例分割和文本序列识别，如图 5 所示。输入一个大小为 1664 的 OI 特征，连续经过三个卷积层和一个反卷积层后，输出 38 份概率图，包括文本实例概率图、字符(包含字符和数字)实例概率图、字符背景概率图。其中，文本概率图用于预测矩形区域中的文本实例区域，不同的字符实例概率图用于预测矩形区域中不同字符区域;字符背景概率图用于预测矩形区域中非文本区域。为了将预测的字符图解码为字符序列，文本采用像素投票算法首先对背景图进行二值化，其值从 0 到 1，阈值为0.75;然后根据二值化图中的连接区域获得所有字符区域;计算所有字符图每个区域的平均值;平均值可以看作是区域的字符分类概率，它可

21、以看作字符的置信度，平均值最大的字符类将分配给该区域。具体过程如算法 1 所示。然后，根据英语的书写习惯将所有字符从左到右进行分组。算法 1像素投票输入:背景 B，字符图 C1)在二值化背景图上生成连通域 2)S3)for r in do4)score5)for c in C do6)mean=Average(c r)7)scorescores+mean8)SS+Argmax(scores)9)return S3.2掩膜预测重评分模块的主要任务是将预测的文本掩膜与其对应真实文本掩膜之间 IoU 进行回归。如图 6 所示。图 6特征融合模块在重评分模块中，将 oI Align 层的特征和预测的掩

22、膜连接起来作为该网络的输入。在连接时，使用卷积核大小为2、步长 2 的最大池化层使得预测的掩膜与 oI 相同的空间尺寸。对于地面真值类，网络中只选择返回 MaskIoU，而不是所有的类。重评分网络由 4 个卷积层和 3 个全连接层组成。对于 4 个卷积层，将所有卷积层的核大小设置为 3，滤波器个数设置为 256。对于 3 个全连接层，前两个全连接层的输出设置为 1024，最后一个全连接层的输出设置为类别的数量。3.3文本标签的生成本文方法在训练阶段输入图像的地面真值由以下部分组成:P=p1，p2pm 和 C=C1=(cc1，cl1)，C2=(cc2，cl2)，Cn=(ccn，cln)，其中 p

23、i表示的是文本实例区域，由一个多边形框构成。ccj和 clj分别代表了字符像素对应的位置与类别。首先用最小的水平矩形来覆盖多边形，然后遵循Faster CNN 中的方法为 PN 网络和 Fast CNN 网络生成目标。其中地面真值 P、C 以及 PN 提供的建议区域为Mask Head 生成两种类型的目标:用于预测矩形区域中文本实例区域的文本概率图和用于预测矩形区域中不同字符区域的字符实例概率图。给定建议区域 r，Mask Head 参考文献 13 的匹配机制获得最佳水平矩形，相应的文本实例区域和字符区域进一步得到。然后将匹配的多边形和字符框移动并调整大小来对齐建议区域，目标地图的的计算根据

24、以下公式Bx=(Bx0 min(rx)W/(max(rx)min(rx)(2)By=(By0 min(ry)H/(max(ry)min(ry)(3)其中(Bx，By)和(Bx0，By0)分别表示的是更新后的多边形顶点和原始多边形顶点。(rx，ry)是提议 r 的顶点。之后，在初始化为零的遮罩上规范化多边形并填充多边形区域值为 1。字符实例的生成如下:通过固定字符边界框的中心点并将其边缩短到原始边的四分之一来缩小所有字符边界框，将缩小字符边界框中的像素值设置为其相应的类别索引，将缩小字符边界框之外的像素值设置为 0，如果没有字符边框批注，则132所有值都设置为1。3.4损失函数本文方法是多任务的

25、，依据 Mask CNN 中损失函数的设计思路，本文方法加入全局文本实例分割损失和字符分割损失。损失函数如下L=Lrpn+1Lcls+2Lbox+3Lglobal+4Lchar(4)其中 Lrpn、Lcls和 Lbox是 PN 和 Fast CNN 的损失函数，Lglobal和 Lchar参考文献 9，表示实例分割损失和字符分割损失。Lglobal=1NNn=1 yn log(S(xn)+(1 yn)log(1 S(xn)(5)对于 Lglobal，N 表示全局文本地图的像素总数，yn(yn(0，1)代表像素标签，xn表示输出 N 的像素。Lchar=1NNn=1WnT1t=0Yn，tlog(

26、eXN，tT1k=0eXn，k)(6)wi=1ifYi，0=1Nneg/(N Nneg)otherwise(7)对于 Lchar，T 表示类别数，N 表示每张地图的像素数，其中输出的地图 X 可以看作为一个 NT 的矩阵。其中 Y 对应于地面真值 X，权重 W 用于平衡字符类和背景类的损失值，Nneg表示背景像素的数量，其权重可以通过式(7)计算得出。4实验与分析了验证本文方法的性能，该模型在 ICDA2013、IC-DA2015 和 TotalText 三个数据集上进行实验。其中 IC-DA2013 和 ICDA2015 是主要的线性文本检测与识别数据集，Totaltext 为弯曲文本检测

27、与识别的重要数据集。4.1数据集1)SynthText:该数据集是一个合成的数据集，包括大约80K 张图片。在数据集中大部分文本实例都是多方向的。2)ICDA2013:该数据集是 2013 年 ICDA 举行的稳健阅读竞赛(robust reading competition，简称 C)所提供的公共数据集。数据集的图片包含路标、书籍封面和广告牌等清晰的场景文本(focused scene text)图片，专注于水平文本的检测与识别，如图 7 所示。3)ICDA2015:该数据集是 2015 年 ICDA 在 C 中增加的偶然场景文本(incidental scene text)阅读竞赛提供的公

28、共数据集，数据集是由 Google Glass 在未聚焦的情况下随机拍摄的街头或者商场图片，旨在帮助文本检测和识别模型提高泛化性能，如图 8 所示。4)TotalText:弯曲的文字是一个很容易被忽视的问题，TotalText 是一个针对曲线文本检测的公开数据集，数据集图片中包含商业标识、标志入口等现实生活场景中的弯曲文本。该与 ICDA 数据集不同，该数据集有大量面向曲线的文本和多方向的文本，如图 9 所示。4.2实验指标目前文本检测性能主要包括 3 个评价指标:召回率(e-call，)、准确率(Precision，P)和综合评价指标(FMeasure，F)，如式(8)(9)(10)。此外，

29、利用表征检测速度的参数即每秒传输帧数(Frames Per Second，FPS)作为效率参考标准。P=TPTP+FP(8)=TPTP+FN(9)F=2 P P+(10)其中 TP、FP 和 FN 分别代表的是命中框的数量、错误框的数量和遗漏框的数量。文本识别的评估方式分为两类:EndtoEnd 和 Word Spotting，其中 EndtoEnd 表示检测并识别图像中的文本，Word Spotting 表示检测并识别词汇表单词(将图像中包含非法字符的文本视为无关文本)。与文本识别类似，端到端的文本识别任务提供 3 种不同的约束词汇表:1)Strong(S):每张图像的强语境词汇表(100

30、个单词)，包括图像中的所有单词以及从训练或测试集的其余部分选择的干扰词。2)Weak(W):包括训练和测试集中所有单词的弱语境词汇表。3)Generic(G):源自 Jaderberg 等人的数据集，大约 90k单词的通用词汇表。4.3实验细节文本识别的训练方法大多使用两个不同的模块来训练样本即文本检测与文本识别，或者使用交替训练的方式。本文方法的所有子网络都以端到端的形式训练。整个训练步骤包括两步:在 SynthText 数据集中与训练和在真实单词数据集中调整。在训练阶中，首先采用小批量迭代法训练，minibatch 设置为 8，并且将所有输入图像的短边调整为 800 像素，同时保持图片方向

31、不变。其中 PN 和 Fast CNN 的 batchsize 设置为 256 和 512，每张图片正负样本比设为 1:3。在 MaskHead 分支中 batchsize 设置为 16。在微调阶段，由于缺乏真实样本，因此采用了数据扩充和多尺度训练技术，具体地说，对于数据增强，将输入的图片随机旋转到某个角度范围，然后加入一些其它增强技巧，如随机修改色调、亮度、对比度等。在多尺度训练中，输入图像的短边随机调整为三个尺度600、800、1000。另外，使用额外的 1162 张来自文献 14的用于字符检测的图像作为训练样本，minibatch 保持为 8，且在每一个 mini batch 中，

32、Synth Text、ICDA2013、ICDA2015、TotalText 和额外图像的不同数据集的采样比例分别设置为 4:1:1:1:1。使用 SGD 优化本文模型，在预训练阶段，训练模型进行180k 次迭代，初始学习率为 0.005，在120k 次迭代时，学习率衰减到十分之一。在微调阶段，初始学习率设置为 0.001，在60k 迭代时降低到 0.0001，微调过程在 80k 迭代结束。4.4实验分析在测试阶段，针对自然场景中的水平文本、多方向文本232图 7ICDA2013 数据集图 8ICDA2015 数据集和不规则文本，本文方法分别在 ICDA2013、ICDA2015 和Total

33、Text 数据集上评估它的性能，用准确率(P)、召回率()、综合评价指标(F)和检测时间(帧/秒，FPS)评价该方法的性能，S、W、G 分别表示 Strong、Weak、Generic 三种不同的约束词汇表，最优结果用黑体加粗标注，实验结果如图(1012)所示。1)水平文本针对水平文本，实验中输入图像的短边长度统一设置为图 9Totaltext 数据集1000 像素，其次将本文模型与 5 个检测器进行比较，包括Textboxes15、Deep TextSpotter16、Li et al17、Mask TextSpot-ter9，Text Perceptron7，对比结果如表 1 和表 2 所

34、示。即使只是在单尺度上检测，本文方法在准确率、召回率和综合评价三个指标下均优于之前提出的一些方法7，9，达到了 95.1%，90.9%，92.9%。尤其在召回率方面，超出最先进的检测模型 Mask TextSpotter1.4%，在保证检测效果的同时，本文方法的时间损耗同样良好，FPS 为 2.9。如表 2 所示，在数据集 ICDA2013 的识别测试中，基于 EndtoEnd的评估方式下，本文方法的文本识别性能在 Strong、Weak、Generic 三种不同的约束词汇表中均优于其它先进的模型，综合指标分别达到了 94.8%、92.1%、88.7%。2)多方向文本针对多方向文本，实验中输入

35、图像的短边长度统一设置为1600 像素，其次将本文方法与 5 个检测器进行比较，包括TextSpotter18、StradVision19、Deep TextSpotter16、Mask TextSpot-ter9、Text Perceptron7，对比结果如表1 和表3 所示。表 1在数据集 ICDA2013 和 ICDA2015 上文本检测结果MethodICDA2013SpeedICDA2015SpeedPFFPSPFFPSCTPN93.083.088.07.174.052.061.0Seglink87.783.085.320.673.176.875SSTD89.086.088.07.7

36、80.073.077.07.7Wordsup93.387.590.32.079.377.078.22.0He et al92.081.086.01.182.080.081.01.1Mask TextSpotter94.889.592.13.086.687.387.03.1Text Perceptron94.788.991.710.392.382.587.18.8本文方法95.190.992.92.989.090.689.82.9表 2ICDA2013 数据集评估结果MethodWord SpottingEndtoEndSpeedSWGSWGFPSTextboxes93.992.085.991.

37、689.783.91.0Deep TextSpotter9289818986779Li et al94.292.488.291.189.884.61.1MethodWord SpottingEndtoEndSpeedSWGSWGFPSMask TextSpotter92.791.787.793.391.388.23.1Text Perceptron94.994.088.591.490.785.8本文方法94.693.188.294.292.188.72.8332表 3ICDA2015 数据集评估结果MethodWord SpottingEndtoEndSpeedSWGSWGFPSTextSpo

38、tter37.021.016.035.020.016.01.0Deep TextSpotter9289818986779StradVision45.943.7Mask TextSpotter82.478.173.683.077.773.53.0Text Perceptron84.179.467.980.576.665.1本文方法83.178.674.684.678.974.62.8表 4TotalText 数据集上的评估结果MethodDetectionEndtoEndPFFChNg et al40.043.036.0Liao et al62.145.552.548.9Mask TextSpo

39、tter69.055.061.371.8CharNet88.085.086.569.2TextDragon85.675.780.374.8本文方法72.364.268.075.8图 10ICDA 2013 数据集上的文本检测与识别可视化结果图 11ICDA 2015 数据集上的文本检测与识别的可视化结果在召回率方面，本文方法比最先进的 Mask TextSpotter 的87.3%还有所提升，召回率达到了 90.6%。如表 3 所示，在数据集 ICDA2015 的识别测试中，基于 EndtoEnd 的评估方式下，指标比之前的网络都要优秀，综合指标达到了图 12TotalText 数据集上文本检

40、测与识别的可视化结果84.6%，78.9%和 74.6%。3)不规则文本针对不规则文本，实验中输入图像的短边长度统一设置为 1000 像素，然后将本文方法与 5 个检测器进行比较，包括ChNg et al20、Liao et al15、Mask TextSpotter9，Char Net21，TextDragon8，对比结果如表 4 所示。结果表明本文方法在不规则文本的检测与识别上表现更优异，准确率、召回率、平均调和都有显著性提高。虽然本文方法在检测方面的性能次于最先进的文本检测模型 CharNet21，但是文中网络的综合指标是表现最好的网路之一，基于端到端的评估方式下，相较于 CharNet

41、21 提高了 6.6%，比表现最优的TextDragon8 高出 1%，综合指标达到了 75.8%。4.5消融实验对比分析为了说明本文方法设计的每个模块对最终结果是否为正相关，本文将进行消融实验加以验证。本文以 Mask CNN 为基础框架，引入 FPN 以满足适合各尺度文本检测要求;针对自然场景中文本内容检测不完整、假阳性等问题，提出重评分机制。消融实验在 TotalText 数据集进行，从 Mask CNN 开始逐步融合各个模块并计算出对应的准确率、召回率与 F值，实验结果如表 5 所示。实验过程其它参数均保持一致。通过表 5 发现，FPN 网路中加入 P6 层，使本文方法召回率和 F 值

42、分别提高了 3.2%和 1.6%，但准确率下降了2.3%，经分析由于 P6 层的增加扩大了模型的感受野，使得更多较大的文本得到检测，但 P6 也会相对应地增加干扰区域导致准确率下降;最后完整地使用 FPN 网络与特征融合网络，通过重新评估文本掩膜的质量使得文本区域减少各种因素的干扰。准确率、召回率和 F 值分别达到 72.3%、64.2%和 68.0%。表 5消融实验结果方法准确率召回率F 值Mask CNN66.353.559.2Mask CNN+FPN71.258.863.6Mask CNN+FPN*68.96265.2Mask CNN+FPN*+重评分模块72.364.268.0注:*表

43、示 FPN 中包含 P6 层，加粗为最优解432检测结果与对比图如图 13 所示，可以发现本文方法可以完整地检测到文本区域，且未出现漏检;对比其它模型的检测结果，本文检测到的文本区域更加精确、更加贴合实际的文本边界。综上所述，可见文本检测准确度的提高主要来源于更精确的定位输出，即使用 FPN 结构使得小文本得到一定程度检测，而文本检测召回率的提高主要来源于对字符掩膜的评分，正确的评分带来更加准确的文本检测。图 13消融实验可视化结果5结束语本文提出了嵌入重评分机制的自然场景文本检测方法，一个用于自然场景文本检测与识别的端到端网络。它在复杂多变的背景下可以高效的检测出文本并分割出字符。与近些提出

44、的文本识别模型相比，本文模型训练简单，识别速率快，且有能力检测与识别自然场景中的不规则文本。在展开的实验中，该模型在水平文本、多方向文本、不规则文本等数据集上都取得了优异的表现，提高了识别准确率的同时还大幅度降低了假阳性，在文本检测和端到端识别方面展现出了高效率与鲁棒性。在未来的工作中，将尝试优化该模型来提高文本检测的速率以实现在现实生活中的应用，其次，针对现阶段该模型只能够处理英文文本，探索中文文本的识别也是一项重要的工作。参考文献:1陈硕，郑建彬，詹恩奇，等基于笔画角度变换和宽度特征的自然场景文本检测J 计算机应用研究 2019，36(4):12701274 2杨锶齐，易尧华，汤梓伟，等

45、嵌入注意力机制的自然场景文本检测方法J 计算机工程与应用，2020:112 3Zhang Z，Zhang C，Shen W，et al Multioriented text detectionwith fully convolutional networksC Proceedings of the IEEEConference on Computer Vision and Pattern ecognition LasVegas，NV，USA，2016:41594167 4Shi B，Bai X，Yao C An endtoend trainable neural network forima

46、gebased sequence recognition and its application to scene textrecognitionJ IEEE transactions on pattern analysis and machineintelligence 2016，39(11):229823045Shi B，Wang X，Lyu P，et al obust scene text recognition with au-tomatic rectificationC The IEEE Conference on Computer Visionand Pattern ecognit

47、ion Las Vegas，NV，USA，2016:41684176 6Zheng Y，Li Q，Liu J，et al A cascaded method for text detection innatural scene imagesJ Neurocomputing 2017，238:307315 7Qiao L，Tang S，Cheng Z，et al Text perceptron:Towards endtoend arbitrary shaped text spottingJ arXiv preprint arXiv:2002.06820，2020 8Feng W，He W，Yin

48、 F，et al Textdragon:An end to endframework for arbitrary shaped text spottingC Proceedings of theIEEE International Conference on Computer Vision，2019，2019:90769085 9Liao M，Lu p，He M et al Mask textspotter:An endtoend train-able neural network for spotting text with arbitrary shapesJ IEEE Transactio

49、ns on Pattern Analysis and Machine Intelligence，2019 doi:10.1109/TPAMI 2019.2937086 10Xie E，Zang Y，Shao S，et al Scene text detection with supervisedpyramid context networkC The 33rd AAAI Conference on Arti-ficial Intelligence，Honolulu，Hawaii，USA，2019:90389045 11He K，Gkioxari G，Dollr P，et al Mask rcn

50、nJ The IEEETransactions on Pattern Analysis and Machine Intelligence，2020:386397 12Lin T，Dollr P，Girshick，et al Feature pyramid networks forobject detectionC The IEEE Conference on Computer Visionand Pattern ecognition，Honolulu，HI，USA，2017:21172125 13en S，He K，Girshick，et al Faster rcnn:Towards real

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 嵌入评分机制自然场景文本检测方法艳丽

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。