![点击分享此内容可以赚币 分享](/master/images/share_but.png)
基于端到端的多任务商标分卡模型.pdf
《基于端到端的多任务商标分卡模型.pdf》由会员分享,可在线阅读,更多相关《基于端到端的多任务商标分卡模型.pdf(11页珍藏版)》请在咨信网上搜索。
1、基于端到端的多任务商标分卡模型张贞,苏海,余松森(华南师范大学软件学院,佛山528225)通信作者:余松森,E-mail:摘要:目前商标分卡处理方法是先进行文本检测再进行区域分类,最后对不同的区域进行拆分组合形成商标分卡.这种分步式的处理耗时长,并且因为误差的叠加会导致最终结果准确率下降.针对这一问题,本文提出了多任务的网络模型 TextCls,通过设计多任务学习模型来提升商标分卡的检测和分类模块的推理速度和精确率.该模型包含一个特征提取网络,以及文本检测和区域分类两个任务分支.其中,文本检测分支采用分割网络学习像素分类图,然后使用像素聚合获得文本框,像素分类图主要是学习文本像素和背景像素的信
2、息;区域分类分支对区域特征细分为中文、英文和图形,着重学习不同类型区域的特征.两个分支通过共享特征提取网络,像素信息和区域特征相互促进学习,最终两个任务的精确率得以提升.为了弥补商标图像的文本检测数据集的缺失以及验证 TextCls 的有效性,本文还收集并标注了一个由 2000 张商标图像构成的文本检测数据集 trademark_text(https:/ 95.16%,调和平均值 F1score 达 92.12%;区域分类分支的 F1score 也由 97.09%提升至 98.18%.关键词:商标分卡;端到端;文本检测;多任务学习;数据集引用格式:张贞,苏海,余松森.基于端到端的多任务商标分卡
3、模型.计算机系统应用,2023,32(8):105115.http:/www.c-s- Multi-task Trademark Sub-card ModelZHANGZhen-Yan,SUHai,YUSong-Sen(SchoolofSoftware,SouthChinaNormalUniversity,Foshan528225,China)Abstract:Thecurrenttrademarksub-cardprocessingmethodistofirstcarryouttextdetection,thenconductareaclassification,andfinallyspli
4、tandcombinedifferentareastoformatrademarksub-card.Thisstep-by-stepprocessingtakesalongtime,andtheaccuracyofthefinalresultswilldecreaseduetothesuperpositionoferrors.Therefore,thisstudyproposesamulti-tasknetworkmodelTextCls,whichcanimprovetheinferencespeedandaccuracyofthedetectionandclassificationmodu
5、les.TextClsconsistsofafeatureextractionnetworkandtwotaskbranchesoftextdetectionandregionalclassification.Thetextdetectionbranchusesthesegmentationnetworktolearnthepixelclassificationmapandthenemployspixelaggregationtoobtainthetextboxes.Thepixelclassificationmapismainlyusedtolearntheinformationoftext
6、andbackgroundpixels.TheregionalclassificationbranchsubdividesregionalfeaturesintoChinese,English,andgraphics,focusingonlearningthecharacteristicsofdifferenttypesofregions.Throughthesharedfeatureextractionnetwork,thetwobranchescontinuouslylearnpixelinformationandregionalfeatures,andfinallytheprecisio
7、nofthetwotasksisimproved.TomakeupforthelackoftextdetectiondatasetsfortrademarkimagesandverifytheeffectivenessofTextCls,thisstudycollectsandlabelsatextdetectiondatasettrademark_text(https:/ 在线出版时间:2023-06-09CNKI 网络首发时间:2023-06-14SystemConstruction系统建设105harmonicmeanF1scorereaching92.12%;theF1scoreoft
8、heregionalclassificationbranchalsoincreasesfrom97.09%to98.18%.Key words:trademarksub-card;end-to-end;textdetection;multi-tasklearning;datasets商标图像中不仅会包含图形部分,文本也是重要组成部分,如果简单将整个商标图像作为商标检索系统的输入,那么由于图形和文本两者的相互干扰将无法检索出局部相似的商标图像,因此需要准确拆分成不同部分进行精细检索,拆分组合形成商标图像分卡.在实际的商标分卡场景下,依然面临以下挑战:(1)商标图像中文本实例往往有不同的形状表现,
9、且和图形部分分布相邻,这要求检测出来的文本框能完美贴合,才能避免切分时对图形部分造成损伤;(2)在我国,商标图像中的文本往往会包含中文和英文,因此需要对文本区域进一步分类和组合.为了完整实现商标分卡将涉及两个独立的模块:文本检测和区域分类,并通过分步顺序实现.首先将商标图像输入到文本检测模块中,在得到文本框后,再在原图上的截取相应的区域输入到区域分类模块中,在获得分类信息后进行拆分和组合工作.简单的串联任务无法充分发挥深度卷积网络的潜力,因为将两个任务完全独立,无法进行特征共享,而且两个模块的耗时也将使得商标分卡无法满足实时性.端到端的文本识别13近些年受到了越来越多的关注,序列属性是文本的重
10、要特征,然而在自然场景中的建筑物、栏杆和街区由于序列外观将会呈现假阳性,为了使得网络具有区分不同模式的能力,通过将文本检测和文本识别两个任务进行特征共享,并进行端到端的训练,同时端到端的框架在推理速度上也具有一定优势1.受到端到端文本识别模型的启发,本文提出了文本检测和文本区域分类的多任务模型 TextCls,通过共享特征,完成端到端的模型设计,新的商标分卡流程则是在对商标图像进行文本检测的同时,进一步获得该区域的分类信息.由于区域分类对中文、英文和图形特征进行加强学习,使得文本检测分支获得的分割图更加精准,最终得到更加拟合文本区域的文本框;而文本检测分支所学习到的语义信息和空间信息也将反馈到
11、区域分类分支上.TextCls 通过共享两个任务的特征,端到端的框架拥有更快的推理速度,同时两个任务的相互促进,在区域分类分支获得极高的精确率的同时,也进一步提升了文本检测分支的效果.在自然场景下的文本检测任务中,有大量的数据集49被提出,这些数据集主要采集于自然街景、合成图像或者人为拍摄等,所采集的街景图片一般为特定任务或者单一语种的图片;合成的图片也是对单一语种的单词进行旋转、形变和透视等操作完成组合;而所拍摄的图片虽然包含了中文和英文文本区域,但是存在严重的比例失调,主要以英文为主,然而在我国的商标图片中,英文和中文出现的频率都是极高的.同时,如图 1 所展示的样本图片,现已公开的数据集
12、大部分都是具有复杂的背景,而对于商标图像则是具有空白的背景;同时大量的商标图像由图形区域和文本区域构成,但是在商标中的图形区域通常以简易线条绘制且文本区域会以艺术字的形式出现,导致两者具有相似的特征,这也构成了商标图像的特殊性.(a)街景图片(b)拍摄图片(c)合成图片(d)商标图片图 1数据集图片展示针对缺乏以商标图像为数据源的文本检测数据集,本文收集和筛选了包含中英文区域的商标图像,使用多边形标注了一个新的数据集 trademark_text.这个数据集一共包括了 2000 张商标图像,以及超过 4000 个标注实例,并且使用了多边形进行标注,能比较好地包裹住弯曲的文本区域.为了保持中英文
13、的实例数量平衡,共有 2260 个英文实例和 1943 个中文实例,同时考虑到商标图片中的图形区域也由简易线条构成,因此也标注了图形区域用于区域分类学习.综上所述,本文的主要贡献可以总结如下.(1)本文提出了一个具有文本检测和区域分类的多任务模型 TextCls,不仅拥有极快的推理速度,通过共享计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第8期106系统建设SystemConstruction骨干网络,两个分支相互促进,在区域分类任务取得了极高的精确率的同时,进一步提升了文本检测的效果.(2)为了填补商标图像的文本检测数据集的空白,本文收集了一个由商标图像构成的文本
14、检测数据集.为了验证 TextCls 的有效性,在进行区域标注的同时,还标注了对应的类别信息.1国内外研究现状针对商标分卡任务中的文本检测模块和区域分类模块,本文通过构建多任务模型,完成端到端训练,不仅能加快整个任务的推理速度,同时由于两个模块通过共享特征,能相互促进,在区域分类任务取得较高的精确率的同时,也进一步提升了文本检测的效果.1.1 常见的多任务模型现有的多任务模型实现方法可以分为软参数共享和硬参数共享10.软参数共享是指不同的任务拥有独立的模型,模型参数彼此约束,对模型参数的距离进行正则化来保证参数的相似,例如在 cross-stitchnetworks11中使用特定任务网络的每一
15、层激活函数的线性组合作为软特征融合的方法,而 slicenetworks12进一步扩展该想法,允许学习层、子空间和跳过连接的选择性共享;而硬参数共享则是指模型的主体部分共享参数,输出结构任务独立13,而为了优化不同任务可能共享不同层次的特征,提出在不同层特征开始针对各自任务设计分支14,15.软参数共享主要是针对具有较大差距的任务,而硬参数共享则是针对目标较为一致的任务.1.2 基于深度学习的文本检测在文本检测模块中,随着基于深度学习的目标检测算法的发展,将文本区域作为检测目标也在此任务的基础上有了更进一步的发展,目前的算法大致分为以下 3 大类:基于锚框的方法、直接回归的方法和基于像素分割的
16、方法.其中基于锚框的方法,则是预先在需要检测的特征图上设定好进行检测的 anchor,通过 anchor 来检测文本区域.如 Tian 等人16提出的 CTPN,不直接检测整个文本,而是设计不同高度、等框的 anchor 来检测文本区域,将整个文本切成一个个竖条,然后把检测出来的区域连接作为检测结果.之后 Shi 等人17提出segLink,主要在竖条检测框上增加宽、高和角度的回归,使得其能够检测多方向的文本.针对任意形状的文本区域,基于锚框的方法需要设计十分复杂的锚框,导致整个程序推理速度慢,而拟合情况也并不佳.而基于直接回归的方法则是不预先设定 anchor,如 Zhou 等人18提出的
17、EAST,He 等人19提出的 DDR选择在像素级上直接回归预测该点对应的文本框的 4 个点坐标.而 Liu 等人1提出的 ABCNET 和 Zhu 等人20提出的 FCENet 则是使用数学曲线对文本区域进行拟合,对曲线表达式进行回归,使用直接回归解决了任意形状的文本检测,但是对于曲度过大的文本区域依然无法有效拟合.基于像素分割的方法则是通过网络检测得到像素分割图,然后采用后处理得到文本框.Wang 等人提出的 PSENet21对文本内核区域进行预测,并通过渐进式扩展算法,对文本行的内核不断扩展至文本行大小,完成目标像素聚合最终输出预测框.因为在获得最小内核的语义分割图时能较为清楚进行区分不
18、同的实例,再不断加入像素来扩展不同实例的区域,直到发现最大的内核作为预测结果.为了轻量化场景文本检测模型,Wang 等人在 PSENet 的基础上提出的 PANNet22使用级联特征金字塔增强模块在参数少的情况下获得更好的像素分割结果.聚合时需要将文本像素聚合,一般做法是通过固定阈值进行过滤,而 Liao 等人23提出的 DBNet 则是使用近似可微分二值化进行端到端训练学习阈值图,可以提高后处理的速度,并且获得更加精准的文本框.基于像素分割的方法通过获得像素分割图,可以表征出任意形状的文本区域,然而相邻的文本实例的像素会出现粘连,导致不同实例会被同一个文本框检测出.1.3 文本检测数据集在文
19、本检测网络的发展迅速也得益于许多优秀的数据集不断被提出来,数据集从自然场景图像到特定场景以及合成数据,标注方式从矩形标注到多边形,再到任意形状的文本区域,这些数据集的提出极大地促进了文本检测模型的发展.ICDAR2003 是自然场景检测的第一个基准数据集,其使用矩形框标注了 509 张图片,而 ICDAR2011 和 ICDAR2013 主要是在此基础上进行扩充和修正,而 ICDAR2015 是第一个提出使用四边形标记的数据集,并且包含了一些低质量照片,而在 ICDAR2017 中提出的 RCTW-177包含了中文、英文文本,并且采用了平行四边形进行标注.与此同时,Total-Text 则收集
20、了包含了水平、多方向和弯曲等多种文本实例情况的图片数据,并且采用四边形和多边形框同时进行标注.而 SCUT-CTW15009则是专门针对弯曲文本,采用 14 个顶点进行多边形标注.2023年第32卷第8期http:/www.c-s-计 算 机 系 统 应 用SystemConstruction系统建设107从以上数据集的发展能看出,数据集朝着更加精准标注和更紧凑的方向发展,针对现实生活中文本可能出现的场景和形式做出新的调整.本文针对商标图像背景缺乏,图形区域和文本区域具有相似性以及中英文同时存在的特殊性,构建了一个包含了 2000 张商标图像的文本检测数据集.1.4 基于卷积神经网络的图像分类
21、在区域分类模块中,主要是对一个图像区域进行分类,属于图像分类的范畴,通过卷积神经网络(convo-lutionalneuralnetworks,CNN)可以较好地解决该类问题,一般做法是通过堆叠卷积层和全连接层,最后通过分类器获得最终的分类结果.AlexNet24在除了使用5 个卷积层和 3 个全连接层外,还提出使用 ReLU 激活函数来优化梯度消失问题,以及使用 Dropout 来防止过拟合.Simonyan 等人25提出的 VGG 使用 33 的卷积核并保持卷积层中输出特征图尺寸不变,可以大大减少模型训练的开销,使其具备了加深网络的可能性,更深的网络结构使其在图像分类上获得了更好的效果.H
22、e 等人26提出来的 ResNet 则是提出残差学习,使得网络能在大幅度增加深度的同时拥有好的效果,大大提高了图像分类的精度,由于其出色的特征提取能力也经常被用作其他领域的骨干网络.而在特征提取部分保留 CNN 的卷积层构成全卷积网络,可以满足目标检测需要输入不同尺度图像的要求,这也是本文能进一步设计多任务模型的基础.综上所述,在文本检测如果采用锚框和直接回归的方式进行检测,对于商标图像中任意形状的文本区域,由于所预测出的文本框包含的顶点受限,无法有效拟合,为了对商标图像进行拆分时不同区域之间不会相互影响,因此预测的文本框需要紧紧贴合文本区域,而基于像素分割的方法则是具有拟合任意形状的优势,对
23、于相邻文本区域粘连问题则是需要对文本像素信息加强学习;在获得文本框后,需要对文本区域的进一步分类为中文或英文,因此需要着重学习不同区域的特征信息.以上两个任务本质上是对文本图像特征的学习,在任务上具有一致性,因此文本检测任务和区域分类任务可以在特征提取阶段进行硬参数共享,在此基础上本文提出了 TextCls 多任务模型,通过一个模型完成两个任务的端到端训练,不仅仅能加快整个任务的推理速度,同时由于两个模块通过共享特征,能相互促进,最终提升两个任务的效果.2基于端到端的多任务商标分卡模型本文所设计的多任务模型结构如图 2 所示,主要包含 3 个模块:骨干网络及特征金字塔增强模块(featurep
24、yramidenhancementmodules,FPEMs)、文本检测模块和文本区域分类模块.骨干网络通过卷积操作对输入的商标图像进行特征提取,再经由特征金字塔增强模块将不同尺寸的特征图进行融合作为检测和分类任务的输入;文本检测模块对输入的特征学习得到文本区域、文本内核和实例向量 3 种带有语义的像素分割图,经由像素聚合得到文本框;文本区域分类模块则利用文本框在特征图上截取文本区域特征,然后进行细化特征信息,最终完成区域分类工作.HW3H/4W/4512骨干网络及特征金字塔增强模块文本检测模块文本区域分类模块文本区域特征全连接层分类结果像素聚合文本框通道数减少为 128骨干网络FPEMs33
25、 Conv33 Conv11Conv11Conv(a)文本区域(b)内核区域(c)实例向量FeFfFfFgH/4W/4128H/4W/4128N(8321)BN&ReLUBN&ReLU图 2TextCls 网络结构计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第8期108系统建设SystemConstruction 2.1 骨干网络及特征金字塔增强模块首先,将 HW3 大小的图像输入到骨干网络ResNet1826中进行特征提取,将其最后 4 层的卷积层特征都减少为 128 通道,然后输入到特征金字塔增强模块 FPEMs 中,如图 3(a)所示,其尺寸分别为原图大小的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 端到端 任务 商标 模型
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。