基于字体字符属性引导的文本图像编辑方法_陈靖超.pdf
《基于字体字符属性引导的文本图像编辑方法_陈靖超.pdf》由会员分享,可在线阅读,更多相关《基于字体字符属性引导的文本图像编辑方法_陈靖超.pdf(6页珍藏版)》请在咨信网上搜索。
1、2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1416-1421ISSN 1001-9081CODEN JYIIDUhttp:/基于字体字符属性引导的文本图像编辑方法陈靖超1,2,徐树公1*,丁友东2(1.上海大学 通信与信息工程学院,上海 200444;2.上海大学 上海电影学院,上海 200072)(通信作者电子邮箱)摘要:针对文本图像编辑任务中编辑前后文字风格样式不一致和生成的新文本可读性不足的问题,提出一种基于字体字符属性引导的文本图像编辑方法。首先,通过字体属性分类器结合字体分类、感知和纹理损失引导文本前景风格样
2、式的生成方向,提升编辑前后的文字风格样式一致性;其次,通过字符属性分类器结合字符分类损失引导文字字形的准确生成,减小文本伪影与生成误差,并提升生成的新文本的可读性;最后,通过端到端微调的训练策略为整个分阶段编辑模型精炼生成结果。对比实验中,所提方法的峰值信噪比(PSNR)、结构相似度(SSIM)分别达到了25.48 dB、0.842,相较于SRNet(Style Retention Network)和SwapText分别提高了2.57 dB、0.055和2.11 dB、0.046;均方误差(MSE)为0.004 3,相较于SRNet和SwapText分别降低了0.003 1和0.002 4。实
3、验结果表明,所提方法能有效提升文本图像编辑的生成效果。关键词:文本图像编辑;字符识别;字体识别;多任务训练;属性引导中图分类号:TP183 文献标志码:AText image editing method based on font and character attribute guidanceCHEN Jingchao1,2,XU Shugong1*,DING Youdong2(1.School of Communication and Information Engineering,Shanghai University,Shanghai 200444,China;2.Shanghai
4、Film Academy,Shanghai University,Shanghai 200072,China)Abstract:Aiming at the problems of inconsistent text style before and after editing and insufficient readability of the generated new text in text image editing tasks,a text image editing method based on the guidance of font and character attrib
5、utes was proposed.Firstly,the generation direction of text foreground style was guided by the font attribute classifier combined with font classification,perception and texture losses to improve the consistency of text style before and after editing.Secondly,the accurate generation of text glyphs wa
6、s guided by the character attribute classifier combined with the character classification loss to reduce text artifacts and generation errors,and improve the readability of generated new text.Finally,the end-to-end fine-tuned training strategy was used to refine the generated results for the entire
7、staged editing model.In the comparison experiments with SRNet(Style Retention Network)and SwapText,the proposed method achieves PSNR(Peak Signal-to-Noise Ratio)and SSIM(Structural SIMilarity)of 25.48 dB and 0.842,which are 2.57 dB and 0.055 higher than those of SRNet and 2.11 dB and 0.046 higher tha
8、n those of SwapText,respectively;the Mean Square Error(MSE)is 0.004 3,which is 0.003 1 and 0.024 lower than that of SRNet and SwapText,respectively.Experimental results show that the proposed method can effectively improve the generation effect of text image editing.Key words:text image editing;char
9、acter recognition;font recognition;multi-task training;attribute guidance0 引言 文字在人类的历史发展中占据了十分重要的地位,作为个体沟通与文化传承的载体,文字的出现给人类的工作与生活带来了极大的影响。随着近几年计算机视觉与深度学习的飞速发展,文字图像被越来越多的研究人员关注,其中主要的方向包括文本检测1-5、文本识别6-10、字体生成11-13、文本编辑14-17等任务。本文的文本编辑任务的应用场景包括图像隐私化处理、海报复用和视觉场景翻译等。传统的文字图像编辑方案需要执行定位文字区域、擦除原文字、输入新文字、迁移原文
10、字风格等步骤,耗时耗力,成本较高;而基于深度学习方法的自动化文字图像编辑方法能够大幅改善这一点,并提升编辑前后的风格连贯性。文本编辑的目标是无缝将新的文本内容替换掉原图中的旧文本,并保持风格样式不变。其他文本相关任务与文本编辑也都紧密相关,如:文本识别可以评估编辑生成的文字图像的可读性,字体识别可以评估编辑生成的文本图像的字体属性的迁移效果。本文首先在 Edit-100k 测试集的 1 000 组文本图像上分析了基线模型SRNet(Style Retention Network)14生成的编辑结果,探究该方法的特点与不足。分析实验中先使用SRNet对测试集图像进行推理,然后将推理的编辑结果与标
11、签的前景文本区域和背景纹理区域分别进行对比。前景文本区域与背景纹理区域使用掩码进行分割。从表 1 可以看出,SRNet对文本区域的峰值信噪比(Peak Signal-to-Noise Ratio,文章编号:1001-9081(2023)05-1416-06DOI:10.11772/j.issn.1001-9081.2022040520收稿日期:2022-04-15;修回日期:2022-06-09;录用日期:2022-06-13。作者简介:陈靖超(1997),男,上海人,硕士研究生,主要研究方向:文本编辑、字体识别;徐树公(1969),男,湖北襄阳人,教授,博士,主要研究方向:无线通信、模式识别
12、;丁友东(1967),男,福建上杭人,教授,博士,主要研究方向:计算机图形学、多媒体展示。第 5 期陈靖超等:基于字体字符属性引导的文本图像编辑方法PSNR)与结构相似度(Structural SIMilarity,SSIM)18低于背景区域,从而拉低了整体的编辑结果,两项指标仅为 22.91 dB与0.79。产生这一现象的原因主要是背景区域有原始可参考的输入,而前景区域则需要由网络自主进行编辑生成。根据此分析实验,本文选择文字区域生成作为主要优化方向,通过加入字体字符属性来引导优化被编辑图像中文字字形字体的生成。本文提出的基于文字属性引导的文本编辑方法使用文字与背景分离处理的分阶段模型进行编
13、辑生成,利用文本识别与字体识别的模型辅助文本编辑模型进行训练,对特征提取过程中的文字内容特征与字体属性特征进行相应的引导。实验中本文方法所编辑的图像结果在PSNR、SSIM与均方误差(Mean Squared Error,MSE)指标上都明显优于 SRNet,同时在可视化效果的对比上也修正了一些 SRNet编辑结果的伪影瑕疵。本文还提出了一个用于文本编辑训练的合成数据集 Edit-100k,其中训练集包括 10万组成对的有监督文本图像数据,测试集包括1 000组文本图像。1 相关工作 在基于深度学习的文本编辑方法出现之前,相关研究的重点主要聚焦于更简单的文本图像移除与修复。Zhang等19提出
14、的EnsNet(Ensconce Network)使用了一个加入跳跃连接的生成器和局部预测的判别器的结构,能够自动去除自然场景图像中的文本内容,并将文本区域替换为合理的背景图像。Liu等20又提出了一个由粗到精的两阶段网络,同时利用一个额外的分割头预测文本区域辅助文本擦除的效果,使擦除区域与擦除效果更准确。文本编辑任务相当于在文本擦除的基础上添加新文本替换的任务,集文本替换、文本擦除、背景修复于一体。端到端可训练的编辑模型 SRNet14分别用两个编码器提取文字的风格与内容特征进行聚合,并与背景纹理融合得到最后的结果;但该方法对于复杂文本图像的编辑会存在伪影效果或字符误差。Yang 等15提出
15、的文本替换方法 SwapText 在SRNet 的框架基础上添加了文本几何变换网络(Content Shape Transformation Network,CSTN)来分离前景文本替换中的几何变换部分,并添加了自注意力模块替代简单的通道拼接作为特征聚合方式,提升了弯曲文本的文本编辑效果;同时该方法还在背景修复网络中加入了扩张卷积增大修复时的感受野,使背景细节在纹理上有更多保留。Roy等16提出了基于字体适应性神经网络的场景文本编辑器(Scene Text Editor using Font Adaptive Neural Network,STEFANN),分为字 体 适 应 性 神 经 网
16、络(Font Adaptive Neural Network,FANNet)和颜色网络(Color Network,ColorNet)两部分,分别对文字的字体几何特征和颜色纹理特征进行迁移;但该方法只针对前景文本使用深度学习模型进行生成,文本擦除、修复等模块依赖于其他算法效果。Shimoda等17提出了一种将文本图像进行参数化,预测出文本位置、颜色、字体、字符、背景等渲染参数的方法。该方法在训练中通过渲染参数实现文本图像的重建,并通过修改渲染参数实现文本图像的编辑;该方法编辑自由度很高,但并不能完全保留原有图像的风格信息实现无缝编辑。2 多属性引导的文本编辑 本文提出的基于字体字符属性引导的文
17、本编辑方法首先利用分阶段的文本编辑模型框架将整个任务分解为前景变换、背景修复和前背景融合。其中,前景变换网络完成原图前景文本内容的位置定位、几何字体特征和颜色纹理特征的迁移。文本编辑网络的输入(Is,It)如图1所示。从图2中可以看到,前景变换网络会通过两个编码器对Is和It分别进行风格特征和内容特征的提取,然后将两者在通道维度进行合并,并通过两个解码器分别输出骨架图Osk以及迁移原图文本风格的新文本图像Ofg。背景修复网络完成原图中文本内容的自动擦除以及背景修复的任务。背景修复网络的输入只有Is,通过一个带有跳跃连接的 U-Net生成器输出纯净背景Obg。而最后的前背景融合网络负责将前两个子
18、网络输出的前背景图像通过融合网络结合为最后的结果。前背景融合网络还将背景修复网络中的各尺度解码器特征图加入融合网络中的解码器,使最终的编辑结果Ofus在细节纹理上更丰富。而最后的输出图像也会通过字体字符分类器与相应损失函数约束,利用字体字符属性来引导生成网络方向保证正确的编辑效果。2.1前景变换网络前景变换网络的主要目的是替换原始文本图像中的文本内容,同时保持原有的文字风格样式。网络的输入是原始待编辑图像Is和新的文本内容的图像It。It是标准范式文本表1编辑结果中各区域的PSNR和SSIM结果Tab.1PSNR and SSIM of each area of edited results区
19、域文本区域背景区域整体区域PSNR/dB17.3032.1022.91SSIM0.700.950.79图1网络的输入图像Fig.1Input images of network图2文本编辑网络框架Fig.2Text editing network architecture1417第 43 卷计算机应用图像,具有固定字体与背景。前景变换网络总体上使用了多输入多输出的编码器/解码器结构。为了提取出文本风格特征和内容特征,原始图像Is和文本内容图像It都被由三层下采样和残差卷积块构成的编码器进行编码。两个编码器共享相同的结构,但并不共享参数,分别用来提取图像中的文本风格与文本内容特征。经过编码后的文
20、本风格特征与新文本内容特征会在通道层面进行合并,聚合风格与内容特征。聚合后的特征会通过一个由三层转置卷积作为上采样层的解码器进行解码。前景变换网络的计算过程如式(1)所示:Ofg=Gfg()Is,It(1)其中:Gfg表示前景变换网络;Ofg是前景变换网络输出的新文本图像。由于文字骨架代表了文字的具体语义信息,因此另一个解码器输出单通道的骨架掩膜图Osk,使生成的新文本图像在文字可读性上有更好的效果。骨架损失函数Tsk使用集合相似度度量函数约束单通道骨架图的生成,如式(2)所示:Lsk=1-|2i=1N(Osk)i(Tsk)ii=1N(Osk)i+i=1N(Tsk)i(2)其中:Osk和Tsk
21、分别表示网络解码的单通道骨架图和骨架图标签;N代表骨架图中的像素点个数。骨架图还被加入前景变换网络的输出模块中,辅助前景变换的新文本图像Ofg生成。前景变换网络的最终损失函数包括骨架引导损失以及像素点级的L1损失,如式(3)所示:Lfg=Lsk+Ofg-Tfg1(3)其中:Ofg和Tfg分别代表网络输出的文本变换结果和标签图像;是骨架损失的参数,训练中设置为1.0。前景变换网络的输入输出可视化如图3所示,该网络实现了对原图中的文字风格样式在新文本上的迁移。2.2背景修复网络背景修复网络的任务是完全擦除原图中的文本,并对擦除的空白区域填充合适的纹理颜色,最后输出纯净的背景图像。空白区域填充的可视
22、化如图4所示。图4(a)的文本图像区域像素点被擦除后仍旧留有空白,需要合适的纹理进行填充。背景修复网络的输入是原始待编辑图像Is,输出纯净背景图像Obg。该网络采用了带有跳跃连接的U-Net21结构,有助于网络保留空间下采样过程中丢失的背景细节信息。输入图像由 3个下采样卷积层进行特征编码。由于背景修复的本质是借鉴其他区域颜色纹理填充空白区域,所以更大的感受野可以使网络获取更丰富的信息,生成效果更接近真实。因此编码器后接3个扩张率分别为(2,4,8)的扩张卷积22用于扩大感受野,提升纹理信息的参考区域范围。然后,扩张卷积的输出特征通过三层上采样的转置卷积模块进行解码得到修复后的纯净背景输出Ob
23、g。如果用Gbg表示背景修复网络,生成过程如式(4)所示:Obg=Gbg()Is(4)背景修复网络还通过一个判别器进行对抗训练,以得到外观上更加真实的结果。总体的损失函数是由判别器的对抗损失和像素点级的L1损失组成,如式(5)所示:Lbg=Eln Dbg()Is,Tbg+ln()1-Dbg()Is,Obg+Obg-Tbg1(5)其中:Obg和Tbg代表网络生成的纯净背景图像和标签图像;Dbg是背景修复判别器;是像素点级损失权重,设置为10。背景修复网络的输出可视化如图5所示,从相邻的背景中学习到了合适的纹理颜色,并填充到文字擦除后的空白区域。2.3前背景融合网络前背景融合网络的任务是融合前景变
24、换网络和背景修复网络的输出,生成最终的文本编辑结果。融合网络是一个编码器/解码器的结构。其他子网络输出的文本变换图像Ofg和纯净背景图像Obg被送进融合网络中,并输出为文本编辑结果Ofus。该子网络的编码器与解码器结构与其他子网络相同。不同的是,解码器每层都会结合背景修复网络中的各尺度解码特征。因此,融合网络可以补全编码器阶段丢失掉的背景细节信息,得到更好的生成效果。融合网络的生成过程如式(6)所示:Ofus=Gfus()Ofg,Obg,featbg(6)其中:Gfus表示前背景融合网络;featbg表示背景修复网络的各尺度解码特征。融合网络的损失函数如式(7)所示:Lfus=Eln Dfus
25、()It,Tfus+ln()1-Dfus()It,Ofus+Ofus-Tfus1(7)其中:Ofus和Tfus分别代表文本编辑结果和标签图像;Dfus是用于前背景融合网络对抗训练的判别器;是像素点级损失的超参数,设置为10。前背景融合网络的输出可视化如图6所示,该网络融合前一阶段子网络的前背景输出结果得到最终的编辑结果。2.4字体属性损失文字的字体类别属性代表了文字的风格样式。在文本编辑任务中,最重要的任务之一就是原图文字风格样式的迁移。本文提出了一个字体属性的引导分类器,通过字体属性引导生成网络的特征提取,提升编辑前后文字风格样式的一图3前景变换网络输出可视化Fig.3Visualizati
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 字体 字符 属性 引导 文本 图像编辑 方法 陈靖超
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。