换一换

咨信网 > 资源分类 > PDF文档下载

预览

基于字体字符属性引导的文本图像编辑方法_陈靖超.pdf

资源ID：284073 资源大小：2.87MB 全文页数：6页
资源格式： PDF 下载积分：10金币

微信登录下载

验证码下载

账号登录下载

三方登录下载：

微信扫一扫登录

下载资源需要10金币

邮箱/手机：
验证码：	获取验证码
温馨提示：	支付成功后，系统会自动生成账号（用户名为邮箱或者手机号，密码是验证码），方便下次登录下载和查询订单；
支付方式：
验证码：	换一换

VIP下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

特别提醒 | 会员权益免费领取5元金币

1、推荐【 2345浏览器】、【 WPS办公】、填表【下载求助】、【索取发票】、【退款申请】、咨询【微信客服】、【 QQ客服】、【客服电话：4008-655-100 | 投诉/维权电话：4009-655-100】。

2、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。

3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。

4、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。

5、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。

6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。

7、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。

基于字体字符属性引导的文本图像编辑方法_陈靖超.pdf

1、2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1416-1421ISSN 1001-9081CODEN JYIIDUhttp：/基于字体字符属性引导的文本图像编辑方法陈靖超1，2，徐树公1*，丁友东2（1.上海大学通信与信息工程学院，上海 200444；2.上海大学上海电影学院，上海 200072）（通信作者电子邮箱）摘要：针对文本图像编辑任务中编辑前后文字风格样式不一致和生成的新文本可读性不足的问题，提出一种基于字体字符属性引导的文本图像编辑方法。首先，通过字体属性分类器结合字体分类、感知和纹理损失引导文本前景风格样

2、式的生成方向，提升编辑前后的文字风格样式一致性；其次，通过字符属性分类器结合字符分类损失引导文字字形的准确生成，减小文本伪影与生成误差，并提升生成的新文本的可读性；最后，通过端到端微调的训练策略为整个分阶段编辑模型精炼生成结果。对比实验中，所提方法的峰值信噪比（PSNR）、结构相似度（SSIM）分别达到了25.48 dB、0.842，相较于SRNet（Style Retention Network）和SwapText分别提高了2.57 dB、0.055和2.11 dB、0.046；均方误差（MSE）为0.004 3，相较于SRNet和SwapText分别降低了0.003 1和0.002 4。实

3、验结果表明，所提方法能有效提升文本图像编辑的生成效果。关键词：文本图像编辑；字符识别；字体识别；多任务训练；属性引导中图分类号：TP183 文献标志码：AText image editing method based on font and character attribute guidanceCHEN Jingchao1，2，XU Shugong1*，DING Youdong2（1.School of Communication and Information Engineering，Shanghai University，Shanghai 200444，China；2.Shanghai

4、Film Academy，Shanghai University，Shanghai 200072，China）Abstract:Aiming at the problems of inconsistent text style before and after editing and insufficient readability of the generated new text in text image editing tasks，a text image editing method based on the guidance of font and character attrib

5、utes was proposed.Firstly，the generation direction of text foreground style was guided by the font attribute classifier combined with font classification，perception and texture losses to improve the consistency of text style before and after editing.Secondly，the accurate generation of text glyphs wa

6、s guided by the character attribute classifier combined with the character classification loss to reduce text artifacts and generation errors，and improve the readability of generated new text.Finally，the end-to-end fine-tuned training strategy was used to refine the generated results for the entire

7、staged editing model.In the comparison experiments with SRNet（Style Retention Network）and SwapText，the proposed method achieves PSNR（Peak Signal-to-Noise Ratio）and SSIM（Structural SIMilarity）of 25.48 dB and 0.842，which are 2.57 dB and 0.055 higher than those of SRNet and 2.11 dB and 0.046 higher tha

8、n those of SwapText，respectively；the Mean Square Error（MSE）is 0.004 3，which is 0.003 1 and 0.024 lower than that of SRNet and SwapText，respectively.Experimental results show that the proposed method can effectively improve the generation effect of text image editing.Key words:text image editing;char

9、acter recognition;font recognition;multi-task training;attribute guidance0 引言文字在人类的历史发展中占据了十分重要的地位，作为个体沟通与文化传承的载体，文字的出现给人类的工作与生活带来了极大的影响。随着近几年计算机视觉与深度学习的飞速发展，文字图像被越来越多的研究人员关注，其中主要的方向包括文本检测1-5、文本识别6-10、字体生成11-13、文本编辑14-17等任务。本文的文本编辑任务的应用场景包括图像隐私化处理、海报复用和视觉场景翻译等。传统的文字图像编辑方案需要执行定位文字区域、擦除原文字、输入新文字、迁移原文

10、字风格等步骤，耗时耗力，成本较高；而基于深度学习方法的自动化文字图像编辑方法能够大幅改善这一点，并提升编辑前后的风格连贯性。文本编辑的目标是无缝将新的文本内容替换掉原图中的旧文本，并保持风格样式不变。其他文本相关任务与文本编辑也都紧密相关，如：文本识别可以评估编辑生成的文字图像的可读性，字体识别可以评估编辑生成的文本图像的字体属性的迁移效果。本文首先在 Edit-100k 测试集的 1 000 组文本图像上分析了基线模型SRNet（Style Retention Network）14生成的编辑结果，探究该方法的特点与不足。分析实验中先使用SRNet对测试集图像进行推理，然后将推理的编辑结果与标

11、签的前景文本区域和背景纹理区域分别进行对比。前景文本区域与背景纹理区域使用掩码进行分割。从表 1 可以看出，SRNet对文本区域的峰值信噪比（Peak Signal-to-Noise Ratio，文章编号：1001-9081（2023）05-1416-06DOI：10.11772/j.issn.1001-9081.2022040520收稿日期：2022-04-15；修回日期：2022-06-09；录用日期：2022-06-13。作者简介：陈靖超（1997），男，上海人，硕士研究生，主要研究方向：文本编辑、字体识别；徐树公（1969），男，湖北襄阳人，教授，博士，主要研究方向：无线通信、模式识别

12、；丁友东（1967），男，福建上杭人，教授，博士，主要研究方向：计算机图形学、多媒体展示。第 5 期陈靖超等：基于字体字符属性引导的文本图像编辑方法PSNR）与结构相似度（Structural SIMilarity，SSIM）18低于背景区域，从而拉低了整体的编辑结果，两项指标仅为 22.91 dB与0.79。产生这一现象的原因主要是背景区域有原始可参考的输入，而前景区域则需要由网络自主进行编辑生成。根据此分析实验，本文选择文字区域生成作为主要优化方向，通过加入字体字符属性来引导优化被编辑图像中文字字形字体的生成。本文提出的基于文字属性引导的文本编辑方法使用文字与背景分离处理的分阶段模型进行编

13、辑生成，利用文本识别与字体识别的模型辅助文本编辑模型进行训练，对特征提取过程中的文字内容特征与字体属性特征进行相应的引导。实验中本文方法所编辑的图像结果在PSNR、SSIM与均方误差（Mean Squared Error，MSE）指标上都明显优于 SRNet，同时在可视化效果的对比上也修正了一些 SRNet编辑结果的伪影瑕疵。本文还提出了一个用于文本编辑训练的合成数据集 Edit-100k，其中训练集包括 10万组成对的有监督文本图像数据，测试集包括1 000组文本图像。1 相关工作在基于深度学习的文本编辑方法出现之前，相关研究的重点主要聚焦于更简单的文本图像移除与修复。Zhang等19提出

14、的EnsNet（Ensconce Network）使用了一个加入跳跃连接的生成器和局部预测的判别器的结构，能够自动去除自然场景图像中的文本内容，并将文本区域替换为合理的背景图像。Liu等20又提出了一个由粗到精的两阶段网络，同时利用一个额外的分割头预测文本区域辅助文本擦除的效果，使擦除区域与擦除效果更准确。文本编辑任务相当于在文本擦除的基础上添加新文本替换的任务，集文本替换、文本擦除、背景修复于一体。端到端可训练的编辑模型 SRNet14分别用两个编码器提取文字的风格与内容特征进行聚合，并与背景纹理融合得到最后的结果；但该方法对于复杂文本图像的编辑会存在伪影效果或字符误差。Yang 等15提出

15、的文本替换方法 SwapText 在SRNet 的框架基础上添加了文本几何变换网络（Content Shape Transformation Network，CSTN）来分离前景文本替换中的几何变换部分，并添加了自注意力模块替代简单的通道拼接作为特征聚合方式，提升了弯曲文本的文本编辑效果；同时该方法还在背景修复网络中加入了扩张卷积增大修复时的感受野，使背景细节在纹理上有更多保留。Roy等16提出了基于字体适应性神经网络的场景文本编辑器（Scene Text Editor using Font Adaptive Neural Network，STEFANN），分为字体适应性神经网

16、络（Font Adaptive Neural Network，FANNet）和颜色网络（Color Network，ColorNet）两部分，分别对文字的字体几何特征和颜色纹理特征进行迁移；但该方法只针对前景文本使用深度学习模型进行生成，文本擦除、修复等模块依赖于其他算法效果。Shimoda等17提出了一种将文本图像进行参数化，预测出文本位置、颜色、字体、字符、背景等渲染参数的方法。该方法在训练中通过渲染参数实现文本图像的重建，并通过修改渲染参数实现文本图像的编辑；该方法编辑自由度很高，但并不能完全保留原有图像的风格信息实现无缝编辑。2 多属性引导的文本编辑本文提出的基于字体字符属性引导的文

17、本编辑方法首先利用分阶段的文本编辑模型框架将整个任务分解为前景变换、背景修复和前背景融合。其中，前景变换网络完成原图前景文本内容的位置定位、几何字体特征和颜色纹理特征的迁移。文本编辑网络的输入（Is，It）如图1所示。从图2中可以看到，前景变换网络会通过两个编码器对Is和It分别进行风格特征和内容特征的提取，然后将两者在通道维度进行合并，并通过两个解码器分别输出骨架图Osk以及迁移原图文本风格的新文本图像Ofg。背景修复网络完成原图中文本内容的自动擦除以及背景修复的任务。背景修复网络的输入只有Is，通过一个带有跳跃连接的 U-Net生成器输出纯净背景Obg。而最后的前背景融合网络负责将前两个子

18、网络输出的前背景图像通过融合网络结合为最后的结果。前背景融合网络还将背景修复网络中的各尺度解码器特征图加入融合网络中的解码器，使最终的编辑结果Ofus在细节纹理上更丰富。而最后的输出图像也会通过字体字符分类器与相应损失函数约束，利用字体字符属性来引导生成网络方向保证正确的编辑效果。2.1前景变换网络前景变换网络的主要目的是替换原始文本图像中的文本内容，同时保持原有的文字风格样式。网络的输入是原始待编辑图像Is和新的文本内容的图像It。It是标准范式文本表1编辑结果中各区域的PSNR和SSIM结果Tab.1PSNR and SSIM of each area of edited results区

19、域文本区域背景区域整体区域PSNR/dB17.3032.1022.91SSIM0.700.950.79图1网络的输入图像Fig.1Input images of network图2文本编辑网络框架Fig.2Text editing network architecture1417第 43 卷计算机应用图像，具有固定字体与背景。前景变换网络总体上使用了多输入多输出的编码器/解码器结构。为了提取出文本风格特征和内容特征，原始图像Is和文本内容图像It都被由三层下采样和残差卷积块构成的编码器进行编码。两个编码器共享相同的结构，但并不共享参数，分别用来提取图像中的文本风格与文本内容特征。经过编码后的文

20、本风格特征与新文本内容特征会在通道层面进行合并，聚合风格与内容特征。聚合后的特征会通过一个由三层转置卷积作为上采样层的解码器进行解码。前景变换网络的计算过程如式（1）所示：Ofg=Gfg()Is，It（1）其中：Gfg表示前景变换网络；Ofg是前景变换网络输出的新文本图像。由于文字骨架代表了文字的具体语义信息，因此另一个解码器输出单通道的骨架掩膜图Osk，使生成的新文本图像在文字可读性上有更好的效果。骨架损失函数Tsk使用集合相似度度量函数约束单通道骨架图的生成，如式（2）所示：Lsk=1-|2i=1N(Osk)i(Tsk)ii=1N(Osk)i+i=1N(Tsk)i（2）其中：Osk和Tsk

21、分别表示网络解码的单通道骨架图和骨架图标签；N代表骨架图中的像素点个数。骨架图还被加入前景变换网络的输出模块中，辅助前景变换的新文本图像Ofg生成。前景变换网络的最终损失函数包括骨架引导损失以及像素点级的L1损失，如式（3）所示：Lfg=Lsk+Ofg-Tfg1（3）其中：Ofg和Tfg分别代表网络输出的文本变换结果和标签图像；是骨架损失的参数，训练中设置为1.0。前景变换网络的输入输出可视化如图3所示，该网络实现了对原图中的文字风格样式在新文本上的迁移。2.2背景修复网络背景修复网络的任务是完全擦除原图中的文本，并对擦除的空白区域填充合适的纹理颜色，最后输出纯净的背景图像。空白区域填充的可视

22、化如图4所示。图4（a）的文本图像区域像素点被擦除后仍旧留有空白，需要合适的纹理进行填充。背景修复网络的输入是原始待编辑图像Is，输出纯净背景图像Obg。该网络采用了带有跳跃连接的U-Net21结构，有助于网络保留空间下采样过程中丢失的背景细节信息。输入图像由 3个下采样卷积层进行特征编码。由于背景修复的本质是借鉴其他区域颜色纹理填充空白区域，所以更大的感受野可以使网络获取更丰富的信息，生成效果更接近真实。因此编码器后接3个扩张率分别为（2，4，8）的扩张卷积22用于扩大感受野，提升纹理信息的参考区域范围。然后，扩张卷积的输出特征通过三层上采样的转置卷积模块进行解码得到修复后的纯净背景输出Ob

23、g。如果用Gbg表示背景修复网络，生成过程如式（4）所示：Obg=Gbg()Is（4）背景修复网络还通过一个判别器进行对抗训练，以得到外观上更加真实的结果。总体的损失函数是由判别器的对抗损失和像素点级的L1损失组成，如式（5）所示：Lbg=Eln Dbg()Is，Tbg+ln()1-Dbg()Is，Obg+Obg-Tbg1（5）其中：Obg和Tbg代表网络生成的纯净背景图像和标签图像；Dbg是背景修复判别器；是像素点级损失权重，设置为10。背景修复网络的输出可视化如图5所示，从相邻的背景中学习到了合适的纹理颜色，并填充到文字擦除后的空白区域。2.3前背景融合网络前背景融合网络的任务是融合前景变

24、换网络和背景修复网络的输出，生成最终的文本编辑结果。融合网络是一个编码器/解码器的结构。其他子网络输出的文本变换图像Ofg和纯净背景图像Obg被送进融合网络中，并输出为文本编辑结果Ofus。该子网络的编码器与解码器结构与其他子网络相同。不同的是，解码器每层都会结合背景修复网络中的各尺度解码特征。因此，融合网络可以补全编码器阶段丢失掉的背景细节信息，得到更好的生成效果。融合网络的生成过程如式（6）所示：Ofus=Gfus()Ofg，Obg，featbg（6）其中：Gfus表示前背景融合网络；featbg表示背景修复网络的各尺度解码特征。融合网络的损失函数如式（7）所示：Lfus=Eln Dfus

25、()It，Tfus+ln()1-Dfus()It，Ofus+Ofus-Tfus1（7）其中：Ofus和Tfus分别代表文本编辑结果和标签图像；Dfus是用于前背景融合网络对抗训练的判别器；是像素点级损失的超参数，设置为10。前背景融合网络的输出可视化如图6所示，该网络融合前一阶段子网络的前背景输出结果得到最终的编辑结果。2.4字体属性损失文字的字体类别属性代表了文字的风格样式。在文本编辑任务中，最重要的任务之一就是原图文字风格样式的迁移。本文提出了一个字体属性的引导分类器，通过字体属性引导生成网络的特征提取，提升编辑前后文字风格样式的一图3前景变换网络输出可视化Fig.3Visualizati

26、on of foreground transformation network图4擦除区域填充可视化Fig.4Filling visualization of erased region图5背景修复网络输出可视化Fig.5Output visualization of background inpainting network1418第 5 期陈靖超等：基于字体字符属性引导的文本图像编辑方法致性。字体分类网络的特征提取是 ResNet（Residual Network）23结构。本文首先利用字体分类数据集以交叉熵损失对字体分类器进行预训练，并冻结参数作为文本编辑网络的属性

27、辅助引导。字体属性损失Lfont如式（8）所示，包括字体分类损失Lcls、字体感知损失Lper与字体纹理损失Ltex。Lfont=Lcls+Lper+Ltex（8）字体分类损失Lcls使用内容输入的文本字体标签与分类器预测结果构建，使用交叉熵损失进行约束，引导编辑模型结果的文字字体风格与原图风格接近。Lcls如式（9）所示：Lcls=-1Ni c=1Myi，c ln(pi，c)（9）其中：N代表训练批的大小；M为字体类别数量；yi，c指一个训练批中的第i张图对于M个字体类别中的第c个类别的标签；pi，c指一个训练批中的第i张图对于M个字体类别中的第c个类别的预测置信度概率。本文使用字体分类器的

28、各尺度特征构建字体感知损失Lper，衡量生成器迁移文本字体样式的能力。在Lper的计算中，将字体分类网络每个下采样阶段的输出激活图作为文本特征级差异的衡量。Lper如式（10）所示：Lper=E|i1Mii(Ofus)-i(Tfus)1（10）其中：i代表字体分类器的第i阶段特征激活图。本文使用gram矩阵（偏心协方差矩阵）的L1距离来衡量特征图的空间相关性差异，如式（11）所示：Ltex=EiGi(Ofus)-Gi(Tfus)1（11）其中：Gi代表字体分类网络的各阶段特征图计算 gram矩阵的空间相关性的结果。2.5字符属性损失文本编辑不仅需要维持编辑前后文字风格样式的一致性，还要确保新文

29、本内容生成的可读性。字符类别属性代表文字的语义内容信息。本文使用预训练的字符识别模块引导最终文本图像的编辑过程。通过字符内容属性引导，输出图像可以减轻文本伪影，并修正编辑过程中的字符生成误差。本文采用的字符分类网络基于 TRBA（Tps-Resnet-Bilstm-Attention）24，主要网络结构包括四个部分：文本矫正模块、特征提取模块、序列建模模块和字符预测模块。其中：文本矫正模块使用薄板样条（Thin Plate Spline，TPS）插值，可以将非水平的文本字符进行水平矫正，更适用于网络的识别；特征提取模块使用ResNet，能够提取出输入文本图像的视觉特

30、征；序列建模模块则使用了双向长短期记忆（Bidirectional Long Short-Term Memory，BiLSTM）25网络结构，对文本图像前后字符进行上下文序列特征提取；字符预测模块使用注意力解码模块，对前面得到的视觉特征和序列特征进行解码，预测出对应位置的字符类别。字符分类损失可用式（12）表示：Lchar=-i=1N j=1Myi，j ln(pi，j)（12）其中：N代表图像中预设的字符最大长度；M 代表字符类别的个数；yi，j和pi，j分别代表第i个字符对于第j个字符类别的标签与预测的类别置信度。2.6实现细节及训练策略为了使图像在生成

31、过程中更加逼真，本文使用了基于局部区域的生成对抗网络（Patch Generative Adversarial Network，Patch GAN）26判别器。判别器的网络结构由 4 个下采样步长为2的卷积块和一个步长为1的卷积块组成。输入图像大小为 64256 时，最终的输出预测图大小为 832。其中每一个预测值代表原图中一个1616的局部区域，用来衡量这个局部区域编辑效果真实程度。相较于一般判别器，使用基于局部区域的判别器能够在局部区域细节上生成更真实的效果。本文模型是分阶段的文本编辑模型，分为三个子模型。因此本文方法在训练过程中先对前景文本变换网络和背景修复网络分别进行

32、训练优化；然后用前两个网络参数固定训练前背景融合网络，并以字体字符分类器的属性引导进行编辑效果精炼优化；最后，整个文本编辑网络进行端到端训练微调后得到最优的结果。本文训练数据集Edit-100k通过真实数据集的颜色纹理库和常用字体进行合成。训练中输入图像的大小为64256，训练批大小为64，网络训练的初始权重都是以零均值的正态分布进行初始化。使用 Adam 优化器27，学习率设置为0.000 2，指数衰减率1=0.9，2=0.999。所有实验均在PyTorch框架上实现。3 实验与结果分析 3.1数据集与评估指标合成数据集Edit-100k：由于文本编辑网络在训练过程中需要成对的有监督训练数据

33、，而现实中很难获取到相应的成对数据，所以本文的编辑模型在训练过程中使用 Edit-100k作为训练数据。Edit-100k 合成数据集的合成流程：1）从语料库中随机获取一对文本内容作为原始图像的文本和编辑替换的目标文本；2）随机选择字体、颜色纹理、背景和几何变形参数等，合成出成对的训练数据。背景选择不仅包含纯色背景，还包含场景图像。为了使合成图像更接近真实域，本文还对训练图像进行数据增强，包括高斯模糊、动态模糊、重采样等，模拟现实的外部场景与特殊条件。真实数据集：ICDAR 201328是一个自然场景文本数据集，包括229张训练图像和233张测试图像。每个图像中的文本都有一个或多个文本框作为文

34、本检测区域的标签以及相应框内文本内容的标签。本文在该数据集上进行可视化效果的对比实验。在文本编辑任务中，本文沿用图像生成中常用的PSNR、SSIM和MSE指标作评估，计算公式分别为：RPSNR=10 ln(2n-1)2RMSE)（13）RSSIM=(2xy+c1)(2xy+c2)(2x+2y+c1)(2x+2y+c2)（14）RMSE=1ni=1n(x-y)2（15）其中：x和y分是别标签图像和生成的图像；x、y分别是x、y的平均值；x、y分别是x、y的标准差，xy是x和y的协方差；图6前背景融合网络输出可视化Fig.6Output visualization of foreground an

35、d background fusion network1419第 43 卷计算机应用c1=(k1L)2和c2=(k2L)2是用来维持稳定的常数，L是像素值的动态范围，k1=0.01，k2=0.03。更低的 MSE或者更高的 PSNR和 SSIM表示编辑模型性能更好。本文仅在 Edit-100k 上评估各生成指标，因为真实文本数据集没有成对文本图像数据可供计算；而在真实数据集可以通过可视化对比来评估编辑图像的质量。3.2消融实验消融实验主要集中在以下几个模块：字体分类器、字符分类器、端到端微调训练策略。图7展示了消融实验的可视化结果，可以看到，相较于原始的基线模型SRNet，模型在增加了字体分类

36、器的辅助引导之后对于文字的风格样式上与原图更加接近；而在加入了字符分类器的引导之后，原本字形生成不够精确的字符都被引导生成为更正确的字符形状，例如第一列中“C”、第二列中的“r”、第四列中的“m”；最终对整体网络端到端微调优化后也对编辑效果有一定提升，例如第三列中的“H”。消融实验的量化评估结果如表2所示，其中：表示加入对应的模块，则表示未加入；则表示每增加一个模块相对上一模块的结果之差。可以看到，本文方法的 PSNR、SSIM和 MSE 分别为 25.48 dB、0.842和 0.004 3，相较于基线模型SRNet，PSNR、SSIM 分别提升了 2.57 dB、0.055，MSE 降低了

37、0.003 1，每一个模块的加入都提升了模型的效果。3.3对比实验与现有方法进行对比的量化评估结果如表 3所示。与本文方法采用相同模型框架的 SwapText 主要是在 SRNet 的框架上加入了控制文本几何变形的CSTN模块以及聚合内容与风格特征的自注意力机制。相较于SwapText，本文方法在三个指标上表现也更好，PSNR 和 SSIM 分别提升了 2.11 dB和0.046，MSE下降了0.002 4。3.4场景文本图像编辑可视化由于本文中的编辑模型主要针对单文本图像编辑，但真实场景图像大多包含多个文本实例，因此场景文本图像编辑需要先使用上游文本检测方法对各文本实例进行检测，然后再选择编

38、辑的文本实例和新的文本内容，并将两者一同输入文本编辑模型中进行生成。本文使用的文本检测模型是微分二值化网络（Differentiable Binarization Network，DBNet）5，主要是因为DBNet不仅可以达到具有竞争力的检测性能，同时还能拥有较快的检测速度。在图8中可以看到，本文方法在ICDAR2013数据集的真实场景文本图像上准确地完成了文本编辑操作，无缝将新的文本内容替换掉原图中的旧文本，并保持风格样式不变，甚至保留了各自场景的光照与模糊效果。4 结语本文提出了一种利用字体字符类别属性引导的分阶段文本编辑网络，将复杂有挑战性的文本编辑大任务分解为三个任务：前景文本变换

39、、背景修复和前背景融合。同时，结合字体字符分类器引导，本文方法不仅维持了编辑前后文字风格样式的一致性，而且提升了新文本生成的可读性，解决了文本伪影与文字误差的问题。本文还针对分阶段的文本编辑网络设计了对应的训练策略，进一步提升了模型的编辑效果。实验中，本文方法的评估指标与可视化效果都优于SRNet和 SwapText。在未来的工作中，希望解决更加复杂极端的文本图像编辑任务，例如极端光照、模糊、立体效果的文字图像，完成对任意文本图像场景的编辑。此外，也将探索使用其他文本图像属性更全面地引导文本编辑任务。表2消融实验的量化评估结果Tab.2Quantitative evaluation resul

40、ts of ablation studySRNet字体分类器字符分类器端到端微调PSNR/dB结果22.9123.9324.4525.481.020.521.03SSIM结果0.7870.8130.8270.8420.0260.0140.015MSE结果0.007 40.006 10.005 30.004 3-0.001 3-0.000 8-0.001 0图7消融实验的可视化结果Fig.7Visualization results of ablation study表3对比实验量化评估结果Tab.3Quantitative evaluation results of comparison ex

41、periments方法SRNetSwapText本文方法PSNR/dB22.9123.3725.48SSIM0.7870.7960.842MSE0.007 40.006 70.004 3图8自然场景文本图像的可视化结果Fig.8Visualization results of text images in nature scenes1420第 5 期陈靖超等：基于字体字符属性引导的文本图像编辑方法参考文献（References）1 ZHOU X Y，YAO C，WEN H，et al.EAST：an efficient and accurate scene text detectorC/Pro

42、ceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition.Piscataway：IEEE，2017：2642-2651.2 LI Y，WU Z，ZHAO S，et al.PSENet：psoriasis severity evaluation network C/Proceedings of the 34th AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2020：800-807.3 WANG W H，XI

43、E E Z，LI X，et al.PAN+：towards efficient and accurate end-to-end spotting of arbitrarily-shaped textJ.IEEE Transactions on Pattern Analysis and Machine Intelligence，2022，44（9）：5349-5367.4 LIAO M H，WAN Z Y，YAO C，et al.Real-time scene text detection with differentiable binarizationC/Proceedings of the

44、34th AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2020：11474-11481.5 师广琛，巫义锐.像素聚合和特征增强的任意形状场景文本检测 J.中国图象图形学报，2021，26（7）：1614-1624.（SHI G C，WU Y R.Arbitrary shape scene-text detection based on pixel aggregation and feature enhancementJ.Journal of Image and Graphics，2021，26（7）：16

45、14-1624.）6 SHI B G，BAI X，YAO C.An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognitionJ.IEEE Transactions on Pattern Analysis and Machine Intelligence，2017，39（11）：2298-2304.7 WANG T W，ZHU Y Z，JIN L W，et al.Decoupled attention network

46、for text recognitionC/Proceedings of the 34th AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2020：12216-12224.8 LI H，WANG P，SHEN C H，et al.Show，attend and read：a simple and strong baseline for irregular text recognitionC/Proceedings of the 33rd AAAI Conference on Artificial Intel

47、ligence.Palo Alto，CA：AAAI Press，2019：8610-8617.9 WANG Y Z，LIAN Z H.Exploring font-independent features for scene text recognition C/Proceedings of the 28th ACM International Conference on Multimedia.New York：ACM，2020：1900-1920.10 朱莉，陈宏，景小荣.任意方向自然场景文本识别 J.重庆邮电大学学报（自然科学版），2022，34（1）：125-133.（ZHU L，CHE

48、N H，JING X R.Text recognition of natural scenes in any directionJ.Journal of Chongqing University of Posts and Telecommunications（Natural Science Edition），2022，34（1）：125-133.）11 WANG Y Z，GAO Y，LIAN Z H.Attribute2Font：creating fonts you want from attributesJ.ACM Transactions on Graphics，2020，39（4）：No

49、.69.12 XIE Y C，CHEN X Y，SUN L，et al.DG-Font：deformable generative networks for unsupervised font generation C/Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway：IEEE，2021：5126-5136.13 LIU Y T，LIAN Z H.FontRL：Chinese font synthesis via deep reinforcement

50、 learningC/Proceedings of the 35th AAAI Conference on Artificial Intelligence.Palo Alto，CA：AAAI Press，2021：2198-2206.14 WU L，ZHANG C Q，LIU J M，et al.Editing text in the wild C/Proceedings of the 27th ACM International Conference on Multimedia.New York：ACM，2019：1500-1508.15 YANG Q P，HUANG J，LIN W.Swa

注意事项: 本文（基于字体字符属性引导的文本图像编辑方法_陈靖超.pdf）为本站上传会员【自信****多点】主动上传，咨信网仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知咨信网（发送邮件至1219186828@qq.com、拔打电话4008-655-100或【微信客服】、【 QQ客服】），核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载【60天内】不扣币。【服务填表】