一种改进的线性变换与多尺度位置编码方法.pdf
《一种改进的线性变换与多尺度位置编码方法.pdf》由会员分享,可在线阅读,更多相关《一种改进的线性变换与多尺度位置编码方法.pdf(9页珍藏版)》请在咨信网上搜索。
1、第 31 卷 第 3 期厦门理工学院学报Journal of Xiamen University of TechnologyVol.31 No.32023 年 6 月Jun.2023一种改进的线性变换与多尺度位置编码方法周伟(厦门理工学院计算机与信息工程学院,福建 厦门 361024)摘 要为了提高离线手写公式的识别率,提出一种线性变换与多尺度位置编码方法,并设计一个密集网络-位置编码-BiGRU的公式识别模型验证该方法的有效性。该方法利用三角函数的线性变换性质,提取符号的绝对位置和符号之间的相对位置,分别从水平、垂直方向进行多尺度伸缩,提取更细微的符号,以及符号之间的位置关系。基于密集网络-
2、位置编码-BiGRU的公式识别模型的实验结果显示,该模型在2个常见测试集 CROHME 2014 和 CROHME 2016 上的识别率分别是 49.92%、50.08%,均超过了 DenseWAP、DenseWAP-TD等同类研究模型;该位置编码方法比普通坐标系位置提升明显,结构识别率超过68.9%,表明该位置编码方法是有效、可行的。关键词位置编码;编码方法;线性变换;多尺度;离线手写公式中图分类号TP391.4 文献标志码A 文章编号1673-4432(2023)03-0058-09An Improved Linear Transformation and Multiscale Posit
3、ional Encoding MethodZHOU Wei(School of Computer&Information Engineering,Xiamen University of Technology,Xiamen 361024,China)Abstract:To improve the recognition rate of offline handwritten mathematical expression,this paper proposed a linear transformation and multiscale position encoding method,and
4、 designed a mathematical expression recognition model of DenseNet-Position Encoding-BiGRU to verify the effectiveness of the method.The method,by making use of the linear transformation properties of trigonometric functions,could extract the absolute and relative position of symbols,and perform size
5、 scale horizontally and vertically to extract more subtle symbols and positional relationships between symbols.According to the results of experiments,the recognition rate of DenseNet-Position Encoding-BiGRU model on two common test sets was CROHME2014(49.92%)and CROHME2016(50.08%)respectively,highe
6、r than similar research models such as DenseWAP and DenseWAP-TD.The structural recognition rate of the position encoding method was significantly higher than that of common coordinate method at 68.9%and more,which proves the position encoding method is effective and feasible.Key words:positional enc
7、oding;encoding method;linear transformation;multiscale;offline handwritten mathematical expressiondoi:10.19697/ki.1673-4432.202303009收稿日期:20220614 修回日期:20220810基金项目:国家自然科学基金项目(61773325);福建省中青年教师教育研究项目(JT180437)通信作者:周伟,男,工程师,硕士,研究方向为模式识别,E-mail:。引文格式:周伟.一种改进的线性变换与多尺度位置编码方法 J.厦门理工学院学报,2023,31(3):58-66
8、.Citation:ZHOU W.An improved linear transformation and multiscale positional encoding methodJ.Journal of Xiamen University of Technology,2023,31(3):58-66.(in Chinese)第 3 期周伟:一种改进的线性变换与多尺度位置编码方法近年来,手写公式的识别逐渐成为了一个热门的研究内容,它在自动阅卷、在线教育、文档识别、公式录入等领域具有很强的应用需求。目前,手写公式的识别研究还处于初期阶段,局部歧义、手写风格迥异、结构复杂等问题仍未得以较好解决
9、。在手写场景下,很多字符仅从形态上难以准确区分,比如手写的英文“b”和数字“6”、字母“x”和乘号等局部歧义和手写风格问题,这都需要结合上下文来推断字符的概率1。另外,公式中常常包含一些结构复杂的符号如、log等,符号之间的位置关系有上下、左右、右上、右下、半包围等,既要识别符号本身,又要识别与其他符号之间的关系,这是公式识别的难点所在。在公式识别研究领域,早期的方法是将其先切分再识别2-3,但该方法容易切分错误,影响识别结果,且切分之后的符号识别未能考虑上下文信息。Sutskever等4提出序列到序列的方法,之后,研究人员开始使用编码器-解码器的无切分方法5,该方法将公式图片在编码器中转换为
10、一个中间向量,中间向量又在解码器中转换为输出序列,这成为公式识别领域的一个热门研究。Zhang等6针对书写风格迥异的问题,添加了空间和时间注意力机制,融合多种不同模态的信息提升效果,该系统在线识别在CROHME2014、CROHME2016的识别率分别为61.16%、57.02%。Deng等7提出了由粗到细的注意力机制,用于识别印刷体和手写公式,在 Im2latex-100k、CROHME2014 的识别率分别为 79.88%、38.74%。Zhang等8提出了多尺度空间注意力机制,解决由字符尺寸差异较大带来的字符丢失问题,该方法在CROHME2014、CROHME 2016的识别率分别为52
11、.8%、50.1%,而且,该方法能够有效处理一些尺寸较小的符号识别,比如小数点或上标等。Nguyen等9提出一种空间分类特征的聚类方法,根据手写符号大小不同尺寸如下标或上标符号等,从多个尺度中提取输入图像的特征,并度量图像之间的空间距离。Zhang等10将基于树结构的双向长短时记忆方法用于在线公式识别中,提取公式的二维结构。张建树11也使用树结构进行离线手写公式识别,在CROHME14、CROHME16、CROHME19的识别率分别为49.1%、48.5%、51.4%。Wu等12提出了一种简称PAL-v2的端到端模型,采用新颖的对抗学方法来学习语义不变特征,以处理手写公式书写风格和格式的多样性
12、问题,该模型在CROHME14、CROHME16的识别率分别为48.88%、49.61%。以上模型在手写公式识别领域均取得不错的效果,除了树结构方法是专门处理位置的之外,其他研究内容都主要放在空间注意力、字符尺寸、书写风格等内容上,与位置编码方法相关的手写公式识别的研究成果较少,而它又是深度学习中处理结构关系和逻辑关系的有效方法。关于深度学习中位置编码的相关研究,Vaswani等13提出一种新颖的位置编码,即正余弦函数交替的位置编码,将词在句子中所处的位置映射成向量,补充到特征向量中,并通过线性变换和点积学习单词之间的距离和相对位置,被证明是一种有效的位置编码方法。之后,位置编码在自然语言领域
13、不断演变出新的方法,如:Chu等14提出条件位置编码和位置编码视觉转换器,根据输入序列的大小而变化,处理各种尺寸的图像,并可以保持平移不变性;Liu等15提出FLOATER绝对位置编码,解决长度限制问题,提升长度未知的泛化能力;Dai等16在Transformer-XL模型中采用相对位置编码替换绝对位置编码,解决长序列的建模问题,它通过每个层注意力处理了词和词之间的距离差。在自然语言处理领域,位置编码方法均取得较好效果。在手写图像识别上,Sabour等17曾提出胶囊网络采用输入向量与权重矩阵相乘方法,编码低级和高级特征之间的空间关系,该方法比较重视卷积网络中特征之间位置关系,虽然能处理局部与整
14、体之间的关系,在手写数字数据集上表现突出,但是网络参数(标量)均替换为向量,比卷积网络运算量大,泛化能力差。因此,本文提出一种改进的位置编码方法,利用三角函数线性变换性质,提取符号的绝对位置和符号之间的相对位置,同时结合多尺度方法,在水平、垂直方向分别进行不同尺度的比例伸缩,以增加符号之间的间距,并分别突出水平、垂直方向的结构关系,从而提取更细微的符号和符号之间的位置关系。1位置编码方法公式符号之间包含重要且复杂的位置关系,除了先后之外,还包含上下标、包围、嵌套等关系。59厦门理工学院学报2023 年首先,由于卷积网络存在难以建模位置(时序信息)的缺陷;其次,循环神经网络在隐藏层每个时间点接收
15、上一个时间点的隐藏状态,能够建立前后时序的关系,但是无法处理公式的复杂结构关系,如上下、包围等。所以,在编码器的特征提取过程中,需要单独保存位置信息,否则在全连接层进行特征整合之后,就会丢失符号之间的位置关系,如符号a2可能被误识别为a2、a2、2a等结构错误,甚至符号错误。位置编码的表示方式有多种,三角函数被证明是一种有效的表示方法,它具有线性变换性质。如位置p和p+b,通过公式sin(p+b)=sin(p)cos(b)+cos(p)sin(b)和cos(p+b)=cos(p)cos(b)-sin(p)sin(b),位置p+b可以通过位置p和b表示或者变换得到,也就可以学习它们的相对位置关系
16、。在Transformer文本序列问题中,词在序列中的位置是一个数字,在二维公式图像中,位置是一个坐标(x,y)。设特征向量的尺寸为(h,w),x 0,h),y 0,w),dm表示时间序列数量,它的值与通道数量相同。在某个时刻i,i 1,dm,生成2个位置函数信号sin()、cos()分别编码奇偶时刻的位置。这些正弦、余弦信号连接成一个位置向量P2,这个向量的第i个时刻位置(x,y)的编码是P2(x,y,i),计算公式为P2(x,y,2i)=sin(x,y 10 0002idm),P2(x,y,2i+1)=cos(x,y 10 0002idm)。(1)假设特性向量尺寸(h,w)的值为(14,1
17、4),不同坐标位置编码P2(x)用正弦或余弦函数交替编码,而且不同的时刻 i(即维度)可以采用不同的三角函数的相位和频率,不同时刻i的x位置编码函数具体如图1所示。由图1可见,这正好符合位置编码的要求,即各个维度周期不一样,而且同一维度内部的值既要有差距,又不能差距太大(在长序列中泛化能力差)。位置信息x与y是分开存储的,位置的向量维度dm,高度h,宽度w,dm的值为512,那么位置x存储在 0,256)的维度,位置y在 256,512)的维度,时刻i=1位置向量分别是 1,14,1,256 和 1,1,14,256,具体如图2所示。接着,经过每一个时刻i之后,填充成完整的位置向量,发现位置向
18、量与特征向量尺寸是一样的,具体如图3示。位置向量与特征向量结合的方法有多种,本文把2个向量相加,拼接起来作为一个新向量,即包含特征和位置的中间向量。在训练中,以不同的尺度比例进行拉伸或缩放位置特征,在更大尺度下提取放大的特征。在尺度图 1不同时刻i的x位置编码函数图Fig.1Function graph of position x at different time i图2初始时刻的位置向量图Fig.2Initial position vector图 3完整的位置向量图Fig.3Complete position vector60第 3 期周伟:一种改进的线性变换与多尺度位置编码方法不变的情况
19、下,对x坐标以m 1尺度变换,可增加符号之间的横向间距,更好区分开符号。同样,y坐标以n 1尺度伸缩,则从纵向上增加间距,更明显突出上下结构关系。在x坐标和y坐标上分别进行的伸缩变换情况如图4所示。这样能让1张图片按不同时刻生成2张伸缩图片,而m和n的值要满足m1和n1(本文设m、n的测试值为3和2)。公式(1)加入位置尺度m 1之后,在时刻(维度)i 1,dm2 的位置x的编码函数如式(2)和式(3)所示:P2(x,2i)=sin(mxe2i(-log10 000dm)2i 1,dm2),(2)P2(x,2i+1)=cos(mxe2i(-log10 000dm)2i 1,dm2)。(3)加入
20、尺度m 1伸缩之后,奇偶时刻正余弦函数交替的编码式子仍然满足线性变换,公式P2(p+b,2i)=sin(mp+mb)=sin(mp)cos(mb)+cos(mp)sin(mb)、P2(p+b,2i+1)=cos(mp+mb)=cos(mp)cos(mb)-sin(mp)sin(mb)仍然成立。由于常量b是已知的,设 u=sin(mb),v=cos(mb),那么替换之后,P P2(p+b,2i)=P P2(p,2i)u+P P2(p,2i+1)v,P P2(p+b,2i+1)=P P2(p,2i+1)u-P P2(p,2i)v,矩阵变换表示形式为 P2(p+b,2i)P2(p+b,2i+1)=u
21、,v-v,u P2(p,2i)P2(p,2i+1)。(4)另外,位置向量的值相乘也能得到位置之间的距离信息,计算公式为P P2(p+b)P2(p)=sin(mp+mb)sin(mp)+cos(mp+mb)cos(mp)=cos(-mb)=v,距离值 v 是已知常量,能代表两者的距离(非真实距离)。2离线手写公式识别模型为了验证以上位置编码方法,本文设计一个离线手写公式识别模型,包括密集卷积网络、位置编码、循环神经网络和注意力机制等主要模块。模型结构如图5所示。图4在x坐标和y坐标上分别进行伸缩变换示意图Fig.4Graph of makes different scale transforma
22、tion on x coordinate and y coordinate respectively图5离线手写公式识别模型结构图Fig.5Recognition model of offline handwritten mathematical expression61厦门理工学院学报2023 年卷积网络在图像特征提取上具有明显的优势,并且密集卷积网络引入跳跃式连接网络,打破了n-1层输出只能作为n层的输入的习惯,输出可以直接跨过多层作为后面某一层的输入,它的特征共享和任意层互联的特性,解决了深层网络在训练过程中梯度消散而难以优化的问题,而且减少了网络的参数和计算量。本文的卷积网络结构如图5
23、所示,它包括多个密集块和过渡层,由于密集块的每一层输入是前面所有层的输出,第t层的输入是 x0,x1,xt-1,第t层的输出是xt,k表示每个密集块中每层输出的特征图个数,每经过一个层,下一层的特征维度就会增长k,k值越大意味着在网络中流通的信息也越大,网络的能力也越强,同时网络的尺寸和计算量也会变大18。参考DenseNet-121网络结构,本文输入图像尺寸 n,h,w,c,其中:h为高度;w为宽度;c为通道数。首先,图像经过64个77卷积核与池化层,其次是3个密集块,密集块分别包括 n1=6,n2=12,n3=24 个的11卷积核和33卷积核,设增长率k的值为32,特征图数量为c 为64,
24、经过第1个密集块和过渡层之后,c 加上n1ck再除2,即(64+6 32)/2=128。以此类推,经过3个密集块和过渡层之后,特征图数c 为512,即特征向量尺寸为 n,h,w,512,并嵌入同样尺寸的位置向量之后,即得到最终的编码器输出。模型的另一个模块是典型的双向门控循环单元(bi-directional gate recurrent unit,BiGRU),它是一种特殊循环神经网络(recurrent neural network,RNN),是处理序列问题的有效方法,并且解决了RNN的梯度爆炸、梯度消失、短时记忆的问题,并且GRU弥补了RNN短时记忆的不足,适合处理长度复杂的公式识别问题
25、。GRU的参数为GRU(ht-1,xt)=(rt=(Wrht-1,xt+br),zt=(Wzht-1,xt+bz)。(5)只有更新门rt和重置门zt 2个门参数,重置门有助于捕捉短期的依赖关系,而更新门有助于捕捉长期的依赖关系。减少门则减少了参数,两个门的权重参数为Wr和Wz,参数和计算量相比LSTM少,训练更容易收敛。接着,把每一个前向隐藏状态和后向隐藏状态拼接为隐藏状态ht,如ht=htht,ht=GRU(xi,ht-1),ht=GRU(xi,ht-1)。(6)ht再加入到输入和输出中间的隐含层,这层可以学习到每个符号的上下文特征。因为数学公式的符号之间具有时序关系和上下文关系,每个特征在
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 改进 线性变换 尺度 位置 编码 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。