基于ChineseBert的中文拼写纠错方法.pdf
《基于ChineseBert的中文拼写纠错方法.pdf》由会员分享,可在线阅读,更多相关《基于ChineseBert的中文拼写纠错方法.pdf(11页珍藏版)》请在咨信网上搜索。
1、DOI:10.13232u.2023.02.013CNATURASCIENCEMar.,20232023年3月JOURNALUNIVERSITYVol.59,No.2第59 卷第2 期南京大学学报(自然科学)基于ChineseBert的中文拼写纠错方法崔凡,强继朋*,朱毅,李云(扬州大学信息工程学院,扬州,2 2 512 7)摘要:中文拼写错误主要集中在拼音相似和字形相似两个方面,而通用的预训练语言模型只考虑文本的语义信息,忽略了中文的拼音和字形特征,最新的中文拼写纠错(Chinese SpellingCorrection,CSC)方法在预训练模型的基础上利用额外的网络来融人拼音和字形特征,但
2、和直接微调预训练模型相比,改进的模型没有显著提高模型的性能,因为由小规模拼写任务语料训练的拼音和字形特征,和预训练模型获取的丰富语义特征相比,存在严重的信息不对等现象。将多模态预训练语言模型ChineseBert应用到CSC问题上,由于ChineseBert已将拼音和字形信息放到预训练模型构建阶段,基于ChineseBert的CSC方法不仅无须构建额外的网络,还解决了信息不对等的问题,由于基于预训练模型的CSC方法普遍不能很好地处理连续错误的问题,进一步提出SepSpell方法.首先利用探测网络检测可能错误的字符,再对可能错误的字符保留拼音特征和字形特征,掩码对应的语义信息进行预测,这样能降低
3、预测过程中错误字符带来的干扰,更好地处理连续错误问题.在三个官方评测数据集上进行评估,提出的两个方法都取得了非常不错的结果关键词:中文拼写纠错,Bert,Ch i n e s e Be r t,多模态语言模型中图分类号:TP391.1文献标志码:AChinese spelling correction method based on ChineseBertCui Fan,Qiang Jipeng,Zhu Yi,Li Yun(School of Information Engineering,Yangzhou University,Yangzhou,225127,China)Abstract:C
4、hinese spelling errors mainly focuse on both phonetic and glyph similar.General pretrained language models onlyconsider the semantic information of the text,ignoring the Chinese phonetic and glyph features.The latest Chinese SpellingCorrection(CSC)methods incorporate pinyin and glyph features via ad
5、ditional networks on the basis of the pretrainedlanguage models.Compared with fine-tuning pretrained model directly,the improved model does not significantly improve theperformance of CSC task.Because of the phonetic and glyphic features trained by the small-scale spelling task corpus,there isa seri
6、ous information asymmetry compared with the rich semantic features obtained by the pre-training model.To betterlysolve the information asymmetry,this paper tries to apply the multimodal pre-training language model ChineseBert to theCSC problem.Since ChineseBert combines phonetic and glyph informatio
7、n into the pre-training model building stage,CSCbased on ChineseBert not only neednt to build additional networks,but also solve the problem of information asymmetry.The CsC method based on the pretrained model generally cannot deal with continuous errors very well.Therefore,wepropose a novel method
8、 SepSpell,which firstly uses the probing network to detect potentially incorrect characters,andpreserves the phonetic and glyphic features of the characters that may be incorrect to predict the coresponding semanticinformation of the mask.SepSpell reduces the interference caused by incorrect charact
9、ers during the prediction process,so asto better handle the problem of continuous errors.Evaluating on three official evaluation datasets prove both methods withvery good results.Key words:Chinese Spelling Correction,Bert,ChineseBert,multimodal pretrained modeling基金项目:国家自然科学基金(6 2 0 7 6 2 17,6 19 0
10、6 0 6 0),扬州大学“青蓝工程”收稿日期:2 0 2 2-1114*通讯联系人,E-mail:303第2 期崔凡等:基于Chin的中文拼写纠错方法中文拼写纠错(Chinese Spelling Correction,CSC)是一项中文自然语言处理任务,旨在检测并校正文本错误,可用于浏览器搜索优化1、光学字符识别 2 和论文评分 3 等任务.早期的CSC研究遵循错误检测、候选生成和候选选择的流程4-6但由于缺乏标注语料,这些方法几乎都采用了无监督的n-gram统计语言模型.尽管这些模型具有简单、容易解释等优势,但由于其很难获取文本的深层语义信息,效果不佳.最近,随着大型预训练语言模型的成功
11、(如Bert7,Robertal8),基于预训练语言模型的CSC方法也被提出.Hongetal2提出FASpell模型,采用Bert作为CSC的去噪自动编码器来生成候选字符,并通过计算字符之间的相似度来筛选字符.虽然获得了不错的结果,但由于Bert等预训练语言模型只考虑字符的语义信息,导致生成的候选字符更多地只考虑语义相似的字符.Liuetal9指出,大约8 3%的错误与语音相似性有关,48%与视觉相似性有关.如图1a所示,一些工作在预训练语言模型中,通过额外网络融入语音和视觉信息辅助生成候选字符.例如,Cheng et al10提出SpellGCN模型,利用Bert初始化每个字符的节点特征,
12、再使用两个图卷积网络在混淆集上分别学习字符之间的形状和拼音的相似关系。Xuetall提出REALISE模型,通过额外的GRU(GatedRecurrentUnit)网络和卷积网络分别获取字符的字音和字形特征.Huang et al12提出PHMOSpell模型,通过VGG19和神经TTS网络分别获取字符的字形和字音特征等。但基于该框架训练的CSC模型只能利用CSC语训练得到的拼音和字形特征,与预训练模型获取的语义特征之间存在特征不对等的问题.但如果预训练语言模型在构建时融人拼音和字形等特征(如图1b所示),就不需要构建额外的网络,可直接进行中文拼写纠错,不仅简化了模型结构,也解决了因训练数据不
13、同带来的特征信息不对等问题.近期,Sun etal13提出ChineseBert预训练模型,联合了中文的字形和拼音两个重要特征.和只关注语义特征的预训练模型相比,ChineseBert提升了一些中文下游任务的性能,但还没有工作利用ChineseBert进行CSC任务本文首次将环境污然问题环境污染问题环境污然问题环境污染问题预训练模型语义多模态预语音提取器字形训练模型拼音视觉提取器(a)(b)图1CSC模型结构对比:(a)现有方法通过添加额外的语音和视觉提取网络来获取字符多模态信息;(b)仅通过多模态预训练模型进行中文拼写纠错Fig.1 Comparison of two different C
14、SC frameworks:(a)existing methods which acquire character multimod-al information by adding additional speech and visualextraction networks,(b)CSC performed only throughmulti-model pre-trained modelChineseBert预训练模型应用到CSC任务,在不添加任何额外网络的情况下,仅利用ChineseBert在CSC数据上进行微调.在三个人工标注的数据集SIGHAH2013,SIGHAH2014,SIG
15、HAH2015 上进行实验,获得了非常好的结果,ChineseBert直接对输入的句子进行预测,当句子中存在连续拼写错误时,其真实含义可能会因为错误字符而发生很大的变化,模型几乎不能捕捉句子准确表达的意思,而两个及更多字组成的词出错是很常见的.例如,用户想输入句子“他上课经常迟到”,而根据拼音“chidao选择词的时候,有可能选择“赤道”,造成拼写错误.连续的错误字符通常会混淆上下文语义环境,预测“赤”的可能候选词时会受“道”的干扰,反之亦然,导致模型不能正确预测 14.为了更好地处理连续拼写错误的问题,本文基于ChineseBert进一步提出新的CSC方法Sep-Spell,包含一个探测模型
16、和校正模型,其中探测模型采用与探测任务更吻合的ELECTRA15作为模型编码器,校正模型仍然采用ChineseBert模型.校正过程中,利用探测网络找到可能错误的字符的位置,利用mask字符屏蔽错误字符的语义特征,保留对预测输出有帮助的字形和字音特征。和直接利用ChineseBert的方法相比,SepSpell能较好地处理连续的拼写错误,在三个人工标注的数据集SIGHAH2013,SIGHAH2014,SIGHAH2015上,SepSpell的校正水平比ChineseBert的F1分别提高3.0%,1.9%和2.1%.考虑到官方基304南京大学学报(自然科学)第59 卷准数据集中缺乏连续错误的
17、案例,根据拼音输人法会出现连续错误的特点,构建用于训练和评估连续错误的数据集.在相同数据集训练下,SepSpell的校正水平比直接微调预训练模型的Ro-berta8的F1提高约10%,验证了SepSpell针对连续错误问题的有效性.1相关工作近几年CSC得到了关注 16-18 。和中文语法错误纠正(Grammatical Error Correction,GEC)19-20)不同,GEC包括删除多余的字符和插人缺失的字符,而CSC只专注于检测和纠正字符.尽管CSC只进行字符的替换,但设计高效的CSC方法仍然是一项艰巨的任务,早期的CSC研究主要集中在基于规则的无监督方法上,设计各种规则来处理不
18、同类型的拼写错误(4-6 .这些方法几乎都使用了n-gram语言模型,即如果一个字符在n-gram语言模型中出现的概率低于预定义的阈值,就被认为是拼写错误.在校正方面,混淆集被广泛使用作为候选词的生成.随着神经网络的发展,一些研究将CSC任务视为序列标记任务 2 1,使用双向LSTM(Long Short-TermMemory)作为模型框架.序列对序列框架中的复制机制也被引人CSC,但其只是从混淆集中复制可能的校正词 2 2 .随着大型预训练语言模型的巨大成功 7-8 ,许多基于Bert的CSC模型被提出,也取得了很大进展.Hongetal?2提出的FASpell中,语言模型被用作候选词生成器
19、,并采用置信度-相似度曲线来选择最佳候选词.Soft-Masked-Bert23由基于GRU的错误检测模块和基于Bert的错误纠正模块组成,但Bert预训练语言模型只考虑字符的语义特征,忽略了字符的字形字音特征,为此,很多工作都设计了独特的网络将字形字音特征融人预训练模型10-12 1,然而,这种通过额外网络融合拼音和字形特征的方法,不仅使CSC模型整体更加复杂,而且由于拼音和字形特征和语义特征训练时的语料不同,导致得到的字形、拼音和语义出现特征信息不对等的问题,使模型的性能提升有限.不同于先前的基于预训练语言模型的工作,本文尝试利用文本、拼音和字形训练的多模态中文预训练语言模型Chinese
20、Bert来解决CSC任务.最近,一些研究开始关注由错误字符引起的噪声信息问题.Guo etal24提出一个全局注意力解码器(Global Attention Decoder,GAD)来缓解噪声信息的影响.Wangetal141提出动态连接网络(Dynamic Connected Networks,DCN)来学习两个相邻汉字之间的依赖关系,一定程度上避免了模型因噪声影响输出不连贯的语句.Wang andShang25通过对候选句子重新进行评估,找到与原始错误字符相比在字符概率和相似度方面最好的句子来避免噪声的影响.这些方法虽然在一定程度上提高了模型的性能,但本质上都是对模型校正之后结果的重新筛选
21、和排序,噪声信息仍被输人了模型,干扰了模型的预测.与这些方法不同,本文提出的SepSpell方法通过mask字符将屏蔽噪声之后的语句输人模型,从源头解决了噪声干扰问题.2基于ChineseBert的CSC方法2.1CChineseBert简介预训练模型最初是为英语设计的,所以在当前的大规模中文预训练模型中缺少两个特定于中文的重要特征:字形信息和拼音信息。中文是象形文字,字形和字音特征包含重要信息,对语言理解十分重要在此背景下,Sunetal13提出全新的中文预训练模型Chinese-Bert,如图2 所示,根据中文特点,对每个汉字,首先将其语义特征、字形特征和字音特征串联起来,然后通过一个全连
22、接层映射到同一维度,形成融合特征,最后将融合特征向量与位置编码向量一起作为Bert模型的输入,同时使用全词掩蔽 8 和喜欢Bert位置编码01234融合特征我很MM猫Fusion Layer语义特征我很MM猫字形特征我很猫字音特征Wohen0mao我很MM猫图2ChineseBert模型框架Fig.2TheframeworkofChineseBert305崔第2 期凡等:基于Chi口文拼写纠错方法字符掩蔽进行预训练.和通用的中文预训练模型相比,ChineseBert在广泛的中文NLP(Na t u r a lLanguageProcessing)任务上实现了最佳性能,也验证了获取的字形字音特征
23、的有效性。2.2楼模型方法给定一个输入文本序列X=(1,2,),CSC任务的目标是自动纠正拼写错误的字符,生成正确的目标序列Y=(y i,y 2,yn),其中i,y(1iN)表示一个中文字符,N表示字符个数,基于ChineseBert的CSC方法是在不添加额外的网络的前提下,仅利用ChineseBert预训练模型在CSC训练数据集上进行微调,输人包含拼写错误的句子,输出正确的句子.和Bert模型相比,ChineseBert唯一不一样的是输人的是字符的多模态特征,具体地,利用式(1)融合字符z,的语义向量eui、字形向量e和字音向量epi,得到融合向量efusion.t;利用式(2)将融合特征向
24、量ejision/与位置编码向量epos.i一起作为Bert模型的输人进行训练.emson.i=WneuDe.Depl(1)J,=Softmax(w.BERT(emo.e.)(2)其中,表示拼接操作,WER3d,xd.是可学习参数的全连接层,十表示相加操作,BERT表示Bert编码器,WERd表示映射到词表上的全连接层,,表示预测第i个字符的概率分布。最终,ChinesBert使用交叉熵损失对模型进行优化:c(3,y)=-Z-,y.lgy:(3)3SepSpell方法除了ChineseBert的方法,现有的基于预训练模型的CSC方法 10-12 都是直接根据输人句子的信息生成目标句子,其优势是
25、简化了纠错过程,但在句子有连续错误时,此类方法会利用错误字符的语义对另一个错误字符进行预测,所以不能很好地处理连续错误的问题例如,一个句子里有两个错误字符,和,,生成字符,的正确字符时利用了错误字符c,的信息.为此,在ChineseBert方法的基础上,本文进一步提出SepSpell方法.SepSpell的框架如图3所示,该方法将CSC经到4CorrecttionNetworkFusionLayer语义特住他课M常上M字形特征他课经常赤道字音特征tashangkejingchangchidao0.030.010.010.100.040.990.400.01DetectionNetwork课经常
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 ChineseBert 中文 拼写 纠错 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。