基于Re-Perceptron-CRF的规范类文本分词研究.pdf
《基于Re-Perceptron-CRF的规范类文本分词研究.pdf》由会员分享,可在线阅读,更多相关《基于Re-Perceptron-CRF的规范类文本分词研究.pdf(8页珍藏版)》请在咨信网上搜索。
1、Jun.2023JOURNALOFCHENGDUUNIVERSITYOFINFORMATIONTECHNOLOGY2023年6 月Vol.38No.3息第38 卷第3期程成报大学学都信文章编号:2 0 96-16 18(2 0 2 3)0 3-0 2 98-0 8基于Re-Perceptron-CRF的规范类文本分词研究李宝林,刘宇韬(成都信息工程大学物流学院,四川成都6 10 10 3)摘要:通过Re-Perceptron-CRF组合方法,利用规范类文档特点,对关键词进行切分。分别采取Viterbi、Pe r c e p-tron、CRF和Re-Perceptron-CRF4种算法分别对规范
2、类文本进行分词研究。具体为基于句法分析对规范类文本使用正则表达式进行标准化处理,得到适合分析的预处理文本,并通过Perceptron与CRF的双重算法返回各自的最优结果。实验表明,Re-Perceptron-CRF算法明显提高分词效果,在准确率和召回率上均有良好表现,其准确率和召回率分别达到94.36%和97.0 2%。该方法为规范类文本中文分词相关工作提供一定的研究思路,为后续应用提供好的数据支撑。但由于数据量较小,该方法仅适用于特定领域,如建筑检测领域。关键词:管理科学与工程;文本分析;中文分词;Re-Perceptron-CRF;词性标注中图分类号:TP391.1文献标志码:Adoi:1
3、0.16836/ki.jcuit.2023.03.0080引言在进行中文文本识别时,由于中文文本中每段话的字词都是紧密相连,缺乏明显的词语边界1,计算机不能直接识别这些连续的字词。在自然语言处理(n a t u r a l l a n g u a g e p r o c e s s)2 中,计算机需要将这些词语从一段话中识别出来,为其添加分隔符3,这一过程即为中文分词一一将一段连续的话拆分成若干词语并按原文顺序拼接。然而,随着语料库的不断加深,传统的识别算法早已无法满足需求,面对的场景领域多样、文本的内容格式不统一,如何准确分词是当下一大技术难点。本文以规范类文本为研究对象,解决规范类文本的分
4、词需求,从相对规范到绝对规范,即达到最终分词结果全部为有效信息的目的,将是本文的重点研究内容。1相关研究中文分词存在诸多研究难点,尽管国家早已颁布信息处理的分词规范,但实际应用中很容易受主观因素影响导致结果大相径庭。同时,各种未登录词4(即语料库中并未收录或从未训练过的词)的相继出现,包括网络用语、领域术语、专有名词等,都会严重影响分词的准确性。在规范类文本中,其内容具有高度规范性,也就是每个字词都是经过密推敲后定稿,绝不会出现语气助词或多余的修饰词。因此,其内容包收稿日期:2 0 2 2-0 7-0 5基金项目:四川省科技服务业示范资助项目(2 0 2 1GFW015);四川省电子商务与现代
5、物流研究中心重点资助项目(DSWL21-3)括很多组合性专业名词和连接助词,对于现有语料库而言,这些词语通常很容易被误分。如组合词“邵氏硬度”通常都会被划分为“邵氏”和“硬度”两个词语;“擦伤、划伤”中两个词语的词性实则为名词,但基于大量语料库的概率情况而言,通常又会将其判定为动词;“连接严重锈蚀”这样一类组合拼凑词为一个整体,但是计算机通常将其划分3部分:“连接”“严重”“锈蚀”,这完全背离词语本意。而划分词性是计算机实现分词的依据,根据词的特点(语法、形态、句意等)将其划分为不同种类。每一段句子都是由不同种类的词性按照一定的规律排列组合而成,通过识别每一个词的词性并对其标注,进而达到词语划
6、分的目的,也就是确定各词归属类别的过程5。通过联系上下文关系,在特定的语境中,采用得体的方法确定词性,消除语法兼类6-7 常用的词性标注包括4大类8 :基于规则的词性标注方法9,主要是根据上下文的词语联系、搭配关系将自定义规则写入确定当前词的词性,虽然能够高效利用上下文信息,但随着语料库的增加,人力投入不断增大,且这种规则的覆盖面并不广泛,容易发生规则冲突10 ,无法应用于大部分领域。基于统计模型的词性标注方法,该方法的核心思路是将一段词性视作一段序列标注问题,判定每一个词出现的词性概率。通过使用具有正确词性标注数据的语料库训练经典模型,如HMM(隐马尔科夫模型)11、CRF(条件随机场)12
7、 、ME(最大熵)【13 等,达到词性自动标注的效果,极大减少了人力。不过词语之间长距离的依赖现象和不确定性并不能很好地解决14。基于统计方法299李宝林1-CRF的规范类文本分词研究n第3期与规则方法相结合的词性标注方法15,将两种方法结合并针对性地使用,即筛选根据统计方法标注的结果,对词性标注可信度较低的目标进行规则匹配,进而消除歧义。基于深度学习的词性标注方法,同样也是解决序列标注任务,常用方法有LSTM+CRF、Bi LST M+CRF16 等。为探寻更加高效的分词方式和精确的词语识别率,学者们不断探索,实现算法的改进。刘伟等17 提出一种通过计算语境相似度检验中文分词一致性的方法,该
8、方法依赖词性和依存句法,利用词向量进行语义编码,通过实验发现能有效提高分词一致性检验的准确率,对人工分词语料标注相关工作具有一定辅助作用。凤丽洲等18 提出一种组合词迭代的双向匹配分词方法,该方法基于N-gram统计模型,能有效规避免长条词语的分词准确率的影响,实现最优分词序列。LiuJ等19 通过从字典中随机抽取单词生成伪标记数据和共享相同的网络参数,联合训练汉语分词和词分类任务这两种方法对词典中的中文进行分词,对训练数据不足的情况能显著提高中文分词性能。GanL等2 0 通过BERT研究上下文字符嵌人的影响,提出一种将单词信息整合到Self-Attention网络中的分词方法,并通过与Bi
9、LSTMs对比,发现该模型具有显著优越性。SiH等2 1 利用复杂网络的特点对中文分词进行研究,发现复杂网络特征算法对解决分词速度和准确率的冲突问题具有明显效果。Yan H等2 2 提出一种基于图的中文分词和依存句法分析集成模型,该模型可以在选取更少的特征下拥有更高的分词效率。规范类文本是一种属于高度规范的非结构化数据,与一般的非规范类文本相比,该文本主要为定量描述,即文本内容通常可以直接进行实证分析。以玻璃幕墙缺陷类型为例,在“爆边:长度或宽度不得超过玻璃的厚度”中,明确指出缺陷名称为“爆边”,“长度或宽度不得超过玻璃的厚度”则以明确的玻璃厚度范围限定爆边的长度与宽度,是一种数字化描述。而非
10、规范类文本通常是定性描述,如“某玻璃幕墙质量未达标”“某窗户的裂纹缺陷较大”等没有明确指标的描述通常都为非规范类文本。在规范类文本中,尽管文本内容相对严谨(即不存在语气词、叹词等无关词),但并非所有内容都是关键内容。如在“爆边:长度或宽度不得超过玻璃的厚度”这一文本中,真正有用的词语仅为“长度”“宽度”“不超过”“玻璃厚度”。同时,在传统分词中,很难将“不超过”“不大于”“不允许”以及“玻璃厚度”“点状缺陷”等词作为一个整体进行切分,而多数分词结果均以“不/超过”“点状/缺陷”两个部分呈现。针对以上分析,本文提出一种Re-Per-ceptron-CRF的分词方法通过正则匹配将规范类文本进行内容
11、标准化,进而提高分词的精确度,并与经典模型进行对比实验。2基于规范类文本的分词算法构建中文分词通过将一段文本拆分为一系列词语后,分别为这些词语进行词性标注工作,通过确定这些词性才能按照原本顺序拼接并重新形成完整的文本2 3。在中文分词中需要用到由语音、词汇、语法构成的语言模型。语言模型就是在给定一段句子的条件下,将词语出现的概率进行计算的模型,而统计的对象就是人工标注而成的语料库。主要语言模型有美国语言学家Chomsky提出的PSG2(短语结构语法)模型、统计语言模型n-gram(n元语法)模型2 4 和深度学习语言模型NNLM(神经网络语言模型)【2 5。本文主要使用基于统计语言模型的Vit
12、erbi26算法和基于深度学习语言模型的Perceptron感知机2 7 与CRF条件随机场进行实验。其中,统计语言模型n-gram的意思是,每个词语出现的概率仅受该词语之前的n-1个单词影响。换言之,一元语法模型表示各个词语相互独立,二元语法表示该词语出现的概率只取决于自身前一个词语影响,以此类推。具体公式:p(w)=Il,-2,1)深度学习语言模型则是指利用神经网络对语言模型进行训练,每次得到一个字符串作为一个句子出现的概率,每一个句子本质上就是一个词向量2 8 2.1基于Viterbi的规范类文本分词算法构建Viterbi算法本质上是使用动态规划的方法递归求解隐藏状态序列,是一种剪枝算法
13、,用于寻找一段观测序列的维特比路径(隐含状态最优路径),本文目标就是对一个最优路线二分类问题进行求解。在规范类文本中,对文本分词可以采用Viterbi算法进行求解,具体实现以“脱胶:不允许”为例,具体流程见图1。CInputt。起始位置脱胶EMBBEMEMB不BSEMEMBSEMBSSEMEMBSBSEMBSEMEMBSSESEES图1Viterbi词性确定流程大300息报程都成信第38 卷学学每一个汉字对应一个位置t。其中的B、S、M、E表示每个汉字的状态:B(b e g i n)词首,M(mi d-dle)一词中,E(end)-词尾,S(single)一单独一成词。首先输入本文模型入和观测
14、序列O=(“脱”,“胶”,“:”,“不”“允”,“许”),输出目标即求得从to位置起始到t位置终止整个过程中,该观测序列0 的最优路径I*=(i t,,i),即序列O的对应的最佳隐藏状态。根据Viterbi算法,进行前置变量定义:定义为在位置t状态为i的所有单个路径(i,:,)中的概率最大值:(i)=max,P(i+=i,i,it,.+,.,|)i1,i2,it=max8,(j)a,b,(ot+1),1jNi=1,2,.,N;t=1,2,.,T-1定义为在时刻t状态为i的所有单个路径(i,1,i)中概率最大的路径的第t-1个结点:,(i)=argmax8.-(i)a,i=1,2,N根据上述公式
15、,按照以下步骤进行算法求解:(1)确定从t。位置(Input位置)到t位置的所有路径,目前这些路径都是最优备选路径;(2)依次选择起始位置到t位置的所有路径,并确定在t位置到t位置的所有路径选择;(3)确定从t到t位置备选的所有路径中概率最大者(即8,值)最大的路径后,选择t位置到t位置最优的路径,然后根据将当前路径最终点位作为最大路径结点,并将其他路径选择舍弃;(4)重复(3),确定t位置所有路径分别到t位置上第2 个点位处的路径中8,最大的路径,并将当前路径最终点位作为最大路径结点3,同时舍弃其他路径;(5)来到t2位置,重复步骤3)、(4)中的操作,确定t位置所有路径分别到t3位置上第1
16、、2 个点位处的路径,选择最优路径,舍弃其他路径;(6)递推,重复上述操作,直到抵达t。位置结束迭代,也就是抵达句子末尾;(7)最优回溯路径,求得最优路径I*=(B,E,S,B,M,E),具体路线见图1加粗部分。2.2基于Perceptron感知机的规范类文本分词算法构建感知机算法是一种迭代式的算法:通过在训练集上进行多次迭代,每次读入一个样本并进行预测后,将预测结果与正确答案对比,计算误差,根据误差更新模型参数,再次训练,反复迭代,直到误差达到最小为止。在规范类文本分词中,通过使用结构化感知机进行实验,得知相比普通感知机,其对更新参数的奖惩机制与特征函数的权重紧密相连,更能提高分词准确率,同
17、时还能调整学习率。以判定“擦伤”词性为例,具体流程见图2。BEGetrewardNUpdateAnoptimalCnput-擦伤Y(Terminate)PolicypolicyisfoundGetpartsSSofpenalty图2Perceptron词性判别奖惩流程(1)输人训练样本x,同时定义打分函数score(x,y)=(x,y)。其中,(,y)表示x和之中的特征,表示每个特征对应的权重,这些特征来源于输人文本“擦伤”的词性,即(B,M,E,S),并用这些特征进行序列标注;(2)根据样本和对应真实值y,可以得到=argmaxw (x,y);yEY(3)将预测的y=argmax(x,y)(
18、预测的擦EY伤的词性标注)与=argmax(x,y)(真实的擦yEY伤词性标注)比较,即确定“擦伤”的词性划分是否为需求词性;(4)如果两者不同,则对其惩罚,即根据打分函数扣除其分值,而后对参数更新;(5)重复(4)中操作,反复迭代,直到找到最优解,并给予奖励,结束训练。2.3基于CRF条件随机场的规范类文本分词算法构建条件随机场(conditionalrandomfield,CRF)是通过给定观测序列X=(x 1,2,n-1,x,)和状态序列Y=(y i,y 2,,y n-1,y n),进而求解条件概率P(YIX)最优的无向图2 9O以“中空腔有异物:不允许”为例,展示CRF在规范类文本的分
19、词流程(图3)。BMESBESBME-Getewad中空腔有异GetpartsUpdateAnoptimal(Input)物:不充许BESSBESSBEofpenaltyPolicypolicyisfoundTeminateGiet.partsSBEBMESBMEofpenalty图3CRF分词奖惩流程(1)采用CRF对规范类文本分词是一种序列化算301李宝林tron-CRF的规范类文本分词研究第3期法(sequencelabeling algorithm),观测序列X即为待分词串,状态序列Y就是对应的词性,并且X和Y两个序列等长,此时应将其视作线性链(linearchain)条件随机场,即满
20、足马尔可夫性30 P(Y,IX,Yi,*.,Yi-,Yi+1,.,Y,)=P(Y,IX,Yi-1,Yi+1)(2)观测序列X即X=“中”“空”“腔”,“有”,“异”“物”:,“不”,“允”,“许”,状态序列同样为(B,M,E,S,并根据上述给定序列X和Y以及所求解概率P(YIX),有如下形式:1P(YIX)=Z(x)exp(EAtta(yi-1,yi,x,i)+i,kZus(yi,x,i)(3)Z()为归一化函数:Z()=Eexp(Eat(yi-1,yi,x,i)+YZusi(yi,x,i)并且,t和s,为特征函数,入,和u,为对应的权重值。(4)通过对特征函数的所有权重值进行训练,遍历出X=
21、“中”,“空”,“腔”,“有”,“异”,“物”:,“不”“允”,“许”中所有可能出现的序列,并对其中所有错误的状态序列进行惩罚,不断更新模型参数。与Perceptron相比,CRF在特征函数、权重向量、打分函数预测算法以及结构化学习上完全相同,其区别只在于Perceptron每次只使用一个训练实例,而CRF则考虑整个数据集。换言之,Perceptron会惩罚最严重的错误情况,而CRF使所有错误情况均摊承受惩罚。2.4基于Re-Perceptron-CRF的规范类文本分词算法构建该规范类文本存在部分定性描述,容易影响分词结果,但经过对文本的研究,发现多数文本可以归为不同类别。因此,本文提出一种基
22、于Re-Perceptron-CRF的组合分词算法,首先将初始规范类文本按照规则进行分类,对分类后的文本进行依存句法分析31,根据分析结果采取正则表达式32 匹配换行符、空格、转义符号等文本,从而减少无用字词(的、得等无意义字)和标点符号等无效字符串对分词效果的影响,以及将部分词语进行合并,再根据处理后的文本将Perceptron和CRF进行融合匹配,即同时执行两种算法,返回两种算法各自的最优结果。在对文本修正的过程中,发现规范类文本多数为组合词语,而在对这些组合词语进行识别时很容易将其切分为两组词语。因此,该算法通过对比Perceptron和CRF的分词情况,优先返回各自词数更长匹配的结果。
23、具体流程见图4。DataProcessingDependencyParsingChineseWordSegmentationInput.textReturnrespectiveToxtoptimalresultscategorizationPerceptronCRFTextCat.cgorylsegmentationCategory2StandardizedPart-of-speechCategoryltaggingStandardizedCalegoryn-1Category2CategorynDependencyparsingStandardizedCategoryn-1Useregula
24、rStandardizedexpressiontoCategorynstandardizedatas图4Re-Perceptron-CRF算法流程3实验及分析3.1实验数据实验数据节选自玻璃幕墙缺陷类型,该文本为对玻璃幕墙中常见的缺陷类型及其详情描述。在玻璃幕墙中存在多种规范,该文本即是记录缺陷名称及其表现情况和判定依据。例如,判定某幕墙存在划伤缺陷的依据为:(1)当划伤宽度0.1mm且长度10 0 mm时,每平方米面积内允许存在4条划伤处;(2)当划伤宽度为(0.1,0.5)mm且长度100mm时,每平方米面积内允许存在3条划伤处。根据建模流程和文本描述情况,原文本可按照如下方式进行分类。(
25、1)d-f:defect-forbid,缺陷不允许,对于某类缺陷明令禁止存在,文本格式为:“缺陷:不允许”。共2 6 38个词数;(2)t-d:t e x t-d e s c r i p t i o n,文本描述,对各种尺寸要求或其他规格的单一描述,为一个单句。共1356 个词数;(3)c-t-d:c o n d i t i o n-t e x t-d e s c r i p t i o n,条件文本描述,对相同场景不同条件下,某一尺寸要求或其他规格的规范描述,为一个长句。共316 2 个词数;(4)m-t-d:multiple-text-description,多项文本描述,对不同场景下,某
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Re Perceptron CRF 规范 文本 分词 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。