![点击分享此内容可以赚币 分享](/master/images/share_but.png)
基于词汇增强与跨度编码的中文命名实体识别.pdf
《基于词汇增强与跨度编码的中文命名实体识别.pdf》由会员分享,可在线阅读,更多相关《基于词汇增强与跨度编码的中文命名实体识别.pdf(9页珍藏版)》请在咨信网上搜索。
1、D O I:1 0.3 9 6 9/j.i s s n.1 0 0 1-5 3 3 7.2 0 2 3.4.0 5 8*收稿日期:2 0 2 3-0 1-3 0基金项目:山东省自然科学基金(Z R 2 0 2 0 MF 1 4 9,Z R 2 0 2 1 MD 1 1 5);上海市科委项目(2 1 5 1 1 1 0 0 3 0 2).第一作者:周戈,男,1 9 9 6-,硕士;研究方向:自然语言处理;E-m a i l:z h o u g 1 7 1 5 5 21 6 3.c o m.通信作者:周子力,男,1 9 7 3-,博士,副教授,硕士生导师;研究方向:知识图谱与自然语言处理;E-m
2、a i l:z l z h o u 9 9 91 6 3.c o m.基于词汇增强与跨度编码的中文命名实体识别*周 戈,王艳娜,周子力,董兆安(曲阜师范大学网络空间安全学院,2 7 3 1 6 5,曲阜市;曲阜师范大学计算机学院,2 7 6 8 2 6,山东省日照市)摘要:在词汇增强方法的基础上提取并结合了汉字的字形信息,并且不同于传统基于序列标注任务框架的命名实体识别模型,通过枚举输入序列中所有跨度并编码的方式,将命名实体识别由序列标注任务转换为跨度分类任务实现对嵌套实体的识别.实验结果表明,加入字形信息并结合跨度编码的方法可以同时提升平面与嵌套类型中文命名实体的识别效果.关键词:中文命名实
3、体识别;字形信息;跨度编码;分类任务中图分类号:T P 3 9 1 文献标识码:A 文章编号:1 0 0 1-5 3 3 7(2 0 2 3)0 4-0 0 5 8-0 90 引 言所谓命名实体(n a m e de n t i t y,N E)一般指的是文本中具有特定意义或者指代性强的实体.命名实体识别(n a m e de n t i t yr e c o g n i t i o n,N E R)作为信息抽取的重要子任务,目标是从非结构化的输入文本中抽取出指定类别的实体,并按照业务需求识别出更多类别的实体.N E R不仅仅是独立的信息抽取任务,在许多其他后续自然语言理解任务如信息检索、自动
4、文本摘要、问答系统、知识库构建中也扮演了关键的角色.因为汉语句子中没有类似于空格的这种分隔符,N E R在汉语语境中相较于英语语境任务难度更高.中文N E R的一种常见做法是先进行分词,然后对分词后的句子应用词级序列标记模型1-2.然而,分词不可避免地会产生错误,这将导致误差传播到N E R的实体边界检测中.因此,一些中文N E R模型3-4直接在字符层面上进行.为了进一步提升识别效果,许多研究人员不断探究加入词汇信息来进一步增强实体边界的识别能力的方法5-6.Z h a n g等7提出词汇增强的命名实体识别方法,之后的许多中文N E R模型8-1 1在其基础上改进了词汇信息结合策略,显著地提
5、高了训练速度和模型效果.中文作为表意文字,偏旁作为汉字构成的主要成分是包含一定的语义信息的,类似于英文单词的词缀.例如,“江”、“河”、“海”都以“氵”作为偏旁,代表其语义与水有关.之前的一些工作1 2-1 3已经证明了汉字的结构特 征可以用来 提 升 自 然 语 言 处 理(n a t u r a l l a n g u a g ep r o c e s s i n g,N L P)任务的效果.汉字中一字多义现象普遍存在于多音字中,不同读音代表不同的语义.例如,“干(g n)燥”和“干(g n)部”、“市长(z h n g)”和“长(c h n g)江”,仅通过字形难以区分相同汉字可能存在的
6、不同意义.并且现有的大多数工作都将N E R作为序列标记问题,使用基于条件随机场(c o n d i t i o n a l r a n d o mf i e l d,C R F)的模型框架,然而这种框架只关注平面实体,难以处理实体可能存在的重叠和不连续的情况.F L AT1 1(f l a t-l a t t i c e t r a n s f o r m e r)模型通过将输入序列的字符和潜在词汇转换成统一的序列结构,对序列中各t o k e n之间的相对位置进行建模并统一输入T r a n s f o r m e r编码器,通过多头注意力机制进行信息交互实现字符和词汇信息的结合.为了解决
7、上述问题,本文提出了一种基于F L AT的融合汉字结构与语音特征的N E R模型,以F 1值为指标,在W e i b o N E R,R e s u m e N E R简 历 数 据 集 和 第4 9卷 第4期2 0 2 3年1 0月 曲阜师范大学学报J o u r n a l o f Q u f u N o r m a l U n i v e r s i t y V o l.4 9 N o.4O c t.2 0 2 3 M S R A新闻实体数据集3个平面实体数据集与包含嵌套实体的中文人民日报数据集上测试了本文方法.实验结果表明,本文模型在各数据集的效果与其他基准模型对比都有所提高.本文的主
8、要贡献有:(1)在编码阶段,参考C h a i等人的方法1 4,在F L AT模型的基础上结合自依赖门控网络,将部分输入通过门控单元跳过多头注意力相关性权重计算过程.(2)针对汉字容易出现的多音字和一字多义问题,使用在线拼音转换工具结合上下文获得各汉字的拼音序列,与五笔编码序列分别卷积提取特征后与字符向量融合.(3)将序列标注任务转换为跨度分类任务,在判断跨度类别的基础上,添加判断构成跨度的两个字符是否在实体内相邻的子任务,通过联合训练来实现同时识别平面实体和非平面实体.1 相关工作在N L P领域中,N E R通常被当作是一个序列标记问题.各种模型在基于C R F的基础上被用来提升N E R
9、任务的效果,比如L a m p l e1 5和M a1 6等早期提出的基于端到端双向长短时记忆网络(l o n gs h o r t t e r m m e m o r yn e t w o r k,L S TM)与C R F结合的模型.由于中英文句子结构的差别,现有的中文模型大部分是基于按照按字符划分进行的.为了在字符中加入词汇信息,Z h a n g等7首先提出将字符和其匹配词汇作为L S TM结构化输入来实现将词汇信息与字符嵌入结合的L a t t i c e-L S TM模型,然而L a t t i c e-L S TM由于循环结构的限制无法进行并行操作,并且当句子中的某个字符可能与词
10、典中的多个词有关时模型难以对此做出判断.2 0 1 9年,G u i等8提出了L R-C NN模型,使用一个R e t h i n k i n g机制合并词汇,该方法能够并行地对所有匹配句子的字符和潜在单词进行建模,提高了运算效率.同年,S u i等9提出了C GN模型,用3种不同策略的构图层来学习自匹配特征和词汇边界等信息,以此来改进词汇边界信息丢失的问题.2 0 2 0年,M a等1 0提出S i m p l e-L e x i c o n模型,通过BME S标签来融合词汇信息.对于每一个输入字符,使用词典匹配该字符作为开始(B)、中间(M)、结束(E)、单独字词(S)单个4种位置类型对应
11、的词,利用这些词的词频来计算权重,并通过自注意力机制来对字符按权重分配这些词汇信息.同年,L i等1 1提出了F L AT模型,该模型基于T r a n s f o r m e r编码器结构,模型内部完全抛弃了R NN和C NN,避免了由于R NN只能按顺序处理前后时间步上的信息和C NN网络各层内部节点间无连接且感受野大小有限而导致模型无法并行处理序列输入和难以捕捉序列长距离依赖的问题.并且通过采用相对位置编码来使得T r a n s-f o r m e r适应N E R任务,改进了原生T r a n s f o r m e r结构中绝对位置编码虽然具备距离感知但编码本身缺乏方向性的问题.不
12、同于英语、德语等表音文字,汉字作为一种表意文字,汉字的字形结构同样也包含一定的语义信息,其结构信息已经被证明对N L P任务的效果提升是有帮助的.近年来越来越多的中文N L P模型开始使用中文结构信息辅助提升语义嵌入的质量.2 0 1 6年D o n g等1 2提出使用双向L S TM提取汉字偏旁特征并与字符嵌入拼接用于N E R任务.S u n等1 7提出使用C NN提取多种古体字和繁体字的田字格图像中的局部特征,然后与预训练的B E R T向量拼接作为T r a n s f o r m e r编码器的输入,此外还设置了利用图像特征推导原汉字的图像分类任务作为辅助任务以提高模型的泛化能力.张
13、栋等1 8提出使用简体汉字的五笔码作为无监督语料输入语言模型E LM o训练生成包含上下文信息的字形向量,并将得到的字形向量与字符向量结合作为模型的输入.上述方式都是将N E R作为普通的序列标记任务的基础上进行的,其缺点是无法提取具有重叠部分的实体.2 0 1 8年J u等1 9提出了一个通过动态地堆叠识别平面实体的L S TM-C R F层的方法预测所有可能的实体组合.同年,S o h r a b和M i w a2 0通过连接开始和结束位置的L S TM输出,然后使用该输出来计算每个跨度的分数.2 0 2 0年,Y u2 1在S o-h r a b等人的工作基础上通过加入双链注意力2 2的
14、方式来代替直接将L S TM的输出级联的方式来获得输入句子中所有跨度并进行评分.金彦亮等2 3提出基于分层标注的中文嵌套实体识别模型,根据实体嵌套的层数进行分层标注,将每层的实体识别解析为一个单独的任务.2 0 2 2年,L i等2 4提出将实体识别过程转换为词对关系分类任务,并提出使用NNW关系(n e x tn e i g h b o r i n gw o r d)建模实体词之95第4期 周戈,等:基于词汇增强与跨度编码的中文命名实体识别 间的相邻关系来实现模型在平面和嵌套实体识别效果上的提升.综合考虑前面多项实体识别工作的优缺点,结合中文实体识别任务现存的问题和解决方案,本文提出了基于词
15、汇增强与跨度编码的中文命名实体识别模型.在加入词汇强化字符内实体边界信息的基础上,进一步将输入编码为跨度表示,通过识别跨度头尾位置并判断实体类别实现模型可以同时识别平面实体和嵌套实体.2 方 法2.1 编码器为了更大限度地从输入句子中提取语义信息,本模型编码器部分参考F L AT的方法实现将通过外部词典匹配得到的词汇信息加入到预训练的字符表示中,并通过C NN对汉字拆解后的结构序列和拼音序列进行特征提取,之后与词汇增强的字符表示结合后输入B i-L S TM中提取上下文特性.2.1.1 基于F L AT引入词汇信息参考F L AT模型,通过输入句子与现有词典匹配将句子转换为字符-匹配词序列,为
16、序列中的每个t o k e n分配头索引(h e a d)和尾索引(t a i l)2种位置索引.通过将任意2个t o k e n之 间 头头、头尾、尾头、尾尾4种相对位置建模为密集向量来编码各t o k e n之间可能存在的相交、包含和分离的关系.假设输入序列中第i个t o k e n的头尾位置分别为lhi和lti,以第i与第j个t o k e n之间的相对位置为例计算它们的关系:d(h h)i j=lhi-lhj,(1)d(h t)i j=lhi-ltj,(2)d(t h)i j=lti-lhj,(3)d(t t)i j=lti-ltj,(4)其中,d(h h)i j,d(h t)i j,
17、d(t h)i j,d(t t)i j代表i和j之间4种相对距离.各t o k e n的相对位置编码R由它们的4种相对距离的简单非线性变换构成,Ri j=R e L U(Wr(pd(h h)i jpd(h t)i jpd(t h)i jpd(t t)i j),(5)其中,Wr为可训练的参数矩阵,表示串联操作.pd的计算方式和普通T r a n s f o r m e r使用的绝对位置编码的计算方式相同,p(2k)d=s i n(d/1 00 0 02k/dm o d e l),(6)p(2k+1)d=c o s(d/1 00 0 02k/dm o d e l),(7)其中,d代表d(h h)i
18、 j、d(h t)i j、d(t h)i j、d(t t)i j,k表示位置编码嵌入维度,dm o d e l为多头注意力头数乘以每个头的维度.原生T r a n s f o r m e r的注意力权重利用绝对位置编码(U),Aa b si j=(Wq(Exi+Ui)T(Wk(Exj+Uj)=WTqETxiExjWk+WTqETxiWkUj+UTiWTqWkExj+UTiWTqWkUj,(8)而F L AT改变注意力的计算方式利用相对位置编码(R),A*i j=WTqETxiExjWk,E+WTqETxiRi jWk,R+uTExjWk,E+vTRi jWk,R,(9)其中,u、v分别为2个可
19、训练的参数矩阵.将Wk拆分为Wk,E和Wk,R以分别产生基于内容的键值矩阵和基于位置的键值矩阵.最终多头注意力计算公式为A t t(A*,V)=s o f t m a x(A*)V.(1 0)为了改善基于自注意力的模型存在的只关注输入的任意两个字符/词汇之间的注意力分布,忽略字符或词汇本身特征的重要性的问题,本文参考C h a i1 4的方法,在F L AT结构中加入门控组件自依赖单元(s e l f-d e p e n d e n c yu n i t s,S DU),使得一部分字符表示可以跳过注意力计算过程,保留本身特征的同时可以提高模型收敛速度.自依赖单元计算公式为T(X)=(XW1+b
20、1),(1 1)S DU(X)=T(X)(XW2+b2),(1 2)其中,T(X)表示变换门;是将线性投影限制在固定范围内的逐元素选通门函数,在本文中选择t a n h函数作为选通门函数;W1、W2、b1、b2是可训练参数.将S DU作为一个新的分支分别加入F L AT的T r a n s f o r m e r编码器结构的多头注意力和前馈网络中组成S DU-F L AT,公式如下:U=L N(X+A t t(A*,V)+S DU(X),(1 3)O=L N(U+F F N(U)+S DU(U),(1 4)其中,U和O分别表示中间层输出和最终输出.该部分结构如下页图1所示.06 曲阜师范大学学
21、报(自然科学版)2 0 2 3年图1 S DU-F L AT结构图2.1.2 融入汉字结构与拼音特征本文根据8 6版五笔码表,按照书写顺序将简体汉字转换为五笔编码序列.8 6版五笔码使用2 5个字母(不包括z)来表示所有简体汉字.对于结构相似的汉字,例如:“船”字的五笔码为t e m k,“舰”字的五笔码为t e m p,根据编码可以看出其存在相似的结构,说明五笔码包含字符的结构信息.虽然五笔码相比四角码重码率更低,但是仍然存在重码的问题.例如,“云,f c u”和“去,f c u”、“太,d y i”和“丈,d y i”、“皿,l h n g”和“四,l h n g”等一些字符存在24字的重
22、码.本文对两个及以上重码字符的五笔码,按照在编码表中的出现顺序在后面加入不同的数字,这样做可以避免使用五笔编码出现的重码问题.为了缓解一字多义和多音字问题,加入拼音并对其进行特征提取.通过汉字-拼音转换工具p y p i n y i n对输入句子结合上下文确定多音字正确的读音,按照声母,韵母,声调3个部分进行拆分.对于没有声母的音节,例如“a n”“a n g”等在声母位置用P A D 代替.阴平、阳平、上声、去声4个声调分别用数字1、2、3、4表示,轻声(不标注声调)用数字0表示.对于五笔码,由于其编码规律是对大于等于4个字根组成的汉字取字的第一、二、三和最后一个字根的编码,对于字根个数小于
23、4个的汉字在编码尾部加入识别码,所以五笔编码长度通常为3到4个,最长为4.为了区分可能存在的重码,在编码末尾加入数字,将编码长度扩充到5位,对于不满足长度为4或者 不 存 在 重 码 的 五 笔 码 其 第 四 或 第 五 位 用P A D 填充,例如“万,d n v”和“尤,d n v”,按照在五笔编码表中出现的顺序加入数字和填充后变成“d,n,v,P A D,1”和“d,n,v,P A D,2”.填充的目的是方便序列批量输入卷积网络进行特征提取.分配索引之后的五笔编码序列被输入到嵌入层,对汉字的每个编码进行初始矢量化以作为卷积层的输入.利用卷积神经网络的优势,将滑动卷积窗口的大小N范围内的
24、特征自动组合和过滤(N是输入字符的最大编码数,N=5),获得不同抽象层次的语义信息,然后将单个汉字的每个部分嵌入矩阵进行最大池化,最后拼接做为该字符的结构特征向量.对于拼音特征的提取使用和五笔码相同的方式.将五笔特征向量与拼音特征向量拼接,得到包含汉字结构与语音信息的向量,称汉字的形声特征向量,用于与词汇增强部分输出的字符向量结合.卷积层结构图如图2所示.为了更好地加入汉字形声特征,消除向量空间差异,首先对齐汉字形声特征向量与字符向量表示的维度,然后使用线性注意力计算所有字符的形声特征的权重并进行加权,这一步的目的是尽可能将更多权重分配给对识别任务有意义的形声特征.向量的对齐与权值计算公式为x
25、ri=WTc o m pri+bc,(1 5)16第4期 周戈,等:基于词汇增强与跨度编码的中文命名实体识别 i=e x p(xri)nk=1e x p(xrk),(1 6)hc o m pi=iri,(1 7)其中,ri表示对齐后的汉字形声特征向量,加权后和词汇增强的字符表示hc h a ri进行整合,最后输入双向L S TM中来提取时序上下文特征,得到每个字符的最终表示hi=B i L S TM(hc h a ri+hc o m pi).(1 8)2.1.3 跨度表示编码为了实现通过跨度预测实体的类别,使用两个独立的多层感知器(m u l t i-l a y e rp e r c e p
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 词汇 增强 跨度 编码 中文 命名 实体 识别
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。