融合机器阅读理解的中文医学命名实体识别方法.pdf
《融合机器阅读理解的中文医学命名实体识别方法.pdf》由会员分享,可在线阅读,更多相关《融合机器阅读理解的中文医学命名实体识别方法.pdf(8页珍藏版)》请在咨信网上搜索。
1、医学命名实体识别是自动构建大规模医学知识库的关键,但医学文本中存在实体嵌套现象,采用序列标注的方法不能识别出嵌套中的实体.文中提出了基于阅读理解框架的中文医学命名实体识别方法,该方法将嵌套命名实体识别问题建模为机器阅读理解问题,使用B E R T建立阅读理解问题和医学文本之间的联系,并引入多头注意力机制强化问题和嵌套实体之间的语义联系,最后用两个分类器对实体开头和结尾位置进行预测.与目前种主流方法相比,该方法取得了最优结果,综合F 值达到了 ;与经典的实体识别模型B i L S TM C R F相比,F 值提升了 ,其中嵌套较多的临床表现实体提升 .关键词:命名实体识别;中文医学;嵌套实体;机
2、器阅读理解;多头注意力机制中图法分类号T P C h i n e s eM e d i c a lN a m e dE n t i t yR e c o g n i t i o nM e t h o dI n c o r p o r a t i n gM a c h i n eR e a d i n gC o m p r e h e n s i o nL UOY u a n y u a n,YANGC h u n m i n g,L IB o,Z HAN G H u ia n dZ HA OX u j i a n,S c h o o l o fC o m p u t e rS c i e n
3、c ea n dT e c h n o l o g y,S o u t h w e s tU n i v e r s i t yo fS c i e n c ea n dT e c h n o l o g y,M i a n y a n g,S i c h u a n ,C h i n aS c h o o l o fM a t h e m a t i c sa n dP h y s i c s,S o u t h w e s tU n i v e r s i t yo fS c i e n c ea n dT e c h n o l o g y,M i a n y a n g,S i c h
4、 u a n ,C h i n aS i c h u a nB i gD a t aa n dI n t e l l i g e n tS y s t e mE n g i n e e r i n gT e c h n o l o g yR e s e a r c hC e n t e r,M i a n y a n g,S i c h u a n ,C h i n aA b s t r a c t M e d i c a ln a m e de n t i t yr e c o g n i t i o ni st h ek e yt oa u t o m a t i c a l l yb u
5、 i l dal a r g e s c a l em e d i c a lk n o w l e d g eb a s e H o w e v e r,m e d i c a l e n t i t i e sa r eo f t e nn e s t e d,a n di tc a nn o tb er e c o g n i z e db yt h es e q u e n c el a b e l i n gm e t h o d T h i sp a p e rp r o p o s e saC h i n e s em e d i c a ln a m e de n t i t
6、yr e c o g n i t i o nm e t h o db a s e do nr e a d i n gc o m p r e h e n s i o nf r a m e w o r k I tm o d e l s t h en e s t e dn a m e de n t i t yr e c o g n i t i o np r o b l e ma sam a c h i n er e a d i n gp r o b l e m,u s e sB E R Tt oe s t a b l i s ht h ec o n n e c t i o nb e t w e e
7、nt h er e a d i n gc o m p r e h e n s i o np r o b l e ma n dm e d i c a l t e x t,a n di n t r o d u c e sam u l t i h e a da t t e n t i o nm e c h a n i s mt os t r e n g t h e nt h es e m a n t i cc o n n e c t i o nb e t w e e nt h ep r o b l e ma n dn e s t e dn a m e de n t i t y,a n df i n
8、a l l yu s e st w oc l a s s i f i e r st op r e d i c tt h eb e g i n n i n ga n de n dp o s i t i o n so fe n t i t i e s T h i sm e t h o da c h i e v e s t h eb e s t r e s u l t sw i t ha nF s c o r eo f w h e nc o m p a r e dw i t ht h ec u r r e n t f i v em a i n s t r e a mm e t h o d s C o
9、 m p a r e dw i t ht h em o s t c l a s s i c a lB i L S TM C R F,t h eF s c o r e i m p r o v e sb y ,a n dt h en e s t e d“s y m p t o m”e n t i t i e s i n c r e a s eb y K e y w o r d s N a m e de n t i t yr e c o g n i t i o n,C h i n e s em e d i c a l,N e s t e de n t i t i e s,M a c h i n er
10、 e a d i n gc o m p r e h e n s i o n,M u l t i h e a da t t e n t i o nm e c h a n i s m引言医学实体指蕴含在非结构化医学文本中的疾病、临床表现、身体、医疗程序等概念术语.从海量的医学教材、临床病例、检验报告、医学文献等非结构化医学文本中自动识别医学实体,是构建高质量医学知识库的关键.医学实体通常由专业术语构成,在不同类型的医学文本中常会出现实体嵌套现象,如“呼吸肌麻痹”是一个临床表现实体,同时里面嵌套了身体实体“呼吸肌”,如图(a)所示.“HL A D QA 基因”“脑脊”在无明确上下文提示时,既属于身体
11、实体,也是医学检验项目实体,如图(b)所示.由于中文医学文本的复杂性和专业性,要准确识别医学实体,不仅要识别出实体边界,还需明确实体的类别,这使得模型需要具有完备的特征表达能力和极强的特征提取能力.经典的命名实体识别模型采用序列标注的方法,即对医学文本的每个字符打上预设的标签,但当存在嵌套实体时,一个字符存在多个标签,就无法为医学实体打上合适的标签,不能准确识别出嵌套的实体.因此,本文将嵌套实体识别问题看作是机器阅读理解问题,即通过对医学文本中需要识别的实体类型进行提问,以此来明确该类实体的边界.比如要识别图(a)中的身体类型实体,提问为:“哪一部分是文本中提到的身体?”即可将身体实体与临床表
12、现实体区分开.同时,由于提问的问句带有先验信息,也能较好地识别出非嵌套的医学实体.该模型首先使用改进的C h i n e s e r o b e r t w wm l a r g e模型构建机器阅读理解的编码部分和交互部分,建立问题和医学文本之间的联系,然后引入多头注意力机制(M u l t i H e a dA t t e n t i o nM e c h a n i s m)强化问题和嵌套医学实体之间的语义联系,最后通过全连接层和s o f t m a x函数计算将最终隐藏状态转化为答案跨度的概率.(a)长实体包含短实体(b)一个实体存在两种类别图中文医学实体的两种嵌套情况F i g T
13、w oc a s e so fn e s t e dC h i n e s em e d i c a l e n t i t i e s相关工作命名实体识别任务通常被建模为序列标注任务,即对输入序列的每一个字符预测其标签,并计算出联合概率最大的标记组合.早期命名实体识别多采用机器学习的方法,比较经 典 的 模 型 有 隐 马 尔 可 夫(H i d d e n M a r k o v M o d e l,HMM)、支持向量机(S u p p o r tV e c t o rM a c h i n e,S VM)、条件随机场(C o n d i t i o n a lR a n d o mF i
14、 e l d s,C R F)等.但机器学习的方法比较依赖于特征工程,在建立特征时耗时耗力.随着深度学习在自然语言处理(N a t u r a lL a n g u a g eP r o c e s s i n g,N L P)任务中的深入研究,基于深度学习的命名实体识别方法受到广泛关注.相比机器学习方法,基于深度学习的方法能容纳更丰富的语义信息,具有较强的特征提取能力.其中最典 型的 有 卷积 神经 网 络(C o n v o l u t i o n a lN e u r a lN e t w o r k s,C NN)和循环神经网络(R e c u r r e n tN e u r a l
15、N e t w o r k,R NN).基于R NN C R F的方法在中文命名实体识别任务中取得了很好的效果.X u等提出基于双向长短期网络(B i d i r e c t i o n a lL o n gS h o r t T e r m M e m o r y,B i L S TM)和C R F的医学命名实体识别模型.T a n g等 提出了基于注意力的C N N L S TM C R F模型,用于识别中文临床文本中的实体.此外,由于中文医学文本具有极强的专业性,且比较依赖语义信息,为了提高中文字词表征的多义性,研究者们在模型中增加预训练方法来对单词进行表征.早期最常见的预训练模型采用了
16、W o r d v e c 工具训练词向量,之后B E R T(B i d i r e c t i o n a lE n c o d e rR e p r e s e n t a t i o n s f r o mT r a n s f o r m e r)预训练模型被提出,B E R T一度成为了最受欢迎的预训练模型.D a i等 提出基于B E R T B i L S TM C R F的中文电子健康档案命名实体识别模型,结果明显优于非预训练的模型.L i等 提出基于变异B E R T结构的中国临床命名实体识别模型,利用未标记的特定领域知识,预先训练出未标记的中文医疗文本.与常规的命名实体识
17、别不同的是,中文医学文本标注语料较少、实体边界模糊、结构嵌套等难点给中文医学文本命名实体识别任务带来了极大的挑战.以往的方法忽略了实体嵌套结构问题,在标注时直接标注长度最大的实体.当嵌套结构较少时,对整体结果影响并不大,但是当嵌套结构较多时,对整体F 值的影响较大.嵌套命名实体识别一般被看作多层次的序列标注问题,即根据嵌套实体的层数,每一层用一个命名实体识别模型进行识别.X u等 采用双层B i L S TM C R F方法来识别中医药文献中的实体.分层标注的方法存在层次越深、标签分布就越稀疏的问题,训练的难度也随之增加,容易造成层与层之间的错误传播.对此,有学者对此类序列标注模型进行了改进.
18、S u n等 认为序列都是由一个个跨度组成的,给每个跨度打标签能解决嵌套问题,但需要在跨度的选择上加以限制.跨度的选择是一个复杂的问题,且其得到的负样本依然很多.此外,对多个子序列进行分类的计算成本很高,时空复杂度也较高.另外,嵌套的实体也可被看作是状态之间的转换,并以此构建图来进行识别.W a n g等 根据不同形式的词设计不同的动作,通过这些动作来处理不同的实体构建解析树,并根据实体的当前状态来决定是否打标签或是打更高层次的标签.另外,将嵌套实体所在的句子构建为超图,能有效捕捉长度不限的重叠的实体,使得实体的边界、类型和头部信息可以在一个框架中共同学习.然而构建超图或者解析树依赖特定的转换
19、系统,需要领域专家,不够一般化,且在构建时容易出现伪结构,在推导时会出现二义性,导致不能确定最终结果.嵌套命名实体主要是实体的重叠问题(长实体覆盖短实体、同一实体表达出不同的类别),对其进行识别的关键是明确实体在句子中表达的语义,以此来确定实体的边界.机器阅读理解(M a c h i n eR e a d i n gC o m p r e h e n s i o n,MR C)通过对句子提问来明确句子中实体的语义,能很好地改善实体重叠的问题.如C a o等 提出基于B E R T的机器阅读理解框架的中文电子病历嵌套实体识别方法,但未充分利用提问信息,采用不同提问方式得到的效果差异较大.C h
20、i a n g等 提出的基于QA S L的中文电子健康记录命名实体识别框架就采用了机器阅读理解和序列标注融合的方法,但此方法的嵌套实体较为特殊,并不适合常规的中文医学命名实体识别.为解决现有方法不能解决中文医学实体嵌套结构的问题,机器 阅 读 理 解 方 法 不 能 完 全 利 用 提 问 信 息,本 文 在B E R T MR C 模型中引入多头注意力机制,进一步捕获医学实体和提问信息之间的依赖关系.实验结果表明,相比其他方法,该方法在中文医学数据集上取得了最好效果.融合机器阅读理解的中文医学命名实体识别模型 模型描述中文医学命名实体识别指识别并抽取出与医学临床相关的实体,并将实体归类到预定
21、义好的类别.实体识别任务可被看作是阅读理解过程,即给出不同医学实体的提问或描述(Q u e s t i o n),然后在医学文本(C o n t e x t)中找出对应 的答 案(A n s w e r).其基本的流程为:分别对Q u e s t i o n和C o n t e x t进行嵌入和特征提取,然后在交互层将C o n t e x t和Q u e s t i o n的语义信息融合,使模型更容易找出C o n t e x t中对应问题的答案部分,最后根据具体的问题任务来预测答案.具体流程如图所示.C o m p u t e rS c i e n c e计算机科学V o l ,N o ,
22、S e p 图机器阅读理解流程F i g M a c h i n er e a d i n gc o m p r e h e n s i o np r o c e s s因此,利用机器阅读理解进行医学实体识别的任务可被描述为一个有监督的学习问题:给出三元组形式的训练数据(C o n t e x t,Q u e s t i o n,A n s w e r),其中C o n t e x t表示含有嵌套实体的医学句子,Q u e s t i o n表示对对应实体的问题或描述,A n s w e r表示应当找出的实体答案.任务目标是学习一个预测器f,能够将相关句子C o n t e x t与问题Q u
23、 e s t i o n作为输入,返回一个对应的答案A n s w e r作为输出.f:(C o n t e x t,Q e s t i o n)A n s w e r()其中,C o n t e x t是每一个医学文本句子Xx,x,xn,n是句子的长度,实体类别标签集合Yy,y,yk(如疾病、药物和身体).对于每一个类别标签类型yY,提出一个问句Qyq,q,qm,其中m是问题的长度.每一个标注的实体xs t a r t,e n dxs t a r t,xs t a r t,xe n d,xe n d 就是答案,xs t a r t,e n d是句子X的子串,类型是y.下标s t a r t,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 融合 机器 阅读 理解 中文 医学 命名 实体 识别 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。