电子病历的关系语义实体识别.pdf
《电子病历的关系语义实体识别.pdf》由会员分享,可在线阅读,更多相关《电子病历的关系语义实体识别.pdf(9页珍藏版)》请在咨信网上搜索。
1、第40 卷第3 期2023年9 月doi:10.12084/j.issn.2096-3289.2023.03.008苏州科技大学学报(自然科学版)Journal of Suzhou University of Science and Technology(Natural Science Edition)电子病历的关系语义实体识别Vol.40 No.3Sep.2023蔡翟源1,2,陈杰1,2,奚雪峰1,2 3*,崔志明1,盛胜利4(1.苏州科技大学电子与信息工程学院,江苏苏州2 150 0 9;2.苏州虚拟现实智能交互及应用技术重点实验室,江苏苏州215009;3.苏州智慧城市研究院,江苏苏州2
2、 150 0 9;4.德州理工大学,得克萨斯州拉伯克市7 940 1)摘要:医疗实体识别是医疗智能化的基础,随着国内首个公开电子病历数据集一一依渡云数据集的发布,国内对于电子病历实体识别的研究也逐渐增多。然而医渡云实体数据集标注的疾病类别粒度过粗,未包含应有的语义修饰信息,这不利于后续的数据挖掘。论文在医渡云数据集的基础上将原有疾病标签实体改为包含语义信息的多标签实体。并提出一种ALBERT-BiLSTM-Attention-CRF模型,提高了识别精度。实验表明,该模型优于主流模型。关键词:医疗智能化;实体识别;医渡云数据集中图分类号:TP391自然语言处理(Natural Language
3、Processing,NLP)是人工智能领域的一个重要分支,其中命名实体识别(Na m e d En t i t y Re c o g n i t i o n,NER)是NLP领域的最基础、最重要的任务之一。命名实体识别的一般目标是对包括3大类以及7 小类的文本段进行命名实体的抽取,将文本从非结构化的数据形式转化为结构化数据形式,方便存储以及后续对文本的处理应用,在信息抽取、机器问答等自然语言处理任务中有较为广泛的应用。目前随着生物医学技术的发展,医疗领域的文献以及资料数目已经成几何级增长,运用NER技术实现医疗文本的实体识别可以大大提高医疗效率。特别是目前新型冠状病毒的爆发,更加引起人们对健
4、康的关注,并且有力带动医疗技术的快速进步。在医疗领域,医务工作者通过医疗管理系统,直接将患者的基本信息和病况信息录入系统,存储在服务器中,生成电子医疗数据,其中电子病历是最为常见的一种电子医疗文本。对电子病历文本进行实体识别,将繁杂的医疗文本以结构化的数据形式存储起来,给医学工作者在后续的分析数据工作中节省了很多时间,并为医学工作提供更加高效的分析、研究和决策。电子病历实体识别主要关注于临床病历中的疾病症状、检查、手术、药物等专有词语,相较于通用领域实体识别,电子病历实体识别的词语更倾向于短语结构,例如,在病历记录中,记录患者“无静脉曲张”包含疾病词“静脉曲张”和“患者未患有”两种信息。目前国
5、内公开的电子病历实体识别数据集一一医渡云数据集,在疾病实体标记时,只标记出与疾病相关的专有名词,而没有将疾病与患者关联起来,例如“无静脉曲张”,医渡云数据集将“静脉曲张”标记为疾病实体,但是事实上,患者并未患有该病。假如需要统计患有静脉曲张的病人数,仅识别出静脉曲张将会导致统计错误。1相关工作电子病历的命名实体识别主要实现方案可以分为四大类:基于字典的方法、基于规则的方法、基于传统机器学习的方法以及基于深度学习的方法。早期基于字典的方法提取实体虽然在结构上有易于实现的优点,但是无法解决一词多义等问题,需要人工维护词典,并且召回率也比较低;后来出现了基于规则的方法,例收稿日期 2 0 2 1-0
6、 7-31基金项目】国家自然科学基金资助项目(6 16 7 2 37 1;6 18 7 6 2 17;6 18 7 6 12 1);苏州市科技计划项目(SYG201817);江苏省“六大人才高峰 高层次人才项目(XYDXX-086)作者简介】蔡翟源(1997 一),男,江苏泰州人,硕士研究生,研究方向:自然语言处理,E-mail:。*通信作者:奚雪峰(197 8 一),男,博士,教授,硕士生导师,E-mail:x f x i u s t s.e d u.c n。文献标志码:A文章编号:2 0 96-32 8 9(2 0 2 3)0 3-0 0 6 2-0 9第3期如,李莹对家族史病历,通过人工
7、学习和发现的办法学习了一套浅层句法分析器,实现了家族病史实体提取。这种基于规则的方法,需要手工制作符合数据集的特征集,在不满足提取规则的文本上无法正确提取结果。以上两种方法均不能成功应用于未训练过的的实体识别,而医疗领域出现了新的病症名、药物名等词汇是较为常见的。后来,基于统计的机器学习方法被应用于命名实体识别,包括隐马科夫模型(HMM)、最大熵马尔科夫模型(MEMM)、条件随机场模型(CRF)。在医疗领域使用最多的就是条件随机场模型(CRF),刘凯等人2 将CRF模型应用在中医电子病历实体识别中,通过结合特征模板MT3糖尿病病症的实体提取结果F可以达到80%;栗伟等人3使用CRF与规则相结合
8、方法,先用CRF进行病历实体的初始识别,然后基于规则进行病历实体识别结果优化,最后实体识别最高Fi值可以达到8 7.2 6%。随着计算机算力的大幅提升,基于深度学习的命名实体识别方法也应运而生,并且在命名实体领域取得了很好的结果。基于深度学习的方法可以解决采用传统方法带来的过于依靠人工特征提取,提高了效率,因此成为近来的研究热点。曹依依等人4构建了卷积神经网络CNN与条件随机场CRF的融合模型框架,Fi值达到了9 0.31%。陈德鑫等人5构建了基于CNN+BiLSTM模型的在线医疗实体抽取研究,最后疾病和医院实体抽取Fi值可以达到9 7%,其余的多种实体也都可以达到9 1%以上。张华丽等人使用
9、结合注意力机制的BiLSTM-CRF融合模型进行中文电子病历命名实体识别,通过注意力机制获取字符间的依赖关系,从而优化实体识别准确率。2 0 18 年,Devlin等人7 首次提出了BERT预训练模型,此后BERT被应用于实体识别领域,BERT模型相比于传统的嵌入模型,可以更好的学习上下文语义信息。陈琛等人8 将BERT预训练模型应用到医疗命名实体识别中,构建了BERT-BiLSTM-CRF模型,其结果对比于Baseline的F值提高了1.1%。2多多语义电子病历实体识别介绍2.1医医渡云数据集介绍医渡云数据集包括150 0 标注文本,10 0 0 条非标注文本。其中标注的实体类别6 种,标注
10、的医疗实体词表6 2 9 2 个,总共标注了2 6 414个实体数据。标注数据集统计如图1所示。14000r12000-100008000-60004000-20000疾病和诊断检查图1实体类别统计对于医渡云数据集实体类别的基本释义见表1。医渡云数据集采用的标注策略为BIO标注模式,也就是将实体的开头字标记为B-X(其中X为实体类别),实体的中间字标记为I-X,其余字符定义为无关字符,标记为0。举例说明:“患者腹疼痛加重”。这句话中“患者”“加重”都是无关字符,标签定义为O,“腹疼痛”为医疗实体中的疾病类,具体细分“腹”为实体“腹疼痛”的开始,标签标记为B-疾病,“疼痛”为“腹疼痛”的内部,对
11、“疼痛”分别标记为I。该数据集对医疗领域的疾病专有名词做出标注,采用的标签为单语义标签,一个标签只包含名词类别,无法涵盖该名词与患者的关系,在很多场合,需要判断患者现在是否存在腹疼痛,或者是以蔡翟源,等:电子病历的关系语义实体识别检验药物63手术解剖部位64往出现过腹疼痛的情况,因此,单标签无法包含相应的语义信息。表1医渡云数据类别描述类别描述疾病与诊断医学上定义的疾病和医生在临床工作中对病因、病生理、分型分期等所作的判断影像检查(X线、CT、M R、PET C T 等)+造影+超声+心电图,未避免检查操作与手术操作过多冲突,不包含此检查外其他的诊断性操作,如胃镜、肠镜等检验在实验室进行的物理
12、或化学检查,本期特指临床工作中检验科进行的化验,不含免疫组化等广义实验室检查手术医生在患者身体局部进行的切除、缝合等治疗,是外科的主要治疗方法药物用于疾病治疗的具体化学物质解剖部位指疾病、症状和体征发生的人体解剖学部位2.2数据集标签分类及标注策略在电子病历的文本信息挖掘任务中,除了医疗名词信息识别之外,名词实体与患者之间的关系信息识别也是其他任务展开的基础,这种关系信息的识别任务也是其他诸多工作的基础9。关系信息主要反映疾病或症状在病历文本中存在的状态,这种状态主要体现在疾病或症状是否发生在患者本人身上,或已发生的疾病或症状与患者本人之间的程度,如是否当下发生的疾病或症状。参照卫生部发布的电
13、子病历数据组与数据元标准9以及I2B22010评测任务提出的关系信息类别,并且对医渡云数据集进行观察分析,最终将“疾病与诊断”类和患者的关系分为四类:“当前的”“可能的”“既往的”“否认的”。表2 对这四类关系做出进一步描述。当前的可能的既往的否认的由于需要在标签中包含关系信息,原来的医渡云标注方案无法做到,因此,文中引入多标签标注方案,例如,医渡云数据集里:“2 0 14-11-2 0 复查MRI提示右附件区囊实性肿块,考虑卵巢癌。”该句话中将“卵”标注为B-疾病,“巢癌”分别标记为I-疾病,但在此句话中“卵巢癌”仅仅是医生推测患者可能存在的疾病,并非实质性确定为患者患有的疾病,在文中定义的
14、标签中,沿用原数据集的BIO标注模式,并结合上下文语义,将其标签做出调整。上例中调整后,“卵”:B-疾病-可能的;“巢癌”:I-疾病-可能的。经过这样的转换,将仅包含名词实体信息的标签转换为带有关系的实体标签。标注实例如图2 所示。2104-11-20复查MRI提示右附件区囊实性肿块,考虑卵B-Di-PoI-Di-Po(O代表无关字,B,I代表实体开始和内部,Di代表疾病实体,Po代表患者可能患有该疾病)图2 多标签标注实例相对于专业名词标注,疾病与患者的关系语义不需要专业知识也可以进行标注。笔者在医渡云数据集标注的基础上进行疾病关系标注,该数据集并未完全将所有的疾病或者症状标注出来,因此,文
15、中也不会对原来未标注的专有名词进行标注。原数据集不仅提供了原文以及标签数据,还提供了已经标注的名词的词表,这便利了研究者的标注工作。根据词表中的疾病与诊断类对应的专有名词笔者定位到原文中,通过阅读上下文,将标注为疾病类别的实体加人以上四类关系语义,形成多标签标注数据集。3模型苏州科技大学学报(自然科学版)表2 疾病与患者关系类别描述关系目前确定发生在患者身上的症状或者疾病目前并不能确定,推测可能发生的疾病或症状不是患者当前的疾病或症状,而是过去发生过的在患者身上不存在的疾病或症状巢癌02023年描述文中提出的用于实体识别的模型基于端到端的结构I0)。主要由四部分组成:ALBERT预训练模型、第
16、3期BiLSTM编码层、Attention机制、CRF解码层。将电子病历文本输人ALBERT模型中,输出接BiLSTM的输人层,通过Attention机制获得强关注信息,最后将Attention向量输人到CRF层进行序列解码,得到每个字的标注类型,模型的结构图如图3所示。蔡翟源,等:电子病历的关系语义实体识别输出B-疾病-可能65I-疾病-可能I-疾病-可能CRFCRFAttentiona2h1h2a3h3a4a5h4h5BiLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMALBERT输入3.1预训练模型层3.1.1BERT模型语言模型在自然语言处理中是
17、一个很重要的概念,BERT模型是谷歌在2 0 18 年提出的大型语料库预训练模型,该模型推出后,就在自然语言处理任务中被广泛应用,并且在很多方面取得了超越人类的能力。BERT模型解决了传统语言模型单向编码以及无法融合文本语义信息的缺陷,因而也可以通过上下文关联解决一词多义的问题。BERT模型结构图4所示。BRERT模型参照了GPT模型与ELMOL2模型的优点,采用了双向Transformer131结构作为编码器,使用Transformer替代LSTM,使得模型可以更好地表达语义信息。Transformer是一种基于注意力机制的编码单元。通过Transformer结构,可以将文字内部联系关联起来
18、。模型的结构图如图5所示。T1TrmTrm考T2TrmTrm虑图3模型结构图TNTrmTrm卵巢癌Feed ForwardAdd&NormalSelf-AttentionAdd&NormalFeed ForwardPositionalE1E2图4BERT预训练语言模型BERT在训练时增加Masked和下文预测两种任务。使得模型可以更好地获取词语间信息和整体表达。3.1.2ALBERT模型ALBERT模型是Lan等14在2 0 19年提出的轻量级BERT,,在3个方面对BERT模型进行了改进:(1)对ENEncodingX1L图5 Transformer 编码结构x266嵌的因式分解;(2)跨层
19、参数共享;(3)句间连贯性损失。将ALBERT预训练模型直接用于电子病历词表征会存在不准确的问题,因为电子病历的文字表述并不是与公共语料库描述方式相似,其中的词语与句子也是专业术语,因此,必须使用ABERT针对医疗领域语料库进行预训练,文中利用ALBERT模型对电子病历文本进行预训练学习文字表示。3.2BiLSTM层临床电子病历信息数据通常具有复杂的上下文关系以及复杂的医学用语,单向LSTM无法处理上下文信息,所以本文利用BiLSTM计算捕捉文本的双向语义依赖关系5。BiLSTM(长短期记忆神经网络)是一种特殊的RNN网络,解决了普通神经网络在长序列时出现的梯度爆炸以及梯度消失的问题。LSTM
20、结构有两个状态:一个c(cellstate);另一个h(hidden state)。RNN中的h相当于LSTM中的c,对于传递下去的c改变的很慢,通常输出的c是上一个状态传过来的ct-1加上一些数值。3.3Attention层经过BiLSTM后,虽然模型学习了丰富的上下文信息,但是每一个特征的权重都是一样的,没有突出不同词的重要程度。例如,“患者于5天前出现腹部疼痛”,“患者”该词对症状“腹部疼痛”的识别没有影响,模型将患者和其他词汇以同等的权重进行特征提取,无法突出关注更加有用的信息,因此,文中在基础的实体识别模型中加入Attention机制,使得模型可以学习到每一个元素的重要程度,从而提高
21、识别精度。Attention将BiLSTM输出隐层进行加权16 。3.4CRF 层模型的最后一层用于标签的预测,一般的实体标签预测的方法都是将预测的标签当做是相互独立的,但事实上每个标签都是有联系的。例如,疾病实体“慢性支气管炎”,经过标注的结果为(B,I,I,I,I,I),在这个标注的结果中,不能出现类似(B,O,I,I,I,I)这种在I之前的情况。所以在进行标签预测的时候还要对标签序列进行合理性约束,CRF通过特征约束捕捉序列标签的关系,输出序列预测类型。CRF约束标签的依赖关系,避免出现无效的序列标签输出。将通过Attention层的权重向量经过CRF层解码,最终输出预测的标签结果。4实
22、验设计4.1数据集文中构建的多语义电子病历数据集是在医渡云数据集基础进行人工标注形成,针对原数据集疾病与诊断实体类,额外增加了四类关系信息,将单标签数据变为多标签数据。在标注数据时发现原数据集某些标签存在偏移的现象,即一段病历描述中标签的起始和结束序列位置都与原文存在一定偏差,笔者对这些标签进行了校正。原数据集总共6 2 11个疾病与诊断实体,经过标注后,“当前的”疾病总共42 93个,“否认的”疾病总共418 个,“可能的”疾病共12 35个,“既往的”疾病共2 6 5个。文中将数据集大致按照8:1:1的比例进行分配为训练疾病和诊断-可能的集、验证集、测试集。各类实体分布见表3。疾病语义实体
23、验证集疾病和诊断-当前的3534疾病和诊断-可能的1 002疾病和诊断-既往的220疾病和诊断-否认的350总计5 106苏州科技大学学报(自然科学版)表3关系语义实体数量分布训练集35811620335272023年htanhtanhh-图6 LSTM内部结构测试集4011172535578第3期4.2评价指标该实验采用的评价指标主要是精确率(Precision)、召回率(Recall)和Fi-Score。精确率代表在被所有测试集中预测为正的样本中实际为正样本的概率,表达式为其中,TP代表预测为正,实际为正,预测正确;FP代表预测为正,实际为负,预测错误。召回率是针对原测试集而言的,其含义是
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 电子 病历 关系 语义 实体 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。