基于BERT和非自回归的医疗知识抽取_于清.pdf
《基于BERT和非自回归的医疗知识抽取_于清.pdf》由会员分享,可在线阅读,更多相关《基于BERT和非自回归的医疗知识抽取_于清.pdf(7页珍藏版)》请在咨信网上搜索。
1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第1期总第329期摘要:为避免实体与关系独立抽取产生的误差累计及实体重叠问题,提出一种基于BERT和非自回归的联合抽取模型来进行医疗知识抽取。首先,通过BERT预训练语言模型进行句子编码;然后,采用非自回归(NAR,Non-autoregressive)的方法实现并行解码,抽取关系类型,并根据头尾实体的位置索引抽取实体,得到医疗实体的关系三元组;最后,将抽取出的实体和关系导入Neo4j图数据库中实现知识可视化。通过对电子病历中的数据进行人工标注得到数据集,实验结果表明,基于BERT和非自回归联合学习模型的F1值为0.92,pr
2、ecision值为0.93,recall值为0.92,与现有模型相比3项评价指标均有提升,表明本文方法能够有效抽取电子病历中的医疗知识。关键词:联合学习;非自回归;BERT;实体重叠;电子病历中图分类号:TP391.1文献标志码:ADOI:10.3969/j.issn.1006-2475.2023.020Medical Knowledge Extraction Based on BERT and Non-autoregressiveYU Qing,MA Zhi-long,XU Chun(School of Information Management,Xinjiang University o
3、f Finance and Economics,Urumqi 830012,China)Abstract:In order to avoid the problems of error accumulation and entity overlap caused by the pipeline entity relation extractionmodel,a joint extraction model based on BERT and Non-autoregressive is established for medical knowledge extraction.Firstly,wi
4、th the help of the BERT pre-trained language model,the sentence code is obtained.Secondly,the Non-autoregressive methodis proposed to achieve parallel decoding,extract the relationship type,extract entities according to the index of the subject andobject entities,and obtain the medical triplet.Final
5、ly,we import the extracted triples into the Neo4j graph database and realizeknowledge visualization.The dataset is derived from manual labeling of data in electronic medical records.The experimentalresults show that the F1 value,precision and recall based on BERT and non-autoregressive joint learnin
6、g model are 0.92,0.93and 0.92,respectively.Compared with the existing model,the three evaluation indicators have been improved,indicating that theproposed method can effectively extract medical knowledge from electronic medical records.Key words:joint learning;non-autoregressive;BERT;entity overlap;
7、electronic medical record文章编号:1006-2475(2023)01-0120-07收稿日期:2022-03-11;修回日期:2022-06-06基金项目:新疆维吾尔自治区自然科学基金资助项目(2019D01A23);新疆维吾尔自治区高校科研计划项目(XJEDU2021Y038)作者简介:于清(1997),女,山东烟台人,硕士研究生,研究方向:信息处理与管理决策,E-mail:;马志龙(1977),男,新疆乌鲁木齐人,讲师,硕士,研究方向:自然语言处理,E-mail:;徐春(1977),女,新疆乌鲁木齐人,教授,博士,研究方向:自然语言处理,E-mail:。0引言实体
8、识别和关系抽取是信息抽取领域中的核心任务,而医疗领域相对于其他领域,具有实体和关系数量较多、种类繁杂、命名不规则等难点1。如何从医疗文本中提取知识是医疗领域的热点问题。电子病历中蕴含着大量真实且与病人密切相关的医疗信息,从中有效提取实体及其关系,对构建医疗知识图谱、医疗问答、辅助决策具有重要的现实意义2-4。目前,在实体关系抽取任务中,基于循环神经网络5和卷积神经网络6等神经网络技术7-8的深度学习架构日渐成熟,并逐渐被应用于医疗领域中。Uzuner等9根据出院摘要,首次对医疗语义关系进行分类研究。Sunil等10首次将 CNN 模型运用到电子病历的关系抽取中,但此方法不适于距离较远的实体间的
9、识别和抽取。2019年,谷歌基于 Transformer模型提出了BERT网络模型11,并且在关系抽取的相关工作中取得了良好效果。为进一步提高关系抽取的效果,一些学者开始融合多种方法进行实体识别和关系抽取。Zhang等12在 BERT 模型的基础上,提出了基于 Bi-LSTM-CRF的关系抽取优化方法,成功从临床乳腺癌文档中提取出相关概念及属性。Christopoulou等13引入注意力机制和Transform网络,实现药物-药物在句子内和句子间关系的提取和分类。武小平等14针对中文以词为单位的特性,提出了改进的 BERT(wwm)-CNN 模型,实现心血管疾病领域的实体识别及关系抽取。李丽双
10、等15针对位置向量噪声和语义表达匮乏等问题,提出了基于BiLSTM-CNN的关系抽取模型,取得了i2B2/VA语料的最优结果。基于BERT和非自回归的医疗知识抽取于清,马志龙,徐春(新疆财经大学信息管理学院,新疆 乌鲁木齐 830012)2023年第1期以上方法均将实体识别和关系抽取分开处理,属于流水线方法,虽然取得了较好的成果,但这些方法忽视了 2 个子任务之间的相关性,会产生误差传播16,最终影响关系抽取的效果。为解决此问题,相关学者将 2个子任务融合成一个任务,进行联合学习。Getoor等17提出了一种基于线性规划的全局推理方法,运用分类器抽取句子中可能存在的实体和关系,指出实体识别和关
11、系抽取是密切相关的。联合学习方法可以分为参数共享和序列标注2种,且大多数研究集中在通用领域。Miwa等18首次将实体识别和关系抽取作为一个任务进行研究,提出了结合树结构的 BiLSTM-RNN 模型,通过二者参数共享进行关系抽取,但存在实体冗余问题。Zheng等19提出了一种基于序列标注的联合学习模型,有效地缓解了参数共享方法存在的实体关系冗余问题。Xu等20将关系抽取问题视为序列标注问题,采用BiLSTMs-CRF相结合的深度学习模型,高效地检测出医学概念-属性关系对。Parsaeimehr等21提出了一种基于深度学习的联合识别体系,克服了误差传播的影响。以上联合学习方法虽然提高了实体关系抽
12、取的效果,但均无法解决重叠三元组问题。电子病历中包含大量半结构化和非结构化信息,文本中的三元组重叠可以分为2类:EPO指一个实体对之间具有多种关系,例如“患者因反复腹痛,伴反酸、嗳气在我院完善相关检查后确诊胃体胃窦癌。”中存在三元组(胃体胃窦癌,症状,腹痛)、(胃体胃窦癌,并发症,腹痛);SEO指一个实体存在于多个三元组中,例如“患者患胃窦溃疡,因中下腹疼痛进行胃镜检查。”句子中存在三元组(胃窦溃疡,检查,胃镜)、(胃窦溃疡,症状,中下腹疼痛),这种多种关系和共享实体的存在增加了知识抽取任务的难度,传统方法很难学习这种关系。为解决三元组重叠问题,Wei等22提出了CASREL模型,采用级联二进
13、制标注方法,将关系推理建模为句子中头实体到尾实体的映射函数,但存在曝光偏差问题。Wang 等23提出了TPLinker模型,采用多头标注方法实现了单阶段联合学习,能够解决实体重叠和暴露偏差问题,但该方法需要设计复杂的标注模式。Zeng等24提出了一种基于复制机制的seq2seq模型,可以利用该机制对重叠的实体进行复制,并根据不同的实体重叠类型,采用统一解码器和多个解码器进行解码,能够有效解决关系抽取中的实体重叠问题,但会产生大量无效的实体对。Cabot等25将三元组分解成文本序列,以自回归方法为基础,提出了基于BART的联合学习模型,但采用自回归解码的方法,需要考虑多个三元组的提取顺序,而文本
14、中的三元组本质上没有顺序。本文以 seq2seq 模型为框架,运用基于 BERT 和非自回归的联合学习模型实现实体识别和关系抽取,并构建医疗知识图谱。本文主要工作如下:1)BERT预训练语言模型结合上下文语义信息动态生成特征向量,能够有效解决电子病历中的一词多义问题。2)采用基于Transformer的非自回归方法实现并行解码,并根据头尾实体开始和结束的位置索引进行标记,能够有效缓解三元组重叠问题。3)运用电子病历数据进行实验分析,结果表明,本文提出的基于BERT和非自回归的知识抽取方法,效果优于现有模型。1模型介绍本文将实体识别和关系抽取看作一个任务进行联合学习,模型结构如图1所示,主要包括
15、3个部分。首先运用BERT模型对句子进行编码;然后运用基于Transformer的非自回归方法解码,根据解码结果进行关系预测(包括共有6种关系类型),并进一步融合编码信息进行实体抽取;最后,根据二部匹配损失函数计算损失值。联合实体关系抽取的目标是识别原始句子中所有可能的关系三元组,对于给定句子X,目标三元组Y的条件概率如式(1)所示:BERT编码层非自回归解码层二部匹配损失函数多头自注意力机制BERT多头相互注意力机制前馈神经网络关系抽取实体抽取患 者 患 胃 窦 溃 疡,因 中 下 腹 疼 痛 进 行 胃 镜 检 查。(胃窦溃疡,症状,中下腹疼痛)空集(胃窦溃疡,检查,胃镜)r1r2GHN(
16、s1,r1,o1)(s2,r2,o2)sendsstarto1starto1endo2starto2end图1模型结构于清,等:基于BERT和非自回归的医疗知识抽取121计算机与现代化2023年第1期因胃窦溃疡行胃镜检查检查胃窦溃疡胃镜EncoderDecoderP(Y|X;)=pL(n|X)ni=1p(Yi|X,Yji;)(1)其中,pL(n|X)对目标三元组的大小进行建模,i表示句子中三元组数量,p(Yi|X,Yji;)表示目标三元组Yi不仅与给定的句子X相关,还与其他三元组Yji相关。1.1BERT编码层BERT模型主要包含输入层、编码层和输出层,其基本结构如图 2 所示。BERT 的输
17、入向量由词特征、句子特征和位置特征组成,且句首、句尾分别增加CLS和SEP标志,用于分隔2个句子。编码层由多个相同的Transformer层组成,向量通过多头自注意力(Multi-Head Self-Attention)层,传输到前馈神经网络(Feed-Forward Network)中,最终的输出结果表示为:HeRld其中,l是句子长度,d是BERT模型中隐藏层数量。BERT 模型是基于双向 Transformer 编码的预训练模型,能够较好地解决一词多义的问题,例如,句子“患者因右上腹隐痛,行胸腹部CT检查”中,2个“腹”表示不同的含义,其输入形式如图3所示。图2BERT模型结构1.2非自
18、回归解码层多数seq2seq模型将获取关系三元组看作序列生成问题,利用自回归模型逐个解码。与公式(1)相比,自回归方法识别句子X中目标三元组Y的条件概率如式(2)所示:P(Y|X;)=pL(n|X)ni=1p(Yi|X,Yji;)(2)其中,p(Yi|X,Yji;)表示目标三元组Yi与给定的句子X和已生成的三元组Yji相关,说明自回归解码需要用已生成的词来预测下一个位置的词,无法实现并行解码26,解码速度比较慢。针对此问题,本文使用基于Transformer的非自回归方法,打破了解码时的顺序要求,可以并行解码整个句子,对比如图4所示。从图4(a)中可以看出,自回归模型解码时,词是依次递归生成的
19、,要生成长度为N的句子,需要经过N次解码层;而图4(b)中的非自回归模型则可以一次生成所有词,只需经过1次解码层,减少了经过解码层的次数,提高了解码效率。非自回归解码层由N个相同的Transformer层组成,如图1所示。解码层的输入是初始化后的目标文本向量,输入向量通过线性变换得到表示目标字的Q矩阵、表示上下文各个字的K矩阵以及表示目标字与上下文各个字的原始矩阵V,并通过计算放缩点积求得自注意力值,如公式(3)所示,经过i次计算后获得一个与原始字向量长度相同的增强语义向量,作为多头自注意力层的输出,如公式(4)、公式(5)所示;然后运用多头相互注意机制与BERT层的输出编码融合,根据BERT
20、层的输出H计算得到K、V,根据上一个解码器的输出计算Q,后续计算方法与式(3)式(5)一致,得到输出向量GRmd;最后,通过前馈网络将输出向量解码为关系类型和实体,得到最终预测的三元组。Attention()Q,K,V=softmax(QKTdk)V(3)headi=Attention()QWQi,KWKi,VWVi(4)MultiHead(Q,K,V)=Concat(head1,headi)W0(5)其中,Q、K、V表示输入的字向量矩阵,dk表示输入维Add&NormalFeedForward NetworkAdd&NormalMultiHeadSelfAttentionE1E2EnH1H2
21、HnN输出层输码层输入层图3BERT模型的输入形式InputCLSTokenEmbeddingSegmentEmbeddingPositionEmbeddingCLSCLSE0E1E2E3E4E5E6E7E8E9E10E11E12E13EBEBEBEBEBEBEBEAEAEAEASEPSEPE因E上E腹E痛E行E腹E部ECETE检E查SEPSEP+SEPSEP因上腹痛行腹部CT检查(b)非自回归模型图4自回归与非自回归模型对比因胃窦溃疡行胃镜检查检查胃窦溃疡胃镜EncoderDecoder(a)自回归模型1222023年第1期度,WiQ、WiK、WiV表示headi的权重矩阵,W0表示附加权重
22、矩阵。本文根据头尾实体开始和结束的位置索引进行三元组抽取,且将并发症、检查、症状、常用药物、治疗方式和这6种关系类型分别赋值为05,三元组可表示为Y=(r,sstart,send,ostart,oend)。例如,句子“患者患胃窦溃疡,因中下腹疼痛进行胃镜检查。”中存在的三元组(胃窦溃疡,检查,胃镜)、(胃窦溃疡,症状,中下腹疼痛),可以表示为(1,3,6,16,17)、(2,3,6,9,13),其中,实体“胃窦溃疡”可以重复抽取。该方法类似Span标注,但不需要对头尾实体进行标注,而是直接利用实体的位置索引为标记,能够有效解决三元组重叠问题。假设给定一个输出向量gRd,经过关系预测和首尾实体预
23、测,可得到最终的预测三元组=(pr,ps-start,ps-end,po-start,po-end),具体如式(6)式(10)所示:1)关系预测:pr=softmax(Wrhd)(6)其中,WrRtd,t是关系类型(包括空集)的总数,d是BERT模型中隐藏层数量。2)首尾实体预测:通过softmax分类器预测头尾实体开始和结束的位置索引,如式(7)式(10)所示:ps-start=softmax(v1Ttanh(W1g+W2H)(7)ps-end=softmax(v2Ttanh(W3g+W4H)(8)po-start=softmax(v3Ttanh(W5g+W6H)(9)po-end=soft
24、max(v4Ttanh(W7g+W8H)(10)其中,WiRdd和viRd是可学习的参数。1.3二部匹配损失函数损失函数表示样本真实值与模型预测值之间的误差27,适用于评价模型性能的优劣。交叉熵损失法是衡量关系抽取模型优劣的主要方法,但该方法对预测值的排列顺序很敏感,而非自回归解码采用并行解码的方法,打破了对预测值的顺序要求。因此,本文运用二部匹配法以在预测三元组和真实三元组之间产生最优匹配,该方法计算损失值时,与预测值的排列顺序无关。计算二部匹配损失值分为2个步骤:寻找最佳匹配和计算损失函数。1)寻找预测三元组的最佳匹配。与指派问题类似,该问题可看作寻找m个预测三元组和m个真实三元组之间的最
25、佳匹配方法,如图5所示,此类问题可以用匈牙利算法求解。首先,计算每个真实三元组Y和预测三元组之间的成对匹配代价,如公式(11)所示:Cmatch(Yi,j)=-pjr(ri)-pjs-start(sistart)-pjs-end(siend)-pjo-start(oistart)-pjo-end(oiend)(11)其中,i,j=0,1,m-1,是三元组集合中的第i或j个三元组;ri0,1,5,代表不同关系类型;sistart、siend、oistart、oiend是第i个真实三元组中头实体或尾实体开始或结束的位置索引;m为解码层一次性输出三元组的数量,不足m以填充。图5三元组匹配示例根据公式
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 BERT 回归 医疗 知识 抽取
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。