分销赏收藏举报申诉 / 7

立即下载 VIP下载

当前位置：首页 > 学术论文 > 自然科学论文 > 基于BERT和非自回归的医疗知识抽取_于清.pdf

基于BERT和非自回归的医疗知识抽取_于清.pdf

上传人：自信****多点

文档编号：237114

上传时间：2023-04-06

格式：PDF

页数：7

大小：1.25MB

《基于BERT和非自回归的医疗知识抽取_于清.pdf》由会员分享，可在线阅读，更多相关《基于BERT和非自回归的医疗知识抽取_于清.pdf（7页珍藏版）》请在咨信网上搜索。

1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第1期总第329期摘要：为避免实体与关系独立抽取产生的误差累计及实体重叠问题，提出一种基于BERT和非自回归的联合抽取模型来进行医疗知识抽取。首先，通过BERT预训练语言模型进行句子编码；然后，采用非自回归（NAR，Non-autoregressive）的方法实现并行解码，抽取关系类型，并根据头尾实体的位置索引抽取实体，得到医疗实体的关系三元组；最后，将抽取出的实体和关系导入Neo4j图数据库中实现知识可视化。通过对电子病历中的数据进行人工标注得到数据集，实验结果表明，基于BERT和非自回归联合学习模型的F1值为0.92，pr

2、ecision值为0.93，recall值为0.92，与现有模型相比3项评价指标均有提升，表明本文方法能够有效抽取电子病历中的医疗知识。关键词：联合学习；非自回归；BERT；实体重叠；电子病历中图分类号：TP391.1文献标志码：ADOI：10.3969/j.issn.1006-2475.2023.020Medical Knowledge Extraction Based on BERT and Non-autoregressiveYU Qing，MA Zhi-long，XU Chun（School of Information Management,Xinjiang University o

3、f Finance and Economics,Urumqi 830012,China）Abstract：In order to avoid the problems of error accumulation and entity overlap caused by the pipeline entity relation extractionmodel，a joint extraction model based on BERT and Non-autoregressive is established for medical knowledge extraction.Firstly，wi

4、th the help of the BERT pre-trained language model，the sentence code is obtained.Secondly，the Non-autoregressive methodis proposed to achieve parallel decoding，extract the relationship type，extract entities according to the index of the subject andobject entities，and obtain the medical triplet.Final

5、ly，we import the extracted triples into the Neo4j graph database and realizeknowledge visualization.The dataset is derived from manual labeling of data in electronic medical records.The experimentalresults show that the F1 value，precision and recall based on BERT and non-autoregressive joint learnin

6、g model are 0.92，0.93and 0.92，respectively.Compared with the existing model，the three evaluation indicators have been improved，indicating that theproposed method can effectively extract medical knowledge from electronic medical records.Key words：joint learning；non-autoregressive；BERT；entity overlap；

7、electronic medical record文章编号：1006-2475（2023）01-0120-07收稿日期：2022-03-11；修回日期：2022-06-06基金项目：新疆维吾尔自治区自然科学基金资助项目（2019D01A23）；新疆维吾尔自治区高校科研计划项目（XJEDU2021Y038）作者简介：于清（1997），女，山东烟台人，硕士研究生，研究方向：信息处理与管理决策，E-mail:；马志龙（1977），男，新疆乌鲁木齐人，讲师，硕士，研究方向：自然语言处理，E-mail:;徐春（1977），女，新疆乌鲁木齐人，教授，博士，研究方向：自然语言处理，E-mail:。0引言实体

8、识别和关系抽取是信息抽取领域中的核心任务，而医疗领域相对于其他领域，具有实体和关系数量较多、种类繁杂、命名不规则等难点1。如何从医疗文本中提取知识是医疗领域的热点问题。电子病历中蕴含着大量真实且与病人密切相关的医疗信息，从中有效提取实体及其关系，对构建医疗知识图谱、医疗问答、辅助决策具有重要的现实意义2-4。目前，在实体关系抽取任务中，基于循环神经网络5和卷积神经网络6等神经网络技术7-8的深度学习架构日渐成熟，并逐渐被应用于医疗领域中。Uzuner等9根据出院摘要，首次对医疗语义关系进行分类研究。Sunil等10首次将 CNN 模型运用到电子病历的关系抽取中，但此方法不适于距离较远的实体间的

9、识别和抽取。2019年，谷歌基于 Transformer模型提出了BERT网络模型11，并且在关系抽取的相关工作中取得了良好效果。为进一步提高关系抽取的效果，一些学者开始融合多种方法进行实体识别和关系抽取。Zhang等12在 BERT 模型的基础上，提出了基于 Bi-LSTM-CRF的关系抽取优化方法，成功从临床乳腺癌文档中提取出相关概念及属性。Christopoulou等13引入注意力机制和Transform网络，实现药物-药物在句子内和句子间关系的提取和分类。武小平等14针对中文以词为单位的特性，提出了改进的 BERT(wwm)-CNN 模型，实现心血管疾病领域的实体识别及关系抽取。李丽双

10、等15针对位置向量噪声和语义表达匮乏等问题，提出了基于BiLSTM-CNN的关系抽取模型，取得了i2B2/VA语料的最优结果。基于BERT和非自回归的医疗知识抽取于清，马志龙，徐春（新疆财经大学信息管理学院,新疆乌鲁木齐 830012）2023年第1期以上方法均将实体识别和关系抽取分开处理，属于流水线方法，虽然取得了较好的成果，但这些方法忽视了 2 个子任务之间的相关性，会产生误差传播16，最终影响关系抽取的效果。为解决此问题，相关学者将 2个子任务融合成一个任务，进行联合学习。Getoor等17提出了一种基于线性规划的全局推理方法，运用分类器抽取句子中可能存在的实体和关系，指出实体识别和关

11、系抽取是密切相关的。联合学习方法可以分为参数共享和序列标注2种，且大多数研究集中在通用领域。Miwa等18首次将实体识别和关系抽取作为一个任务进行研究，提出了结合树结构的 BiLSTM-RNN 模型，通过二者参数共享进行关系抽取，但存在实体冗余问题。Zheng等19提出了一种基于序列标注的联合学习模型，有效地缓解了参数共享方法存在的实体关系冗余问题。Xu等20将关系抽取问题视为序列标注问题，采用BiLSTMs-CRF相结合的深度学习模型，高效地检测出医学概念-属性关系对。Parsaeimehr等21提出了一种基于深度学习的联合识别体系，克服了误差传播的影响。以上联合学习方法虽然提高了实体关系抽

12、取的效果，但均无法解决重叠三元组问题。电子病历中包含大量半结构化和非结构化信息，文本中的三元组重叠可以分为2类：EPO指一个实体对之间具有多种关系，例如“患者因反复腹痛，伴反酸、嗳气在我院完善相关检查后确诊胃体胃窦癌。”中存在三元组（胃体胃窦癌，症状，腹痛）、（胃体胃窦癌，并发症，腹痛）；SEO指一个实体存在于多个三元组中，例如“患者患胃窦溃疡，因中下腹疼痛进行胃镜检查。”句子中存在三元组（胃窦溃疡，检查，胃镜）、（胃窦溃疡，症状，中下腹疼痛），这种多种关系和共享实体的存在增加了知识抽取任务的难度，传统方法很难学习这种关系。为解决三元组重叠问题，Wei等22提出了CASREL模型，采用级联二进

13、制标注方法，将关系推理建模为句子中头实体到尾实体的映射函数，但存在曝光偏差问题。Wang 等23提出了TPLinker模型，采用多头标注方法实现了单阶段联合学习，能够解决实体重叠和暴露偏差问题，但该方法需要设计复杂的标注模式。Zeng等24提出了一种基于复制机制的seq2seq模型，可以利用该机制对重叠的实体进行复制，并根据不同的实体重叠类型，采用统一解码器和多个解码器进行解码，能够有效解决关系抽取中的实体重叠问题，但会产生大量无效的实体对。Cabot等25将三元组分解成文本序列，以自回归方法为基础，提出了基于BART的联合学习模型，但采用自回归解码的方法，需要考虑多个三元组的提取顺序，而文本

14、中的三元组本质上没有顺序。本文以 seq2seq 模型为框架，运用基于 BERT 和非自回归的联合学习模型实现实体识别和关系抽取，并构建医疗知识图谱。本文主要工作如下：1）BERT预训练语言模型结合上下文语义信息动态生成特征向量，能够有效解决电子病历中的一词多义问题。2）采用基于Transformer的非自回归方法实现并行解码，并根据头尾实体开始和结束的位置索引进行标记，能够有效缓解三元组重叠问题。3）运用电子病历数据进行实验分析，结果表明，本文提出的基于BERT和非自回归的知识抽取方法，效果优于现有模型。1模型介绍本文将实体识别和关系抽取看作一个任务进行联合学习，模型结构如图1所示，主要包括

15、3个部分。首先运用BERT模型对句子进行编码；然后运用基于Transformer的非自回归方法解码，根据解码结果进行关系预测（包括共有6种关系类型），并进一步融合编码信息进行实体抽取；最后，根据二部匹配损失函数计算损失值。联合实体关系抽取的目标是识别原始句子中所有可能的关系三元组，对于给定句子X，目标三元组Y的条件概率如式（1）所示：BERT编码层非自回归解码层二部匹配损失函数多头自注意力机制BERT多头相互注意力机制前馈神经网络关系抽取实体抽取患者患胃窦溃疡，因中下腹疼痛进行胃镜检查。（胃窦溃疡，症状，中下腹疼痛）空集（胃窦溃疡，检查，胃镜）r1r2GHN（

16、s1，r1，o1）（s2，r2，o2）sendsstarto1starto1endo2starto2end图1模型结构于清，等：基于BERT和非自回归的医疗知识抽取121计算机与现代化2023年第1期因胃窦溃疡行胃镜检查检查胃窦溃疡胃镜EncoderDecoderP（Y|X；）=pL（n|X）ni=1p（Yi|X，Yji；）（1）其中，pL（n|X）对目标三元组的大小进行建模，i表示句子中三元组数量，p（Yi|X，Yji；）表示目标三元组Yi不仅与给定的句子X相关，还与其他三元组Yji相关。1.1BERT编码层BERT模型主要包含输入层、编码层和输出层，其基本结构如图 2 所示。BERT 的输

17、入向量由词特征、句子特征和位置特征组成，且句首、句尾分别增加CLS和SEP标志，用于分隔2个句子。编码层由多个相同的Transformer层组成，向量通过多头自注意力（Multi-Head Self-Attention）层，传输到前馈神经网络（Feed-Forward Network）中，最终的输出结果表示为：HeRld其中，l是句子长度，d是BERT模型中隐藏层数量。BERT 模型是基于双向 Transformer 编码的预训练模型，能够较好地解决一词多义的问题，例如，句子“患者因右上腹隐痛，行胸腹部CT检查”中，2个“腹”表示不同的含义，其输入形式如图3所示。图2BERT模型结构1.2非自

18、回归解码层多数seq2seq模型将获取关系三元组看作序列生成问题，利用自回归模型逐个解码。与公式（1）相比，自回归方法识别句子X中目标三元组Y的条件概率如式（2）所示：P（Y|X；）=pL（n|X）ni=1p（Yi|X，Yji；）（2）其中，p（Yi|X，Yji；）表示目标三元组Yi与给定的句子X和已生成的三元组Yji相关，说明自回归解码需要用已生成的词来预测下一个位置的词，无法实现并行解码26，解码速度比较慢。针对此问题，本文使用基于Transformer的非自回归方法，打破了解码时的顺序要求，可以并行解码整个句子，对比如图4所示。从图4（a）中可以看出，自回归模型解码时，词是依次递归生成的

19、，要生成长度为N的句子，需要经过N次解码层；而图4（b）中的非自回归模型则可以一次生成所有词，只需经过1次解码层，减少了经过解码层的次数，提高了解码效率。非自回归解码层由N个相同的Transformer层组成，如图1所示。解码层的输入是初始化后的目标文本向量，输入向量通过线性变换得到表示目标字的Q矩阵、表示上下文各个字的K矩阵以及表示目标字与上下文各个字的原始矩阵V，并通过计算放缩点积求得自注意力值，如公式（3）所示，经过i次计算后获得一个与原始字向量长度相同的增强语义向量，作为多头自注意力层的输出，如公式（4）、公式（5）所示；然后运用多头相互注意机制与BERT层的输出编码融合，根据BERT

20、层的输出H计算得到K、V，根据上一个解码器的输出计算Q，后续计算方法与式（3）式（5）一致，得到输出向量GRmd；最后，通过前馈网络将输出向量解码为关系类型和实体，得到最终预测的三元组。Attention()Q，K，V=softmax(QKTdk)V（3）headi=Attention()QWQi，KWKi，VWVi（4）MultiHead（Q，K，V）=Concat（head1，headi）W0（5）其中，Q、K、V表示输入的字向量矩阵，dk表示输入维Add&NormalFeedForward NetworkAdd&NormalMultiHeadSelfAttentionE1E2EnH1H2

21、HnN输出层输码层输入层图3BERT模型的输入形式InputCLSTokenEmbeddingSegmentEmbeddingPositionEmbeddingCLSCLSE0E1E2E3E4E5E6E7E8E9E10E11E12E13EBEBEBEBEBEBEBEAEAEAEASEPSEPE因E上E腹E痛E行E腹E部ECETE检E查SEPSEP+SEPSEP因上腹痛行腹部CT检查（b）非自回归模型图4自回归与非自回归模型对比因胃窦溃疡行胃镜检查检查胃窦溃疡胃镜EncoderDecoder（a）自回归模型1222023年第1期度，WiQ、WiK、WiV表示headi的权重矩阵，W0表示附加权重

22、矩阵。本文根据头尾实体开始和结束的位置索引进行三元组抽取，且将并发症、检查、症状、常用药物、治疗方式和这6种关系类型分别赋值为05，三元组可表示为Y=（r，sstart，send，ostart，oend）。例如，句子“患者患胃窦溃疡，因中下腹疼痛进行胃镜检查。”中存在的三元组（胃窦溃疡，检查，胃镜）、（胃窦溃疡，症状，中下腹疼痛），可以表示为（1，3，6，16，17）、（2，3，6，9，13），其中，实体“胃窦溃疡”可以重复抽取。该方法类似Span标注，但不需要对头尾实体进行标注，而是直接利用实体的位置索引为标记，能够有效解决三元组重叠问题。假设给定一个输出向量gRd，经过关系预测和首尾实体预

23、测，可得到最终的预测三元组=（pr，ps-start，ps-end，po-start，po-end），具体如式（6）式（10）所示：1）关系预测：pr=softmax（Wrhd）（6）其中，WrRtd，t是关系类型（包括空集）的总数，d是BERT模型中隐藏层数量。2）首尾实体预测：通过softmax分类器预测头尾实体开始和结束的位置索引，如式（7）式（10）所示：ps-start=softmax（v1Ttanh（W1g+W2H）（7）ps-end=softmax（v2Ttanh（W3g+W4H）（8）po-start=softmax（v3Ttanh（W5g+W6H）（9）po-end=soft

24、max（v4Ttanh（W7g+W8H）（10）其中，WiRdd和viRd是可学习的参数。1.3二部匹配损失函数损失函数表示样本真实值与模型预测值之间的误差27，适用于评价模型性能的优劣。交叉熵损失法是衡量关系抽取模型优劣的主要方法，但该方法对预测值的排列顺序很敏感，而非自回归解码采用并行解码的方法，打破了对预测值的顺序要求。因此，本文运用二部匹配法以在预测三元组和真实三元组之间产生最优匹配，该方法计算损失值时，与预测值的排列顺序无关。计算二部匹配损失值分为2个步骤：寻找最佳匹配和计算损失函数。1）寻找预测三元组的最佳匹配。与指派问题类似，该问题可看作寻找m个预测三元组和m个真实三元组之间的最

25、佳匹配方法，如图5所示，此类问题可以用匈牙利算法求解。首先，计算每个真实三元组Y和预测三元组之间的成对匹配代价，如公式（11）所示：Cmatch（Yi，j）=-pjr（ri）-pjs-start（sistart）-pjs-end（siend）-pjo-start（oistart）-pjo-end（oiend）（11）其中，i，j=0，1，m-1，是三元组集合中的第i或j个三元组；ri0，1，5，代表不同关系类型；sistart、siend、oistart、oiend是第i个真实三元组中头实体或尾实体开始或结束的位置索引；m为解码层一次性输出三元组的数量，不足m以填充。图5三元组匹配示例根据公式

26、（11），能够以最小代价找到预测三元组集合的最佳匹配策略，如公式（12）所示：a*=argminCmatch（Yi，j）（12）2）计算损失函数。运用负对数似然计算最优匹配情况下的损失值，由式（6）式（10）可知，预测三元组得到是关系及实体的概率分布，概率越接近1，函数值越接近0，可得到损失函数的最小值，如式（13）所示：L（Y，Y?）=i=0m-1-logpra*()i()ri-logps-starta*()i()sstarti-logps-enda*()i()sendi-logpo-starta*(i)(ostarti)-logpo-enda*(i)(oendi)（13）其中，a*（i）是

27、最优匹配策略中，真实三元组集合中第i个三元组对应的预测三元组。2实验分析2.1数据来源本文运用新疆某医院消化内科的电子病历，经过人工检查选取586条数据，将文本按句拆分成4252个句子，并进行人工标注，标注示例如下：sentText:患者患有胃窦炎，因上腹部隐痛入院行上消化道钡餐检查。,relationMentions:em1Text:胃窦炎,em2Text:上腹部隐痛,label:症状,em1Text:胃窦炎,em2Text:上消化道钡餐,label:检查。将标注后句子按3:1:1比例随机划分为训练集、测试集和验证集。本文实体类型和实体关系各有5种，具体释义如表1所示，数据集中关系

28、类型统计如表2所示。表1实体关系释义（r0，s0start，s0end，o0start，o0end）（r1，s1start，s1end，o1start，o1end）（r2，s2start，s2end，o2start，o2end）（r3，s3start，s3end，o3start，o3end）（）（）真实三元组集合预测三元组集合（p0r，p0s-start，p0s-end，p0o-start，p0o-end）（p1r，p1s-start，p1s-end，p1o-start，p1o-end）（p2r，p2s-start，p2s-end，p2o-start，p2o-end）（p3r，p3s-star

29、t，p3s-end，p3o-start，p3o-end）（）（）实体关系accompany_withneed_checkhas_symptomcommon_drugcure_way解释并发症诊断检查症状常用药物治疗方式关系对疾病-疾病疾病-检查疾病-症状疾病-常用药物疾病-治疗方式于清，等：基于BERT和非自回归的医疗知识抽取123计算机与现代化2023年第1期表2关系类型统计2.2实验设置本模型是基于编程工具Python 3.8.5，以PyTorch1.8.1为框架开发的。基于 BERT-base-Chinese 预训练模型，使用Adam W优化器对模型参数进行自适应学习，具体参数设置如表3

30、所示。表3参数设置2.3实体关系抽取结果分析1）评价指标。本实验采用召回率Recall、精确率Precision和F1值来评价联合关系抽取模型的性能，各评价指标的计算方法如下：R=TPTP+FNP=TPTP+FPF1=2 R PR+P其中，TP表示预测正确的三元组数量；FP表示预测错误的三元组数量；FN表示数据集中的相关三元组但没有被模型识别的数量。2）实验结果分析。图 6所示为本实验测试集的 Precision、Recall和F1值随训练周期的变化情况，其中，F1值在第43个训练周期达到最高值。图7所示为本实验训练集的损失值随训练周期的变化，可以看出经过50次迭代后，损失值最终实现收敛。图6

31、模型的Precision、Recall和F1值图7模型损失值3）模型综合对比及分析。为了对本文模型进行更加客观的评价，运用相同的数据集将本文模型与以下模型进行实验对比，对比结果如表4所示。BERT-BiLSTM模型：一种流水线关系抽取方法，运用 BIO方法标注实体，经过 BERT模型提取特征，使用BiLSTM网络进行关系抽取。BERT-BiLSTM-Seq2Seq 模型：一种联合学习模型，选用BIEO方法标注实体，运用BERT模型获得编码向量，然后运用BiLSTM网络进行解码。WDec模型28：提出了一种新的表示方法，将三元组及其开头用特殊标记分割，运用基于指针网络的解码器，并引入“复制”机制

32、，能够从句子中找到实体重叠三元组和多个标记实体的三元组。CasRel模型：一种联合学习模型，采用级联二进制标注方法，第一阶段识别所有可能的头实体，然后由特定标注器识别所有可能的关系和尾实体。表4不同模型实验结果对比从表 4 可以看出，BERT+非自回归模型的精确率、召回率和F1值是最优的。与BERT-BiLSTM流水线模型相比，本文模型的F1值提高了0.09，其余2个联合学习的F1值也均有提高，原因在于流水线模型中关系抽取的结果严重依赖实体识别的结果，而联合学习模型增强了实体识别与关系抽取2个任务之间的联系，能够缓解错误传播。与 BERT-BiLSTM-Seq2Seq模型相比，本文模型的F1值

33、提高了0.04，原因在于BiLSTM解码是自回归解码方法，而本文提出的基于 Transformer 的非自回归方法，是一种并行解码，解码时不需要依赖上一个词的信息。与WDec模型相比，本文模型的 F1 值提高了 0.07，原因在于WDec 模型在编码层运用 CNN 模型，而本文运用BERT模型进行编码，能够融合上下文信息，充分挖掘文本信息；WDec模型的解码器结果会输出到整个词汇表，因此解码器会从词汇表中预测当前句子中不存在的标记，导致特殊标记及关系标记的抽取错误，生成错误的三元组，而本文根据头尾实体开始和结束的位置索引进行三元组抽取，能够有效标识实体和关系。与 CasRel 模型相比，本文模

34、型的 F1 值提高了关系对疾病-疾病疾病-检查疾病-症状疾病-常用药物疾病-治疗方式总计训练集426176920704877205472测试集2016218522172842175验证集1866478431782722126总计8133037376588212769773参数隐藏层数量隐藏层维度优化器权重衰减encoder层学习率decoder层学习率batch_sizemax_epochdropout值12768Adam W1e-52e-51e-58500.1实验模型BERT-BiLSTMBERT-BiLSTM-Seq2SeqWDecCasRelBERT+非自回归Precision0.870

35、.890.880.900.93Recall0.790.860.810.890.92F10.830.880.850.890.92Epoch0 5 10 15 20 25 30 35 40 45损失值543210PrecisionRecallF1Epoch0 5 10 15 20 25 30 35 40 4510.90.80.70.60.5指标值1242023年第1期0.03，原因在于CasRel模型解码时对于识别出来的每一个头实体，要遍历所有的关系，导致需要判断大量冗余关系，且关系和尾实体抽取的准确性依赖于头实体抽取是否正确，而本文运用以Transformer架构为基础的并行解码器，能够同时抽取

36、关系和实体，能够减少误差累计，更大限度地捕捉电子病历复杂的实体和关系分布。4）抽取重叠三元组的结果分析。将三元组分为Normal、EPO、SEO这3类。Normal指不存在重叠的三元组，结果如图8所示。在正常三元组中，各模型的FI值差距不大；在抽取重叠三元组时，运用BIO标注的BERT-BiLSTM模型和BIEO标注的BERT-BiLSTM-Seq2Seq模型与本文模型均有较大差距，因为这2种方法基于就近原则进行标注，导致抽取结果较差；WDec模型在于引进“复制”机制来复制重叠实体，但该方法会产生许多无效实体对，即2个实体间没有有效关系；CasRel模型生成三元组时，头实体的开始和结束位置用相

37、同标记，当存在多个头实体会出现多个标记，则采用就近原则，导致重叠三元组识别存在误差。图8不同模型抽取不同类型三元组的F1值3知识可视化目前，知识存储的数据库主要有关系型数据库与图数据库。其中，图数据库用节点、边以及属性进行数据存储和展示，并且具有自然伸展的特点，能够更简洁地表达知识。Neo4j是一种常用图数据库，能够通过 Cypher语句来导入和查询数据，语法简洁，功能强大。对于大规模导入数据，Neo4j还提供了py2neo库，可以通过Python编程快速将大量实体和关系导入数据库。在抽取出电子病历中的医学实体及实体间的关系后，将结果导入Neo4j图数据库中，构建面向消化内科的医疗知识图谱。该

38、知识图谱由2516个实体节点和 9894 个关系对组成。知识图谱构建完成后，可以通过 Cypher 语言进行查询，获得所需的知识。患者可以通过医疗知识图谱进行查询，如图9所示，患有“胆汁性肝硬化”的病人，可以通过查询了解自己可以进行哪种治疗，知道服用哪种药能够缓解症状，并且能够知道“胆汁性肝硬化”能引起哪些并发症，及时预防并发症的产生。知识图谱也能够为医生提供辅助决策，如图10所示，医生在为有“上腹部包块”“肝星状细胞增生”“肝结节”等症状的患者诊断时，可以通过“肝纤四项”“肝脏疾病超声诊断”等检查方法，诊断患者是否患有“肝纤维化”。图9胆汁性肝硬化的部分知识图谱图10肝纤维化的症状及检查方式

39、4结束语针对误差累计、一词多义和三元组重叠等问题，本文提出了一种基于BERT和非自回归的联合实体关系抽取模型，加强实体识别与关系抽取间的相关性。首先，运用BERT模型作为编码层捕捉上下文信息，较好地解决医疗实体一词多义的问题；然后，采用非自回归的方法直接解码，提出以头尾实体开始和结束的位置索引作为标记的方法有效抽取重叠三元组；最后，将生成的三元组导入Neo4j数据库中，实现了10.90.80.70.60.5F1值NormalEPOSEOBERTBiLSTMSeq2SeqCasRelBERTBiLSTMWDecBERT+非自回归has_symptom腹部肿块has_symptomhas_symp

40、tomhas_symptomhas_symptomhas_symptomhas_symptomhas_symptomhas_symptomneed_checkneed_checkneed_checkneed_checkneed_checkneed_checkneed_checkneed_checkneed_checkneed_check门体侧支.肝脏病变.上腹部上腹部肿.肝脏疾病.肝纤维化.反映肝脏.血清型.血清型.肝脏及胆肝纤四项层粘连.透明质酸肝星状细.肝结节纤维连接.肝纤维化肝纤维化腹痛伴.cure_waycure_waycure_waycure_waycure_Common_drCom

41、mon_dracconmpaaccure胆汁性肝硬化丁二磺酸.肝内胆管结石药物治疗肝纤维化支持性.对症治疗硫唑嘌.于清，等：基于BERT和非自回归的医疗知识抽取125计算机与现代化2023年第1期相关疾病、症状、检查等知识的联系和查询功能。下一步工作将开展数据和知识双驱动的实体关系抽取研究，目前的研究仅依赖电子病历内部特征，是以数据驱动的方法，但忽略了专家知识。因此，拟将医学知识库引入关系抽取过程中，增加实体关系抽取结果的可解释性和专业性。参考文献：1 宁尚明，滕飞，李天瑞.基于多通道自注意力机制的电子病历实体关系抽取 J.计算机学报，2020，43（5）:916-929.2 贾辛洪，宋文爱，

42、李伟岩，等.慢阻肺知识图谱的构建研究与实现 J.小型微型计算机系统，2020，41（7）:1371-1374.3 贾丽娜，陈恒，李冠宇.基于注意力混合模型的中文医疗问答匹配 J.计算机应用与软件，2021，38（11）:148-154.4 杜优.基于信息融合的医疗影像辅助决策研究 J.智能计算机与应用，2019，9（2）:91-95.5SOCHER R，HUVAL B，MANNING C D，et al.Semanticcompositionality through recursive matrix-vector spacesC/Proceedings of the 2012 Joint C

43、onference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning.2012:1201-1211.6 ZENG D J，LIU K，LAI S W，et al.Relation classificationvia convolutional deep neural networkC/Proceedings ofthe 25th International Conference on Computational Linguistics:Technical

44、 Paper.2014:2335-2344.7 冯云霞，衣鹏，韩正亮，等.基于CNN-BGRU-CRF的中文电子病历实体抽取方法 J.计算机与现代化，2020（11）:60-64.8CHIKKA V R，KARLAPALEM K.A hybrid deep learningapproach for medical relation extraction J.arXiv preprintarXiv:1806.11189，2018.9UZUNER O，MAILOA J，RYAN R，et al.Semantic relations for problem-oriented medical reco

45、rds J.Artificial Intelligence in Medicine，2010，50（2）:63-73.10 SUNIL K S，ASHISH A，KRISHNADEV O，et al.Relationextraction from clinical texts using domain invariant convolutional neural network C/Workshop on Biomedical Natural Language Processing.2016:206-215.11 DEVLIN J，CHANG M W，LEE K，et al.BERT：Pre-

46、training of deep bidirectional transformers for language understanding C/Proceedings of the 2019 Conference of theNorth American Chapter of the Association for Computational Linguistics:Human Language Technologies.2019，1:4171-4186.12 ZHANG X H，ZHANG Y Y，ZHANG Q，et al.Extractingcomprehensive clinical

47、 information for breast cancer usingdeep learning methods J.International Journal of MedicalInformatics，2019，132:103985.1-103985.7.13 CHRISTOPOULOU F，TRAN T，SAHU S K，et al.Adverse drug events and medication relation extraction in electronic health records with ensemble deep learning methodsJ.Journal

48、 of the American Medical Informatics Association，2020，27（1）:39-46.14 武小平，张强，赵芳，等.基于BERT的心血管医疗指南实体关系抽取方法 J.计算机应用，2021，41（1）:145-149.15李丽双，袁光辉，刘晗喆.基于位置降噪和丰富语义的电子病历实体关系抽取 J.中文信息学报，2021，35（8）:89-97.16张玉坤，刘茂福，胡慧君.基于联合神经网络模型的中文医疗实体分类与关系抽取 J.计算机工程与科学，2019，41（6）:1110-1118.17 GETOOR L，TASKAR B.Global inferen

49、ce for entity and relation identification via a linear programming formulationC/Introduction to Statistical Relational Learning，2007:553-580.18 MIWA M，BANSAL M.End-to-end relation extraction using LSTMs on sequences and tree structures C/Proceedings of the 54th Annual Meeting of the Association for

50、Computational Linguistics.2016，1:1105-1116.19 ZHENG S C，WANG F BAO H Y，et al.Joint extraction ofentities and relations based on a novel tagging scheme C/Proceedings of the 55th Annual Meeting of the Associationfor Computational Linguistics.2017:1227-1236.20 XU J，LI Z H，WEI Q，et al.Applying a deep le

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 BERT 回归医疗知识抽取

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。