基于MFE-BERT与FNNAttention的心理医学知识图谱构建.pdf
《基于MFE-BERT与FNNAttention的心理医学知识图谱构建.pdf》由会员分享,可在线阅读,更多相关《基于MFE-BERT与FNNAttention的心理医学知识图谱构建.pdf(12页珍藏版)》请在咨信网上搜索。
1、基于 MFE-BERT 与 FNNAttention 的心理医学知识图谱构建刘子轩1,申艳光1,李焰2,苏文婷1,31(河北工程大学信息与电气工程学院,邯郸056038)2(河北工程大学附属医院急诊科,邯郸056038)3(河北工程大学河北省安防信息感知与处理重点实验室,邯郸056038)通信作者:申艳光,E-mail:摘要:针对心理医学领域文本段落冗长、数据稀疏、知识散乱且规范性差的问题,提出一种基于多层级特征抽取能力预训练模型(MFE-BERT)与前向神经网络注意力机制(FNNAttention)的心理医学知识图谱构建方法.MFE-BERT在 BERT 模型基础上将其内部所有 Encode
2、r 层特征进行合并输出,以获取包含更多语义的特征向量,同时对两复合模型采用 FNNAttention 机制强化词级关系,解决长文本段落语义稀释问题.在自建的心理医学数据集中,设计MFE-BERT-BiLSTM-FNNAttention-CRF 和 MFE-BERT-CNN-FNNAttention 复合神经网络模型分别进行心理医学实体识别和实体关系抽取,实体识别 F1 值达到 93.91%,实体关系抽精确率达到了 89.29%,通过融合文本相似度与语义相似度方法进行实体对齐,将所整理的数据存储在 Neo4j 图数据库中,构建出一个含有 3652 个实体,2396 条关系的心理医学知识图谱.实验
3、结果表明,在 MFE-BERT 模型与 FNNAttention 机制的基础上构建心理医学知识图谱切实可行,提出的改进模型所搭建的心理医学知识图谱可以更好地应用于心理医学信息管理中,为心理医学数据分析提供参考.关键词:知识图谱;心理医学;命名实体识别;实体关系抽取;MFE-BERT 模型;FNNAttention 机制引用格式:刘子轩,申艳光,李焰,苏文婷.基于 MFE-BERT 与 FNNAttention 的心理医学知识图谱构建.计算机系统应用,2023,32(11):108119.http:/www.c-s- of Psychomedical Knowledge Graph Based
4、on MFE-BERT and FNNAttentionLIUZi-Xuan1,SHENYan-Guang1,LIYan2,SUWen-Ting1,31(SchoolofInformationandElectricalEngineering,HebeiUniversityofEngineering,Handan056038,China)2(DepartmentofEmergency,AffiliatedHospitalofHebeiEngineeringUniversity,Handan056038,China)3(HebeiKeyLaboratoryofSecurityandProtecti
5、onInformationSensingandProcessing,HebeiUniversityofEngineering,Handan056038,China)Abstract:Tosolvetheproblemsoflengthyparagraphs,sparsedata,scatteredknowledge,andpoorspecificationoftextdatainpsychologicalmedicine,amethodbasedonthepre-trainedmodelofmulti-levelfeatureextractioncapability(MFE-BERT)andf
6、orwardneuralnetworkattention(FNNAttention)mechanismisproposedfortheconstructionofpsychomedicalknowledgegraphs.BasedontheBERTmodel,MFE-BERTmergesandoutputsalltheinternalencoderlayerfeaturestoobtainfeaturevectorswithmoresemantics.Atthesametime,theFNNAttentionmechanismisappliedtothetwocompositemodelsto
7、strengthentheword-levelrelationshipandsolvethesemanticdilutionoflongtextparagraphs.Intheself-createdpsychomedicaldatasets,thecompoundneuralnetworkmodelsofMFE-BERT-BiLSTM-FNNAttention-CRFandMFE-BERT-CNN-FNNAttentionaredesignedforpsychomedicalentityrecognitionandentity计算机系统应用ISSN1003-3254,CODENCSAOBNE
8、-mail:ComputerSystems&Applications,2023,32(11):108119doi:10.15888/ki.csa.009285http:/www.c-s-中国科学院软件研究所版权所有.Tel:+86-10-62661041基金项目:国家自然科学基金(61802107);河北省医学科学研究课题(20220037);国家重点研发计划(2018YFF0301004)收稿时间:2023-04-13;修改时间:2023-05-17;采用时间:2023-05-25;csa 在线出版时间:2023-09-19CNKI 网络首发时间:2023-10-07108系统建设Syste
9、mConstructionrelationshipextractionrespectively.TheentityrecognitionF1valuereaches93.91%andtheentityrelationextractionprecisionratereaches89.29%.Theentityalignmentiscarriedoutbymergingtextsimilarityandsemanticsimilarity.ThecollateddataarestoredinaNeo4jgraphdatabase,andapsychomedicalknowledgegraphcon
10、taining3652entitiesand2396relationshipsisconstructed.TheexperimentalresultsshowthatitispracticalandfeasibletoconstructapsychomedicalknowledgegraphbasedontheMFE-BERTmodelandtheFNNAttentionmechanism,andthepsychomedicalknowledgegraphbuiltbytheproposedimprovedmodelscanbebetterappliedinpsychomedicalinfor
11、mationmanagement,providingareferenceforpsychomedicaldataanalysis.Key words:knowledgegraph;psychomedical;namedentityrecognition;entityrelationshipextraction;MFE-BERTmodel;forwardneuralnetworkattention(FNNAttention)mechanism随着医学水平的不断提高以及互联网科学技术的高速发展,心理学不仅在医学领域成为重点研究学科,在融合互联网、数据挖掘1、神经网络等新兴科技的心理与行为研究被更提
12、升至前所未有的高度.面对心理医学知识管理的复杂性以及领域信息收集与整理效率低下的现状,心理科学研究和分析对心理医学数据提出更高的要求.当前心理医学领域迫切需要一种高效便捷的信息管理体系.拥有强大语义网络的知识图谱2能够为复杂的心理医学数据建立网络神经关系框架,更好地为心理医学研究提供数据关系支撑.徐春等人3通过融合 BERT-WWM 和指针网络的实体关系联合抽取模型构建了旅游知识图谱.Martnez-Rodrguez 等人4使用开放信息提取(OpenIE)生成的二元关系方法构建了文本关系知识图谱.黄梦醒等人5利用 BiLSTM-CRF 的实体识别与关系抽取方法构建电子病例知识图谱,为个性化医疗
13、推荐服务提供帮助.廖开际等人6综合利用 BiLSTM、BiGRU、CRF 等深度学习模型对社区医疗文本进行实体识别与关系抽取,通过图数据库构建成可视化知识图谱.近年来,由结构化数据组成的知识图谱逐渐被科研人员应用于生物医疗等垂直领域,但是由于心理医学文本段落冗长、数据稀疏、知识散乱的特点,常见深度学习模型难以学习到心理医学数据集全部特征,无法支撑心理医学知识图谱构建工作,因此目前心理医学领域方面的知识图谱研究少之又少,无法满足当前社会对心理医学信息管理的需求.为解决上述存在的问题,本文将深度神经网络学习与心理医学实体识别、心理医学实体关系抽取相结合,提出具有多层级特征抽取能力的 MFE-BER
14、T 预训练模型和应用前向神经网络的注意力机制改进模型FNNAttention 进行心理医学实体识别与心理医学实体关系抽取,最终通过两模型中识别的实体及其关系形成的结构化数据搭建心理医学知识图谱.相比于传统模型,本文改进模型做出以下贡献.(1)MFE-BERT 模型将文本预处理生成动态词向量,使心理医学实体识别和心理医学实体关系抽取的词向量融合上下文语义联系.提出多层级特征抽取的改进预训练模型,在全连接 TransformerEncoder 每层特征信息的基础上,将每层的输出向量进行最终合并输出,赋予词向量更为丰富的词级与语义信息.(2)应用 FNNAttention 模型,利用前向神经网络自适
15、应学习函数分配特征权重,可以有效解决长文本段落语义稀释问题,避免相同心理医学实体在不同语句中标注不一致的问题.本文对传统 Attention 机制进行改进,采用前向神经网络注意力机制7捕获全局词级信息来强化长文本上下文的词级关系.(3)基于自建的心理医学数据集以及公开的生物医学数据集,将提出的模型与其他已有基准模型进行对比分析,实验结果证明本文所提出模型的合理性及有效性.1相关工作 1.1 命名实体识别命名实体识别是将文本中的命名实体定位并分类为预定义实体类别的过程8.近年来研究专家对深度学习不断探索且取得了良好进展,部分学者尝试着将深度学习与命名实体识别相结合.Collobert 等人9使用
16、CNN 对输入序列进行特征提取,再通过 CRF 随机条件场合输出序列的标签.这种模型对局部信息特征提取效果较好,但是可能会忽略重要的上下文信息,更适用于简单的表面特征抽取应用.Habibi 等人10在生物医2023年第32卷第11期http:/www.c-s-计 算 机 系 统 应 用SystemConstruction系统建设109学领域中利用 BiLSTM-CRF 模型对医学实体进行识别,相较于 CNN 模型,BiLSTM 能够有效地捕捉句子和段落之间的关系,更好地利用上下文语境进行实体识别,但是 BiLSTM 模型容易出现过拟合问题,因此不适合过小的数据集.郭知鑫等人11通过 BERT-
17、BiLSTM-CRF 模型有效对法律文本中的案件实体进行识别,提高了案件处理的效率.任媛等人12在 BERT-BiLSTM-CRF模型的基础上引入了注意力机制,在渔业标准定量指标的实体识别上做出了贡献.心理医学领域,Lakel 等人13在心理科学词典的基础上,利用 JAPE(Java 注释模式引擎)规则来提取心理实体,但是需要花费大量时间和精力来定义规则,难以面对复杂的数据.心理医学实体识别技术对于心理健康领域的临床和研究具有广泛的应用前景.通过识别文本中的心理医学实体,如疾病名称、治疗方法、药品等,可以为医生提供辅助诊断的依据,同时也可以从大量的文本数据中提取知识和信息,帮助构建更全面和准确
18、的心理健康知识库.1.2 实体关系抽取关系抽取技术是搭建知识图谱过程中的重要一步,也是自然语言处理任务的支撑基础.关系抽取将文本中结构化、半结构化和非结构化的数据信息转化为具有结构化关系的数据信息存储在知识库中,为之后的智能检索和语义分析提供一定的支持和帮助14.关系抽取具体定义如下:对于一个非结构化文本语句 S,句中包含给定的实体对(E1,E2),提取两实体之间的关系 rR(R 为预定义的关系集合),形成一个关系三元组.目前基于深度学习的关系抽取节省了大量的时间以及人力成本,在提高准确率的同时其模型泛化性得到了很好的拓展15.陆晓蕾等人16在多层级专利分类研究中将 Word2Vec-CNN
19、与 BERT-CNN 做对比实验,后者表现更好,准确率达到 84.3%.Zhou 等人17提出了融合注意力与 BiLSTM 模型来捕捉句子中最重要的语义信息,在 SemEval-2010 分类任务中 F1 值达到 82.5%.刘峰等人18在已有研究的基础上通过引入 Multi-headAttention 和依存句法特征,能够获取更多的文本句法信息.姚宁等人19对 CNN 模型应用注意力机制,在精神分裂症分类任务中拥有较高的分类精度,为临床针对提供生物学依据.心理医学领域实体关系抽取是一种基于自然语言处理技术的医学领域应用,旨在对心理医学相关文本中的实体间的关系进行分类.它可以帮助医生、研究人员
20、和决策者更好地理解心理疾病的发生和发展机制,提供更加准确、全面的支持.2心理医学知识图谱模型构建方法心理医学知识图谱构建的主要过程包括实体抽取和实体间关系的建立20.首先通过 MFE-BERT-BiLSTM-FNNAttention-CRF 模型对心理医学文本进行实体识别,其次将识别的实体与文本输入至 MFE-BERT-CNN-FNNAttention 模型进行实体之间的关系抽取,最后进行知识融合,利用 Neo4j 图数据库存储数据,构成心理医学知识图谱.2.1 心理医学实体识别模型心理医学实体识别模型主要由 4 层组成,分别是MFE-BERT 预处理层,双向长短记忆神经网络层,FNN-Att
21、ention 层和 CRF 条件随机场,如图 1 所示.LSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLabel1Label2Label3LabelnCRF 层FNNAttention 层BiLSTM 层h11h2MFE-BERT 层Input2h33hnE1E2E3EnT2T2T2T2T1T1T1T1z1z2z3znnX1X2X3Xn(ht)图 1MFE-BERT-BiLSTM-FNNAttention-CRF 模型图各层操作步骤如下.(1)文本输入层:将心理医学文本以句子为单位作为输入序列.(2)MFE-BERT 层:接收文本输入层序列,首先将序列向量化,结合 Token
22、Embeddings、SegmentEm-beddings 与 PositionEmbeddings 这 3 个向量作为输入,经过对模型内部的改进,每个向量经过 12 个 TransformerEncoder 层的输出被拼接成为一个具有当前序列深层特征语义的向量.计 算 机 系 统 应 用http:/www.c-s-2023年第32卷第11期110系统建设SystemConstruction(3)BiLSTM 层:接收 MFE-BERT 模型输出的特征向量,通过双向长短记忆网络捕获心理医学文本的上下文语义表征,输出每个实体标签的分数(Emission_score).(4)FNNAttentio
23、n 机制:采用前向神经网络注意力机制对 BiLSTM 层运算向量进行加权平均处理,对长文本语义信息进行强化,同时避免相同心理医学实体在不同语句中标注不一致的问题.(5)CRF 层:将经过权重分配处理的 Emission_score 作为输入,通过对标签建模以及向最终的预测标签添加一些约束,输出符合标注转移约束条件、最大可能的标注序列.(6)输出层:实体识别模型整体能够将复杂的心理医学文本处理为最优标注序列,最终根据标心提取医学实体.2.2 心理医学关系抽取模型心理医学关系模型由 3 部分组成,分别是 MFE-BERT 预处理层,卷积神经网络层(CNN)21和前向神经网络注意力机制.关系抽取复合
24、模型同样应用了上述改进的 MFE-BERT 预处理层和前向神经网络注意力机制来进行长文本语义信息的深度提取,模型图如图 2 所示.CNN 层SoftmaxMFE-BERT 层z1InputFNNAttention 层z2z3znh1h2h3hnX1X2X3Xn123n(ht)E1E2E3EnT2T2T2T2T1T1T1T1图 2MFE-BERT-CNN-FNNAttention 模型图各层操作步骤如下.(1)文本输入层:利用心理医学实体识别模型处理以后的心理医学文本作为模型输入,其结构为实体 1,实体 2,文本句子.实体与实体,实体与句子之间用“*”分隔,句子中的心理医学实体用“#”表示,如“
25、忧郁症*中年人*#常见于#”这种方式使关系抽取模型在不进行额外距离标注的情形下也可以很好地学习到输入序列中两实体的关系.(2)MFE-BERT 层:文本传输给 MFE-BERT 模型中,文字此时会被模型处理为具有词向量、位置向量以及句子向量结合而成的特征向量,通过 12 层 Trans-formerEncoder 对特征向量进行预训练.(3)CNN 层:接收 MFE-BERT 模型输出的特征向量,先利用卷积核对句子进行卷积操作以及池化层的降维和特征融合,提取序列局部特征,再通过多层卷积学习到文本的全局特征.(4)FNNAttention 层:采用前向神经网络注意力机制加强对心理医学关系分类作用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 MFE BERT FNNAttention 心理 医学知识 图谱 构建
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。