医学知识图谱构建技术及发展现状研究_黄贺瑄.pdf
《医学知识图谱构建技术及发展现状研究_黄贺瑄.pdf》由会员分享,可在线阅读,更多相关《医学知识图谱构建技术及发展现状研究_黄贺瑄.pdf(16页珍藏版)》请在咨信网上搜索。
1、2023,59(13)知识图谱(knowledge graph,KG)是一门多学科融合的现代理论,它将应用数学、图形学、信息可视化技术等多学科理论1与本体技术结合,将描述客观事实的字符串形式转化成结构化语言形式,实现知识的概念化表达,以图结构建模更加直观地表示知识结构及相互联系。知识图谱作为符号主义和连接主义的结合,可实现海量数据的统一管理、知识深度关联、沉淀领域知识、挖掘隐含内容,有效提高知识的利用效率,是AI大数据时代组织管理知识的关键技术。随着人工智能技术和自然语言处理(NLP)的不断发展,人们对知识的需求远远大于搜索引擎提供的网页形式,2012年,谷歌首提知识图谱概念2,用于改善搜索引
2、擎性能,实现从海量数据文档中抽取知识结构,通过精准推理及预测达到准确回答,知识图谱由此成为学术医学知识图谱构建技术及发展现状研究黄贺瑄1,王晓燕1,顾正位2,刘静1,臧亚男1,孙歆11.山东中医药大学 智能与信息工程学院,济南 2503552.山东中医药大学 药学院,济南 250355摘要:知识图谱作为人工智能的重要分支,因其强大的语义处理能力和数据组织能力,可以全面整合医学概念、挖掘潜在医学知识,已成为医学智能化发展的重要手段。鉴于此,论述了医学知识图谱搭建中知识抽取、知识表示、知识融合、知识推理四个过程的最新方法及特点,深入研究并对比不同方法的优缺点,归纳各阶段常用数据集,梳理知识图谱在医
3、学知识问答、临床辅助诊疗、中医知识挖掘及药物研究等方面的研究现状及各场景下的应用难点。最后总结现有医学知识图谱技术的局限性及面临的挑战,并对其未来发展进行展望。关键词:医学知识图谱;深度学习;知识抽取;本体;知识推理文献标志码:A中图分类号:TP391.1doi:10.3778/j.issn.1002-8331.2209-0475Research on Construction Technology and Development Status of Medical Knowledge GraphHUANG Hexuan1,WANG Xiaoyan1,GU Zhengwei2,LIU Jing
4、1,ZANG Yanan1,SUN Xin11.College of Intelligence and Information Engineering,Shandong University of Traditional Chinese Medicine,Jinan250355,China2.College of Pharmacy,Shandong University of Traditional Chinese Medicine,Jinan 250355,ChinaAbstract:As an important branch of artificial intelligence,know
5、ledge graph can realize comprehensive integration ofmedical concepts and mining potential medical knowledge due to its powerful semantic processing ability and data organi-zation ability,which has become an important means for the development of medical intelligence.Based on this,the latestmethods a
6、nd features of the four processes of medical knowledge graph building:knowledge extraction,knowledgeexpression,knowledge fusion and knowledge reasoning are discussed,the advantages and disadvantages of differentmethods are deeply studied and compared,the commonly used datasets in each stage are summ
7、arized,the research statusof knowledge graph in medical knowledge question and answer,clinical auxiliary diagnosis and treatment,knowledgemining of traditional Chinese medicine and drug research are reviewed,the application difficulties in each scenarioare analyzed.Finally,the limitations and challe
8、nges of the existing medical knowledge graph technology are summarizedand its future development is prospected.Key words:medical knowledge graph;deep learning;knowledge extraction;ontology;knowledge reasoning基金项目:国家自然科学基金(82174528);山东省中医药科技项目(2021M146);山东省研究生教育质量提升计划(SDYKC19147)。作者简介:黄贺瑄(1998),女,硕士研
9、究生,研究方向为知识图谱、医疗健康大数据;王晓燕(1979),通信作者,女,博士,副教授,研究方向为中医药智能化研究、医疗健康大数据,E-mail:;顾正位(1979),男,博士,副教授,研究方向为中医药智能化研究;刘静(1980),女,硕士,副教授,研究方向为中医药智能化研究;臧亚男(1996),女,硕士研究生,研究方向为医疗健康大数据;孙歆(1998),男,硕士研究生,研究方向为医疗健康大数据。收稿日期:2022-09-29修回日期:2023-02-21文章编号:1002-8331(2023)13-0033-16Computer Engineering and Applications计算
10、机工程与应用33Computer Engineering and Applications计算机工程与应用2023,59(13)界的研究热点。随后知识图谱逐渐融合图嵌入技术、深度学习、知识挖掘算法,不断扩展应用范围,已在智能问答、个性化推荐、大数据分析决策、辅助视觉理解等领域发挥着重要作用。目前知识图谱大体上可分为两种类型:一是通用知识图谱,通常采用自底向上的方式进行搭建,以常识性知识为主,具有知识的广度;第二类是领域知识图谱,以自顶向下的方式从定义好的类别中提取数据加入到知识图谱中,面向特定领域,具有知识的深度、完备性和准确性,如欧盟联合攻关项目 OPENPHACTS3是支持药品研发与生产的
11、开放式数据访问平台,于彤等4构建了涉及中医专家、基础理论、疾病、方剂等众多内容的中医药大型知识图谱。目前领域知识图谱已成为主要研究对象。近年来,电子病历、临床诊疗记录、医学文献、医学网站等都产生着海量医学数据,如何快速高效从中提取有效医学知识是研究人员面临的挑战。知识图谱作为涉及人工智能、自然语言处理和数据库的交叉技术,对于医学数据处理发挥重要作用,目前国内外学者已在医学知识图谱研究上取得一定研究成果:范媛媛等5总结了中文医学知识图谱搭建方法并从疾病覆盖范围角度对全科、单病知识图谱现状进行综述;董文波等6从基于逻辑规则的医学推理、基于表示学习的医学推理和基于深度学习的医学推理三类对知识图谱推理
12、技术进行论述;Ji等7从更全面、更细粒度的角度总结知识图谱的构建过程、应用现状及未来发展趋势。鉴于此,本文在梳理医学知识图谱传统构建方法的基础上,重点介绍医学抽取及知识融合最新技术的特点及现状,对比分析现有技术的优势及不足,归纳知识抽取、常用本体、知识融合数据集,总结医学知识图谱在知识问答、临床辅助诊疗、中医知识挖掘及药物研究等场景的应用及发展方向,以期帮助学者快速深入了解医学知识图谱构建技术发展脉络,为知识图谱在医学领域的进一步研究和探索奠定基础。1医学知识图谱构建关键技术医学知识图谱构建过程包括知识抽取、知识表示、知识融合、知识推理及质量评估等环节。知识抽取是知识图谱构建的前提和基础,目前
13、学术界相关研究较多,方法也较为成熟;知识融合是构建大规模医学知识图谱的必要技术,成为近年来研究的热点,故本文重点介绍以上两部分内容。医学知识图谱构建具体过程如图1所示。1.1医学知识抽取知识抽取技术可以分为实体抽取、关系抽取和属性抽取,其中实体抽取和关系抽取又是构建知识图谱最为重要的任务。1.1.1医学实体抽取生物医学实体命名(biomedical named entity rec-ognition,BioNER)主要目的是从医学文本中识别实体边界及类型,是关系抽取、实体对齐等复杂结构处理的前提条件。医学知识库的质量与生物医学实体获取准确率和召回率等密切相关8。早期 BioNER任务采用基于词
14、典和基于规则的模板匹配方法,二者皆可准确抽取但严重依赖词典质量和人工制定的规则,在医学数据日新月异的今天,词典的更新质量和人工成本的增加成为制约BioNER发展的瓶颈。基于统计机器学习的方法将监督学习算法应用于抽取任务,采用特征提取及参数调优对模型进行训练。该方法缓解人工成本过高的同时提高了模型的泛化性,但抽取精度有赖于训练数据的标注质量,且不适用于大规模数据集。随着自然语言处理技术日渐成熟,实体抽取技术已逐步转化为采用深度神经网络模型的自动抽取。BiLSTM-CRF 模型是 BioNER 任务主流模型,与卷积神经网络(CNN)结合9,通过识别局部词特征快速高效处理高维数据,极大地推动了Bio
15、NER的任务发展,但依然无法解决梯度消失和长距离依赖图1医学知识图谱构建过程Fig.1Construction process of medical knowledge graph(医学数据库、医非结构化数据(医学文献、医学教材、电子病历等)质量评价医学知识图谱医学知识问答临床辅助诊疗中医知识挖掘药物研究医学知识抽取联合抽取医学关系抽取医学实体抽取医学知识融合医学实体链接医学实体对齐医学知识推理医学知识表示医学本体构建医学本体重用知识表示学习医学本体对齐结构化数据学知识图谱等)半结构化数据(临床指南、互联网医疗网站等)342023,59(13)问题。注意力机制通过增加重点字、词权重,捕获词与词
16、之间的依赖关系,可缓解上述问题,对医学抽取效果有所增益。目前,利用先验知识进行语义表示的预训练语义模型(pre-training language model,PLM)是实体抽取的主流方法。双向预训练模型 BERT10以翻译模型 Trans-former为基础,融合注意力机制,因其可从无标签的非结构化数据中自主学习知识,可避免缺乏数据标注对实体识别的影响,同时双向并行处理文本信息,加强上下文语义知识,进一步提升模型在医学文本识别中的性能。Lee等11首先探讨BERT在生物医学语料库上的应用,采用 BioBERT对医学领域专有名词和下游文本挖掘任务进行模型微调,对比BERT模型,BioBERT可
17、识别更多医学术语和更清晰的实体边界。华东师范大学研究团队提出的大规模医疗语料库训练的预训练模型SMedBERT12,在链接深度上对BERT进行改进,利用两个自我监督机制学习实体提及的近邻跨度和全局上下文的交互,将链接实体的近邻作为文本提及的额外上下文,充分利用图谱结构化语义。以上方法在英文文本中表现良好,但在中文医学知识抽取中因缺少自然分词及简化用字等问题在NLP任务中存在天然劣势,为更好地处理中文医学文本,张芳丛等13提出基于 RoBERTa-WWM-BiLSTM-CRF的中文电子病历命名实体识别模型,在BERT识别字语义基础上获取词的信息,采用中文全词遮掩技术和动态掩码机制,在大量无标签文
18、本的长序列训练中,模型可以生成含词汇的语义信息,可有效改善中文文本识别中一词多义、词识别不全等问题。秦健等14、李正民等15根据汉字笔画特点,在BERT嵌入层分别加入汉字拼音和偏旁部首,增强实体边界识别能力,在CCKS-2019数据集上两者对中文电子病历实体识别F1分数均有不同程度提升。1.1.2医学关系抽取在实体抽取完成后,实体之间的链接关系也是知识抽取的重要任务。基于深度学习的关系抽取成为学术界主要研究对象,主要采用监督方法及远程监督方法。CNN、RNN及注意力机制等模型的混合使用是最常见的监督学习抽取方法。Lai等16采用相邻自注意力机制与预训练模型结合嵌入图神经网络方法,研究在长句中减
19、少二元关系抽取噪声问题。Zhao等17则尝试捕捉相邻语句之间多元医学关系,利用多头自注意力机制和单词位置嵌入可以忽略句子结构直接提取多元关系,BiL-STM学习序列信息结合知识图谱提供的先验知识丰富关系特征提取。远程监督方法通过外部知识图谱或数据库作为模型初始化数据,学习关系特征进行抽取。景慎旗等18设计BPCMA模型通过学习医学领域知识解决缺乏数据标注问题,利用记忆网络及句子级注意力机制解决远程标签识别错误问题,提高关系抽取准确率。以上文献重点研究单一句子内部关系或跨句间关系提取,然而句子级抽取不足以完全解释清楚生物医学文本中众多复杂难懂的关系,需要遍历更长的上下文提取关系语义,文档级关系抽
20、取应运而生。文档级关系抽取已成为当前关系抽取研究的重点,旨在确定多次提及且相邻句间难以确定具体关系的实体关系提取任务。主流方法采用基于图方法和逻辑推理方法进行关系抽取。Wang等19通过构建文档级依存关系图来捕捉句子之间的依存句法信息,使用图卷积网络(GCN)获取关系图特征表示。此方法构建以实体节点中心的文档级依存关系图,而Li等20构建关注于边的图神经网络模型,通过GCN多次迭代合并相同类型边进行关系抽取,同时扩展医学知识概念类型节点及引入外部知识图谱辅助医学关系抽取。区别于上述文献,Jin等21从语义理解角度出发,提出基于因果语义依赖森林结合GCN方法,在密集连接图神经网络中加入训练好的因
21、果解释模型对语义森林剪枝进行关系预测,该法在长句子的多类n元关系提取中实现持续可比性。基于图的方法可充分利用图结构信息捕捉长句中关系信息,但存在过平滑现象。为此,学者们提出基于逻辑推理的关系抽取,依靠文档中其他相关关系辅助判断,Li等22设计基于实体提及的推理方法,通过协同局部和全局实体关系对医学关系进行预测提取。该法仅使用单因素推理,未考虑基于实体对的多粒度推理可帮助文档级关系分类提取。在此基础上Li等23采用提及对和实体对实现多粒度逻辑推理模块,结合一个多维信息融合模型充分利用全局上下文,在CDR数据集上关系抽取F1分数提升11.9%。1.1.3实体关系联合抽取综上可见,采用序列模式抽取实
22、体关系存在难以克服的问题,即忽略实体和关系之间的内部关联,造成交互信息缺失;削弱模型捕捉长距离依赖关系的能力,不利于检测生物医学文本中大量存在的重叠三元组。联合抽取实体和关系可解决重叠三元组问题,因此,实体关系联合抽取成为知识抽取的最新研究方向。联合抽取方法可以分为两类:一类采用联合标记方法进行重叠三元组识别,另一类是将抽取问题转化为预测问题,通过链路预测寻找潜在实体关系,避免对大量重叠信息进行标注,提高抽取效率。Luo等24将提取问题转化为标记任务,充分考虑长距离依赖关系,结合关系三联判断网络尝试一次性标注重叠三元组中实体和关系,既解决重叠三元组问题又可减少人为干预。Li等25通过预训练模块
23、交互提取实体及关系特征,再利用注意力模块学习特征表示,最后采用表填充方式进行联合抽取。罗文龙等26采用两组指针对实体关系特征标注结合词位置编码器有效识别医学文本中的关系重叠三元组,结果显示该法在准确率、召回率及F1分数均为黄贺瑄,等:医学知识图谱构建技术及发展现状研究35Computer Engineering and Applications计算机工程与应用2023,59(13)最优。与上述方法不同,Lai等27通过建立初始域图进行实体预测,将其链接到与预测相关的多个外部知识背景图,进行集体推理,实现联合提取。Zheng等28通过对潜在关系的预测减少关系抽取数量,在其中抽取实体对解决实体重叠
24、提取问题,采用全局矩阵判断实体有效性后进行主客体对齐。该模型在时间复杂度、参数数量、推理时间等方面存在明显优势,但是面对长句子实体关系提取可能会消耗更多资源。1.1.4医学知识抽取数据集知识抽取常用数据集如表1所示。综上所述,深度学习与预训练模型结合进行知识抽取是近几年的研究热点,深度学习模型可以很好地处理上下文语义,准确抽取语义特征;预训练模型可处理大量未标记文本数据处理,提高知识抽取的效率和准确率。另外实体关系联合抽取是知识抽取未来发展趋势,可捕捉实体关系内在联系,解决重叠三元组的识别问题。知识抽取方法总结如表2所示。1.2医学知识表示知识表示是知识图谱中知识获取和应用的基础,可提升知识图
25、谱的认知和推理能力。在生物医药领域广泛使用本体进行知识表示。本体(ontology)由研究人员从哲学领域引入到计算机领域,强调知识的概念化表达及概念之间的关系。医学本体常用来表示和重组医学术语,可弥补跨学科差距,是不同领域研究人员沟通的表1医学知识抽取数据集Table 1Medical knowledge extraction datasets数据集NCBI diseaseBioCreative II Gene Mentiontask(BC2GM)CHEMDNERJNLPBACCKS-2019CDRGDADocREDCMedCausal内容及类型疾病标注数据集,包含793篇摘要,2 783个句
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学知识 图谱 构建 技术 发展 现状 研究 黄贺瑄
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。