一种面向中医文本的实体关系深度学习联合抽取方法_杨延云.pdf
《一种面向中医文本的实体关系深度学习联合抽取方法_杨延云.pdf》由会员分享,可在线阅读,更多相关《一种面向中医文本的实体关系深度学习联合抽取方法_杨延云.pdf(7页珍藏版)》请在咨信网上搜索。
1、第 40 卷第 3 期计算机应用与软件Vol.40 No 32023 年 3 月Computer Applications and SoftwareMar 2023一种面向中医文本的实体关系深度学习联合抽取方法杨延云杜建强*聂斌罗计根贺佳(江西中医药大学计算机学院江西 南昌 330004)收稿日期:2020 08 12。国家重点研发计划项目(2019YFC1712301);国家自然科学基金项目(61762051,61562045);江西省自然科学基金项目(20202BAB202019);江西省教育厅科技项目(GJJ190863);江西省研究生创新专项资金项目(YC2019-S358)。杨延云,
2、硕士生,主研领域:自然语言处理,数据挖掘。杜建强,教授。聂斌,副教授。罗计根,硕士。贺佳,硕士。摘要目前实体识别和关系抽取任务大多采用流水线方式,但该方法存在错误累积、忽略两个任务相关性和信息冗余等诸多问题。结合中医文本的特点,提出一种基于深度学习的中医实体关系联合抽取方法。该方法使用改进的序列标注策略,将中医的实体关系联合抽取转换成序列标注任务,词向量与字符向量并联拼接作为双向LSTM-CF 输入,利用双向 LSTM 神经网络强大的特征提取能力,以及 CF 在序列标注上的突出优势,结合优化的抽取规则完成中医实体关系联合抽取。在中医语料库上的实验结果表明,实体关系联合抽取的 F1 值可以达到8
3、0 42%,与传统流水线方法以及其他方法相比,实验效果更佳。关键词实体关系联合抽取深度学习字词向量拼接中医文本中图分类号TP391文献标志码ADOI:10 3969/j issn 1000-386x 2023 03 033A JOINT EXTACTION METHOD OF ENTITIES AND ELATIONS FOTADITIONAL CHINESE MEDICINE TEXT BASED ON DEEP LEANINGYang YanyunDu Jianqiang*Nie BinLuo JigenHe Jia(School of Computer,Jiangxi Universit
4、y of Traditional Chinese Medicine,Nanchang 330004,Jiangxi,China)AbstractAt present,the entity recognition and relationship extraction tasks mostly use the pipeline method,whichhas the problems of error accumulation,ignoring the relevance of two tasks,and information redundancy Combining thecharacter
5、istics of traditional Chinese medicine(TCM)text,this paper proposes a joint extraction method of entities andrelations for traditional Chinese medicine text The improved sequence labeling strategy was used to convert the jointextraction of entities and relations of TCM into a sequence labeling task
6、The word vector and char vector parallel splicingwas used as the input of BiLSTM-CF Using the strong feature extraction ability of BiLSTM neural network and theprominent advantages of CF in sequence labeling,the joint extraction of entities and relations of TCM was completed bycombining the optimize
7、d extraction rules The experimental results show that the F1 value of the entities and relations canreach 80 42%Compared with the pipeline method and other methods,it has better experimental effectKeywordsJoint extraction of entities and relationsDeep learningChar vector and word vector splicingTrad
8、itionalChinese medicine text0引言为推进国家中医药信息化的发展,各种中医药信息化平台的建设接踵而至,例如,中医辅助诊疗系统、中医智能问答系统、中医电子病历系统等。中医文献作为中医传承载体,记录了证型、方剂、中药、病因、病机和治则治法等数据,且存在着大量实体重叠的问题。而实体和关系抽取作为底层最基础的任务,能够快速地从半结构化、非结构化的中医文本中提取出实体以及它们之间的语义关系,对中医文献数据的有效利用和中医药的信息化研究具有促进作用和重要意义。218计算机应用与软件2023 年1相关研究1 1流水线方法研究实体关系抽取作为信息抽取的重要子任务1,处理该任务的方法主
9、要可以分为流水线方法和实体关系联合抽取方法两类。流水线方法即将实体关系抽取任务分为命名实体识别2(Named Entity ecognition,NE)和关系抽取3(elation Extraction,E)两个子任务,即给定一段半结构化或非结构化文本,首先通过命名实体识别提取出文本中的实体,然后对每个候选实体对进行关系分类。典型的命名实体识别方法主要分为三类:基于规则的方法;基于统计学习的方法和基于深度学习的方法。其中,基于规则的方法大多是利用语言学知识,通过语言规则识别实体;基于统计学习的方法主要有隐马尔可夫模型(Hidden Markov Models,HMM)4、最大熵模型(Maxim
10、um Entropy Model,MEM)、支持向量机(Support Vector Machine,SVM)5 和条件随机场6 等,该方法依赖复杂的特征工程。近几年,循环神经网络(ecurrent Neural Networks,NN)、长短期记忆网络(Long Short-Term Memory)等神经网络模型被应用于实体识别任务,并展现出强大的优势。关系抽取方法主要可以分为经典的关系抽取方法和基于深度学习的抽取方法。经典的关系抽取方法主要包括有监督、半监督、弱监督和无监督 4 种7,这几种方法存在特征提取误差传播的问题,很大程度上影响最终关系抽取的结果。基于深度学习的方法避免了人工特征提
11、取,Zeng 等8 于 2014 年首次使用 CNN 进行关系分类。Vu 等9 采用深度循环神经网络(Deepecurrent Neural Networks,DNN)进行关系抽取。流水线方法虽然在模型选择和实验操作比较灵活、简单,但是这种方法存在以下几个问题:导致错误累积;忽略了两个子任务间的相关性;产生大量冗余信息。例如文本:“方剂麻杏石甘汤是由麻黄、杏仁等多味中药组成”,采用流水线方法的具体流程如图 1 所示。假如在命名实体识别阶段模型没有识别出实体“麻杏石甘汤”,由于关系抽取完全依赖实体识别的结果,则所有包含“麻杏石甘汤”的三元组皆无法得到,因此导致错误累积;已知文本中存在“方剂/中药
12、”这一关系,可以推理第一个实体的类别是“方剂”类,第二个实体的类型是“中药”类,而采用流水线方法无法利用该信息进行推理;关系抽取是对每个候选实体对进行关系分类,不属于预定义关系的实体组合就是冗余信息,如(麻黄,None,杏仁)。图 1流水线方法流程1 2联合抽取方法研究针对以上流水线方法存在的问题,实体关系联合抽取直接抽取给定文本中含有的实体和实体间语义关系的三元组(Entity1,elation,Entity2),不仅能够充分考虑二者的相关性,将二者联合学习,还使两个子任务的性能得到了不同程度的提升。en 等10 提出 CoType 框架。Miwa 等11 使用填表方法,将实体识别和关系抽取
13、进行联合学习,但是都基于人工提取特征,依赖于复杂的特征工程,还需使用各种自然语言处理工具包。随着深度学习方法的兴起,Miwa 等12 使用 BiLSTM 实现实体识别,通过共享输入层和 LSTM 编码层的参数,连用 Bi-TreeLSTM 结构实现关系抽取。Katiyar 等13 针对 Miwa 等12 利用依存树结构的缺点提出融合注意力机制的 NN 方法实现实体关系联合抽取。Zheng 等14 采用 BiLSTM 对输入层进行编码,选用 LSTM 进行解码,实现实体识别;通过共享 BiLSTM 编码器参数,利用 CNN 模块对编码层结果进行关系分类。文献 15通过引入互反馈机制,反馈更新共享
14、层的参数来提升联合抽取的效果。基于参数共享的实体和关系联合抽取方法增强了实体识别和关系抽取两个子任务的相关性,改善了传统流水线方法错误累积的不足。但是由于该方法都是利用共享底层模型参数来增强两者的相关性,实质上仍是先进行 NE,再利用 NE 的结果进行 E,因此仍会产生不存在关系的实体对冗余信息,也存在错误传递。Zheng 等16 首次将实体关系联合抽取转化为序列标注问题,还设计了带有偏置损失函数的端到端模型,实现了真正意义上的实体关系联合抽取。但在最终三元组的抽取时采用就近距离策略,且规定一个实体只能存在一个三元组中,导致大量关系数据丢失,无法解决实体重叠问题。曹明宇等17 借鉴 Zheng
15、 等16 的方法,改进标注策略,采用 BiLSTM-CF 模型有效缓解了同一实体参与多个关系的重叠问题,在生物医学领域的药物实体关系数据集上取得了较好的效果。第 3 期杨延云,等:一种面向中医文本的实体关系深度学习联合抽取方法219鉴于传统流水线方法的不足和中医文本中存在大量实体重叠的问题,本文提出一种基于字词向量拼接的中医实体关系联合抽取方法。首先将字词向量拼接作为输入,再采用改进的序列标注策略在 BiLSTM-CF(Bi-directional Long Short-Term Memory Conditional an-dom Fields,BiLSTM-CF)模型上对中医文本进行标注,最
16、后通过自定义的抽取规则进行关系三元组提取。2中医实体及关系联合抽取方法该方法使用改进的序列标注策略,将中医的实体关系联合抽取转换成序列标注任务,词向量与字符向量并联拼接作为双向 LSTM-CF 输入,利用双向 LSTM神经网络强大的特征提取能力,以及 CF 在序列标注上的突出优势,结合优化的抽取规则完成中医实体关系联合抽取。整体方法流程如图 2 所示。图 2方法流程该方法的整体流程为:1)对输入的文本句子利用 Word2vec 进行向量转化,分别生成字向量和词向量;2)将生成的向量以字为基本语义单元进行字词向量并联拼接;3)采用改进的标注策略,通过 BiLSTM-CF 模型对每个句子进行序列标
17、注;4)根据序列标注结果,结合自定义的抽取规则来抽取关系三元组。2 1模型输入One-hot 编码得到的是稀疏向量,向量的维度完全取决于语料库的大小,且每个词的向量之间都是独立的,相近意思的词语也没有关联关系。相较于 One-hot编码,Word2vec 得到的词向量降低了向量的维度,且语义相近的词语被映射在相近的位置。本文训练向量所用语料来源于中医证候鉴别诊断学 中医 150 证候辨证论治辑要(何晓晖)和中医药学概论 三本中医相关书籍。而采用分词工具得到的中文分词结果并非完全正确,且单独用词作为语义单元也忽略了词内字间的联系;单独用字作为语义单元,又不能准确地表达当前的语境,因此本文采用了字
18、词向量并联拼接作为模型输入,将字和词的信息有效地结合起来。中医语料利用 jieba 分词工具,并加载自定义的中医领域自定义词典进行分词,自定义词典主要包含大量的证型、方剂等信息,通过 Word2vec 训练得到 100 维词向量。中医语料使用 Word2vec 训练得到 100 维字向量。最终,本文采用以字向量为基本语义单元与该字所在词的词向量进行并联拼接得到200 维字向量作为模型的输入,字词向量并联拼接丰富了词的语义信息,提取有效特征,如图 3 所示。例如文本:“四逆散中重用柴胡为君药”,则该句中作为模型输入“胡”的向量由“胡”的字向量与“胡”所在的词“柴胡”的词向量构成。图 3字词向量拼
19、接2 2标注策略本文在 Zheng 等16 提出的标注策略和曹明宇等17 的标注策略基础上进行改进,将实体关系联合抽取转化为序列标注的问题,对每个字符根据标注策略进行标注。如图 4 所示。Input:麻黄与桂枝相须为用以增发汗解表之力,如麻黄汤,用于风寒表实证。Tags:B-方剂/中药-2E-方剂/中药-2OB-方剂/中药-2E-方剂/中药-2OOOOOOOOOOOOOOB-M-PI-M-PE-M-POOOB-证型/方剂-1I-证型/方剂-1I-证型/方剂-1I-证型/方剂-1E-证型/方剂-1OFinal results:(麻黄汤,方剂/中药,麻黄)(麻黄汤,方剂/中药,桂枝)(风寒表实证,
20、证型/方剂,麻黄汤)图 4标注实例其中“O”表示该字不与其他字构成实体,且在该句中与其他任何实体不存在预定义的关系;此外,每个标签共包含三部分的内容:该字在实体中的位置、关系类别、实体在三元组中的位置。该字在实体中的位置采用“BIES”策略进行表示,“B”代表实体开始,“I”代表实体中部,“E”代表实体末尾,“S”代表单个字构成实体;关系类别是根据中医语料预先定义好的,本文共涉及 5 种关系,分别为方剂/中药、证型/方剂、证型/症状、病因/证型和 M,M 表示该实体与多个实体组成关系不同的三元组;实体在三元组中的位置有 3 种:1、2和 P,其中 P 表示该实体与多个实体组成三元组且处于不同的
21、位置。此种标注策略有效缓解了实体重叠的问题。2 3BiLSTM-CF本文采用 BiLSTM-CF 模型进行中医文本的序列标注任务,具体模型结构如图 5 所示。220计算机应用与软件2023 年图 5BiLSTM-CF 模型结构图LSTM 网络是 NN 的一种变种18,引入了细胞状态概念,通过决定哪些信息需要被记忆,哪些需要被遗忘来解决 NN 梯度爆炸和梯度消失的问题。LSTM 主要通过遗忘门、输入门和输出门来达到信息传递目的。具体计算公式如下:ft=sigmoid(Wf ht 1,xt+bf)(1)it=sigmoid(Wi ht 1,xt+bi)(2)Ct=tanh(WC ht 1,xt+b
22、C)(3)Ct=ft*Ct 1+it*Ct(4)ot=sigmoid(Wo ht 1,xt+bo)(5)ht=ot*tanh(Ct)(6)式中:ft表示遗忘门的值;xt表示当前时刻的输入词;Ct表示临时细胞状态;Ct表示细胞状态;it表示记忆门的值;ot表示输出门的值;ht表示隐藏状态;W 表示权值矩阵;b 表示偏置矩阵。BiLSTM 由前向的 LSTM 与后向的 LSTM 结合而成,得到一个前向 t 时刻的隐藏层输出 ht和一个后向 t时刻的隐藏层输出 ht拼接而成ht,ht,充分了利用上下文信息。BiLSTM 使用 softmax 进行归一化处理得到每个字对应每个标签的概率,然而每个标签并
23、非独立存在,它们之间存在一定的约束,例如“E-方剂/中药-1”之前一定是“I-方剂/中药-1”,“B-方剂/中药-1”之后一定是“I-方剂/中药-1”。而 CF 可以更好地学习各标签之间的依赖关系,进行全局优化,使标注处理更加准确和高效。2 4抽取规则Zheng 等16 默认一个实体只存在一个三元组中,关系抽取采取就近距离原则,这样便损失了大量实体关系信息,而中医文本中存在大量一个实体与多个实体构成关系三元组的情况。曹明宇等17 在此基础上进行改进,取得了较好的效果,但在匹配最近实体时设置了匹配方向而导致一些三元组丢失。依据上述分析以及中医文本的信息抽取需要,本文在采用就近原则抽取的基础上,自
24、定义了以下 3 条抽取规则:规则 1:对于命名实体识别任务,当实体标签的三个部分信息均正确时进行抽取;对于联合抽取任务,当组成三元组的实体 1、实体 2 和关系类别均正确时进行抽取。规则 2:组成三元组的关系类别约束。关系类别相同,或者其中一个或者两个实体的关系类别为 M,即本文预定义的 4 种关系类型可以与其相同的关系类型匹配也可以与 M 匹配。规则 3:组成三元组的实体位置约束:实体位置分别为 1 和 2,或者其中一个或者两个实体的实体位置为 P,即 1 可以与 2 匹配,也可以与 P 匹配,2 和 P 同理。如图 2 样例所示,麻黄汤可与麻黄组成关系三元组(麻黄汤,方剂/中药,麻黄),与
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 面向 中医 文本 实体 关系 深度 学习 联合 抽取 方法 杨延云
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。