基于多层次特征提取的中文医疗实体识别.pdf
《基于多层次特征提取的中文医疗实体识别.pdf》由会员分享,可在线阅读,更多相关《基于多层次特征提取的中文医疗实体识别.pdf(7页珍藏版)》请在咨信网上搜索。
1、中文医疗实体识别是医疗领域文本信息处理的基础,但中文医疗文本中常常存在语法不规范、实体嵌套和类型易混淆等问题易造成实体识别精度下降,因此确保中文医疗实体识别的准确度具有较大的理论研究和实际应用价值。为此,提出一种融合 BERT 预训练、双向长短期记忆网络(BILSTM)和结合注意力机制的空洞卷积网络(IDCNN)的实体识别模型来提升中文医疗实体识别的精度。起先,使用 BERT 预训练语言模型使中文字符转换为词向量并增强其语法语义特征;而后将训练好的词向量分别通过 BILSTM 网络和加入注意力机制的 IDCNN 网络获取上下文信息和更大的感受野;最终将蕴含语法语义特征、上下文信息和更大的感受野
2、信息的特征融合并输入到条件随机场(CRF)中进行实体预测。在两个公开的医疗数据集 CMeEE/Yidu-S4K 上的实验表明,该模型的 F1 值分别达到了0.711 6 和0.820 6,较主流模型分别提高了 1.40 百分点和 2.29 百分点,验证了此模型在中文医疗实体识别上的有效性。关键词:实体识别;BERT 预训练;空洞卷积网络;注意力机制;感受野中图分类号;TP391摇 摇 摇 摇 摇 摇 摇 文献标识码:A摇 摇 摇 摇 摇 摇 文章编号:1673-629X(2023)09-0119-07doi:10.3969/j.issn.1673-629X.2023.09.018Chinese
3、 Medical Entity Recognition Based on Multi-levelFeature ExtractionLI Zheng-hui1,LIAO Guang-zhong2(1.School of Computer Science and Technology,Wuhan University of Science and Technology,Wuhan 430065,China;2.Hubei Province Key Laboratory of Intelligent Information Processing and Real-time Industrial S
4、ystem,Wuhan University of Science and Technology,Wuhan 430065,China)Abstract:Chinese medical entity recognition is the basis of text information processing in the medical field,but there are oftengrammatical irregularities,entity nesting and type confusion in Chinese medical texts that may cause the
5、 decrease of entity recognition ac鄄curacy,so it is of great theoretical research and practical application value to ensure the accuracy of Chinese medical entity recognition.To this end,we propose an entity recognition model that combines BERT pre-training,bi-directional long and short-term memoryne
6、twork(BILSTM)and IDCNN with attention mechanism to improve the accuracy of Chinese medical entity recognition.At first,theBERT pre-trained language model is used to convert Chinese characters into word vectors and enhance their grammatical-semanticfeatures.The trained word vectors are then passed th
7、rough the BILSTM network and the IDCNN network with attention mechanism toobtain contextual information and a larger perceptual field,respectively.Finally,the features containing grammatical-semantic features,contextual information and a larger perceptual field are fused and fed into the conditional
8、 random field(CRF)for entity recognition.Thefeatures containing syntactic semantic features,contextual information and larger receptive field information are finally fused and fed intoconditional randomization(CRF)for entity prediction.Experiments on two publicly available medical datasets,CMeEE/Yid
9、u-S4K,showed that the F1 values of the model reached 0.711 6 and 0.820 6 respectively,which were 1.40 and 2.29 percentage points higherthan that of the mainstream models,validating the effectiveness of this model for Chinese medical entity recognition.Key words:entity recognition;BERT pre-training;I
10、DCNN;mechanism of attention;receptive field第 33 卷摇 第 9 期2023 年 9 月摇 摇 摇 摇 摇 摇 摇 摇 摇 摇计 算 机 技 术 与 发 展COMPUTER TECHNOLOGY AND DEVELOPMENT摇 摇 摇 摇 摇 摇 摇 摇 摇 摇Vol.33摇 No.9Sep.摇 20230摇 引摇 言命 名 实 体 识 别(NamedEntityRecognition,NER)1作 为 自 然 语 言 处 理(NatureLanguageProcessing,NLP)的一项基本任务,旨在精准定位与识别文本信息中的预定义实体类型。近
11、年来,随着信息技术的快速发展,自然语言处理的研究也逐渐融入各行各业,其中医疗领域的命名实体识别受到业界的广泛关注。虽然命名实体识别在诸如机构名、人名、地点和职务等实体识别上取得了很高的成就2,但是从中文医疗文本中提取实体是一个更复杂的任务3。首先,提取的实体类型易混淆,例如“左肺上叶冶是属于“病理冶类型还是“影像冶类型;其次,数据中存在嵌套问题也是导致医疗实体识别精度下降的原因,如“患者呼吸中枢受累冶这句话中,“呼吸中枢受累冶的实体类型是“症状冶,而“呼吸中枢冶是“部位冶类型;最后,中文医疗实体识别某些类型比较长,这会造成识别这类实体时边界定位错误,从而导致整体效果变差。此外,中文医疗文本中的
12、标注错误和错别字等问题也会影响命名实体识别模型。针对以上问题,该文提出一种融合BERT 预训练4、双向长短期记忆网络(BILSTM)5和结合注意力机制6的一维空洞卷积神经网络(IteratedDilated Convolutional Neural Network,IDCNN)7 的医疗实体识别模型,相较于传统模型,主要贡献如下:(1)使用 BERT 预训练加强字与句子的联系,使词向量在拥有位置信息的同时,语法语义特征也得到强化,降低数据中易混淆实体类型对模型的影响。(2)从多层次提取医疗文本特征。在 BERT 语言模型训练好词向量的基础上,使用 BILSTM 模块提取上下文信息;使用 IDC
13、NN 模块捕获更长距离的特征信息,并且为了不遗漏细节特征加入注意力机制。最后在输入条件随机场(CRF)8预测实体前进行特征融合,得到蕴含多层次特征的词向量。(3)分层设置学习率和学习率衰减策略。为了使模型效果更好,在训练时利用学习率衰减策略和分层设置学习率,得到更好的结果,另外为了避免模型过拟合,每个模块都加入随机失活(Dropout)层。1摇 相关工作命名实体识别研究包括统计机器学习方法和深度学习方法。随着近年来人工智能技术的发展,统计机器学习方法费时费力,深度学习方法已成为业内研究的焦点。当前基于深度学习的 NER 的思路主要分为序列标注和基于分类两类。其中,序列标注方法最为常见。BILS
14、TM-CRF 是实体识别中主流的模型,对中文和英文的数据都有良好的效果。李妮等人 9 使用改进传统的卷积后的空洞卷积,在实体识别方面取得不错的成果。Li 等人 10 提出 FLAT 模型,改良 lattice结构,在性能和效率上都优于其他基于词汇的模型。为了进一步提高实体识别的精度,Li 等人 11 采用负采样的思想,可以有效降低未标记实体带来的误导。崔少国等人12 融合汉字图形和五笔等特征更进一步提升了模型的效果。另外,在 2018 年由 Google AI 研究院提出的预训练模型 BERT 也对实体识别精度的提升有很大的帮助。受到以上研究的启发,该文为解决中文医疗实体识别中存在的实体类型易
15、混淆、数据嵌套和实体类型过长等问题,提出一种融合 BERT 预训练、BILSTM 和结合注意力机制的 IDCNN 模型,可以从多层次提取医疗文本的特征,有效提高医疗实体识别的准确度。2摇 模型设计2.1摇 模型框架该文设计了一种新的中文医疗实体识别模型,其整体结构框架如图 1 所示。在嵌入层,模型将输入的医疗文本通过 BERT 层化为词向量表示;在特征提取层,将词向量分别通过 BILSTM 层和融合注意力机制的 IDCNN 层,再将这三者词向量融合得到多层次语义特征向量;在输出层,通过 CRF 得到预测的结果。BERTBILSTMIDCNN+CRFB-sysI-sysI-sysI-sysI-s
16、ysI-sysI-sys图 1摇 模型整体结构2.2摇 嵌入层由于输入嵌入层的医疗文本中存在易混淆的类别并且可能有错字等问题,易影响模型性能。而 BERT语言 模 型 历 经 几 代 预 训 练 模 型 的 迭 代,克 服 了Word2Vec 模型训练的缺点 词向量是静态的,无法表示一词多义;综合 ELMO 和 GPT 模型的优势,做到获取每个字词在当前句子中的上下文信息 13。因此选用 BERT 作为嵌入层。BERT 的 总 体 结 构 如 图 2 所 示,主 要 应 用021摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇
17、摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷Transform14中的编码器(encoder),使用多个 encoder组成图 2 中的 Trm 单元,使得最终的词向量具有很好的位置特征、句法特征和语义特征。TrmTrmTrm.EN.TN.TrmTrmTrm.T1T2E1E2图 2摇 BERT 整体结构Trm 单元结构如图 3 所示。对于输入序列 s=(C1,C2,Cn),其中 Ci表示医疗文本输入句子的第i 个字。首先通过 Word2Vec 得到该字的特征向量表示 ei=ew(Ci),ew是 Word2Vec 初始化矩阵。并且需要叠加位置编码,这是因为对于文本序列来说
18、,获取句子中每个字的相对位置很重要,其计算如公式(1)所示:PE(pos,2i)=sin(pos/10 0002i/dmodel)PE(pos,2i+1)=cos(pos/10 0002i/dmodel)(1)其中,pos 表示单词的位置,i 表示单词的维度。然后到了 encoder 的关键部分,采用注意力思想使输入序列中每个词向量获取其与其他词向量的关联程度。具体计算如公式(2)所示:Attention(Q,K,V)=Softmax(QKTdk)V(2)其中,Q,K,V 是词向量矩阵,dk是词向量的维度。而这里使用的多头注意力机制是基于注意力机制的基础,先将每个词向量拆分成多个词向量,然后对
19、每个拆分的词向量单独做自注意力机制,最后将不同的结果拼接起来,计算如公式(3)所示:MultiHead(Q,K,V)=Concat(head1,headn)Woheadi=Attention(QWQi,KWKi,VWVi)(3)因此,词向量就能得到不同空间的句法特征,其中W 是权重矩阵。最后经过全连接前馈网络(FFN)做非线性变换,计算如公式(4)所示:FFN(Z)=Relu(ZW1+b1)W2+b2(4)其中,Relu()是激活函数,W1、W2是权重矩阵,Z 是经过多头注意力机制的词向量表示,b1、b2是偏置量。另外在流程中,多头注意力机制和全连接前馈网络分别经过一层残差网络和归一化是为了避
20、免梯度消失和梯度爆炸。Add&NormFNNAdd&Norm+图 3摇 Trm 单元结构2.3摇 特征提取层特征提取层的目的是基于 BERT 预训练,并结合BILSTM 和融入注意力机制的 IDCNN 对医疗文本进行多层 次 的 特 征 提 取,特 征 提 取 层 有 三 大 部 分:BILSTM 模块、IDCNN+注意力机制模块和特征融合模块。2.3.1摇 BILSTM 模块BILSTM 是由双向 LSTM 网络组合而成,通过对输入的医疗文本序列做顺序和逆序的计算,提取序列中的上下文信息,最终得到训练好的词向量序列。实现其功能的主要单元为 LSTM,其结构如图 4 所示。LS
21、TM 记忆单元是由输入门、细胞状态、临时细胞状态、隐层状态、遗忘门、记忆门、输出门组成。其核心思想为,通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态,其中遗忘、记忆与输出由通过上个时刻的隐层状态和当前输入计算出来的遗忘门、记忆门、输出门来控制。计算如式(5)所示:ft=滓(Wfht-1,xt+bf)it=滓(Wiht-1,xt+bi)Ct=tanh(WCht-1,xt+bC)Ct=ft*Ct-1+it*Ctot=滓(Woht-1,xt+bo)ht=ot*tanh(Ct)(5)式中,滓 是激活函数,W 是权重矩阵,b
22、 是偏置向量,ht-1是前一时刻的输入,it、ft、ot分别是输入门、遗忘门及输出门的输出结果,ht是当前时刻的输出,xt是当前输入词向量,Ct、Ct-1、Ct分别代表当前时刻、上一时刻和临时的细胞状态。最终得到包含上下文信息的词121摇 第 9 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 李正辉等:基于多层次特征提取的中文医疗实体识别向量序列 h1,hn+1。图 4摇 LSTM 单元结构2.3.2摇 IDCNN+注意力机制模块为了进一步提取医疗文本的特征信息,选用变体的卷积神经网络 IDCNN,这是因为相较于 BILSTM 网络,卷积神经网络对局部特征的提取效果更好,并且IDCNN 在标准
23、卷积的基础上注入空洞,能够在不通过池化损失信息的情况下增加感受野,对输入中的较长实体能够分词更加准确。另外因 IDCNN 模块的特性,不会造成整体模型参数过大和训练时间过长。空洞卷积与标准卷积的区别如图 5 所示,通过这种方式,在卷积核大小不变的条件下,就能得到更大的感受域。空洞卷积的感受域计算公式如式(6),其中 i代表步长。Fi+1=(2i+2-1)伊(2i+2-1)(6)IDCNN 模块则是将 4 个结构相同的膨胀卷积块进行堆叠,相当于进行了 4 次迭代,每次迭代将前一次的结果作为输入,这种参数共享可有效防止模型过拟台,每个膨胀卷积块有膨胀宽度分别为 1.1.2 的 3 层膨胀卷积。通过
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 多层次 特征 提取 中文 医疗 实体 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。