基于MRC和ERNIE的有色冶金命名实体识别模型.pdf
《基于MRC和ERNIE的有色冶金命名实体识别模型.pdf》由会员分享,可在线阅读,更多相关《基于MRC和ERNIE的有色冶金命名实体识别模型.pdf(8页珍藏版)》请在咨信网上搜索。
1、收稿日期:2022-11-28摇 摇 摇 摇 摇 摇 修回日期:2023-03-29基金项目:国家重点研发计划(2020YFB1713600)作者简介:贵向泉(1981-),男,副教授,博士,研究方向为云计算及大数据分析、复杂网络理论与应用;通信作者:郭摇亮(1997-),男,硕士研究生,研究方向为自然语言处理和企业画像。基于 MRC 和 ERNIE 的有色冶金命名实体识别模型贵向泉,郭摇 亮,李摇 立(兰州理工大学 计算机与通信学院,甘肃 兰州 730050)摘摇 要:命名实体是构建产业企业画像和产业知识图谱的重要依据,为解决现有方法在有色冶金领域命名实体识别任务当中无法充分提取文本语义特征
2、、没有充分利用标签当中的先验知识和嵌套命名实体识别效果不佳的问题,提出了一种基于机器阅读理解框架(MRC)和知识增强语义表示模型(ERNIE)的 MEAB(MRC-ERNIE-Attention-BiLSTM)模型结构。该模型在 MRC 框架的基础上,引入了基于 Attention 的信息融合策略,将两种不同结构的数据在 ERNIE 预训练模型进行特征提取之后转换为向量,并在信息融合层进行向量融合,使模型能够学习到标签当中的先验知识。随后 BiLSTM 模型对具有语义信息的向量从两个方向进行特征提取,并在一种多层嵌套命名实体识别器中进行输出,提高了嵌套命名实体的识别准确率。在构建的有色冶金领域
3、命名实体识别数据集上的实验表明,MEAB 模型的精确率、召回率和 F1 值分别达到了78.77%、79.76%和 79.26%,证明了该模型的有效性。关键词:有色冶金产业;自然语言处理;命名实体识别;MRC;ERNIE中图分类号:TP391摇 摇 摇 摇 摇 摇 摇 文献标识码:A摇 摇 摇 摇 摇 摇 文章编号:1673-629X(2023)10-0093-08doi:10.3969/j.issn.1673-629X.2023.10.015Nonferrous Metallurgical Named Entity Recognition ModelBased on MRC and ERNIE
4、GUI Xiang-quan,GUO Liang,LI Li(School of Computer and Communication,Lanzhou University of Technology,Lanzhou 730050,China)Abstract:Named entities are an important basis for building industrial enterprise portraits and industrial knowledge maps.To solve theproblems that existing methods cannot fully
5、extract text semantic features,do not make full use of prior knowledge in labels,and do notperform well in nested named entity recognition tasks in nonferrous metallurgy industry,we propose a MEAB(MRC-ERNIE-Attention-BiLSTM)model structure based on Machine Reading Comprehension(MRC)and Enhanced Repr
6、esentation Through KnowledgeIntegration(ERNIE).On the basis of MRC,the information fusion strategy is introduced to convert the data of two different structuresinto vectors after feature extraction in the ERNIE pre training model,and carry out vector fusion at the information fusion level,so that th
7、emodel can learn the prior knowledge in the tag.Then the BiLSTM model extracts the features of vectors with semantic information fromtwo directions and outputs them in a multi-layer nested named entity recognizer to improve the recognition accuracy of nested namedentities.Experiments on the data set
8、 of named entity recognition in the field of nonferrous metallurgy industry show that the accuracy,recall and F1 value of MEAB model reach 78.77%,79.76%and 79.26%respectively,which proves the effectiveness of the model.Key words:nonferrous metallurgy industry;natural language processing;named entity
9、 recognition;machine reading comprehension;enhanced representation through knowledge integration0摇 引摇 言命名实体识别是自然语言处理(Natural LanguageProcessing,NLP)中的热点研究方向之一,它的实质就是从一段自然语言中找出相关的实体,并标注出实体的位置及其类型。在有色冶金产业的相关文本中存在许多有色冶金行业内部的专有名词,如公司名称、产品名称和产业信息等。在对这些文本进行分析时,这些行业内部的命名实体就会成为重要的信息来源,它们第 33 卷摇 第 10 期2023 年
10、 10 月摇 摇 摇 摇 摇 摇 摇 摇 摇 摇计 算 机 技 术 与 发 展COMPUTER TECHNOLOGY AND DEVELOPMENT摇 摇 摇 摇 摇 摇 摇 摇 摇 摇Vol.33摇 No.10Oct.摇 2023也是构建有色冶金产业企业画像和建立产业知识图谱的重要依据。有色冶金是中国工业生产中的重要支柱产业,但是截至目前,很少有研究人员和学者针对有色冶金领域命名实体识别进行研究,也没有相关数据集支持。为了推进有色冶金产业的发展,更好地分析企业和有色冶金产业的运行情况,该文首先针对建立产业企业画像和产业知识图谱的命名实体需求,构建了有色冶金领域命名实体识别数据集,然后结合机器
11、阅读理解框架(Machine Reading Comprehension,MRC)1和知识增强的语义表示模型(Enhanced RepresentationThrough Knowledge Integration,ERNIE)2对命名实体识别的流程进行了改进。最终建立了 MEAB(MRC-ERNIE-Attention-BiLSTM)命名实体识别模型结构,并在构建的有色冶金领域命名实体识别数据集和公共数据集上进行了命名实体识别的实验。实验证明,该模型可以更好地为后续构建有色冶金产业企业画像和产业知识图谱提供实体。1摇 相关工作命名实体识别的发展按时间主要分为三个阶段,分别为基于词典和规则的方
12、法,基于机器学习的方法和基于深度学习的方法。基于词典和规则的方法是指利用专家判断的方式手工制定出命名实体识别的规则和模板,并利用这些规则将需要识别的命名实体进行匹配和识别。虽然基于词典和规则的方法对特定范围内的命名实体的识别效果比较好,但是其中使用的规则也具有泛化程度低的特点。特别对大规模语料进行命名实体识别时,基于词典和规则方法的效率相比其他方法要低很多。随着大规模语料的出现,基于机器学习方法的命名实体识别得到了广泛应用,也可以进一步将其分为有监督机器学习和无监督机器学习两类。在无监督的机器学习中主要使用聚类的方法进行命名实体识别3,例如 Xu 等人4提出了一种共享最近邻的聚类方法,并将其应
13、用在生物医学名称的识别和提取中。在有监督的机器学习中,命名实体识别则被看作是一种序列标注的问题5,例如 Yu 等人6提出了一种基于级联马尔可夫模型的中文命名体识别方法,通过双重的模型识别来提高识别精度。虽然基于机器学习的方法避免了繁琐的人工工作,但是复杂的特征工程是不可避免的。基于深度学习的方法解决了机器学习中需要复杂特征工程的问题,同时基于深度学习的命名实体识别采用了端到端的训练方式,可以构建更为复杂的网络。例如 Kong 等 人7建 立 了 多 级 卷 积 神 经 网 络(Convolution Neural Network,CNN)并结合了注意力机制来捕获短期和长期的上下文信息,提高了中
14、文临床医学命名实体识别的准确率。毛存礼等人8提出了一种基于深度神经网络(Deep Neural Network,DNN)架构的有色金属领域实体识别方法,该方法可以有效获取有色金属领域实体中字符间的紧密结合特征。同时,循环神经网络(Recurrent Neural Network,RNN)和图卷积神经网络(Graph Convolutional Network,GCN)也是进行命名实体识别的主流方法。Liu 等人9提出了一种词字符的长短时神经网络(Long Short-TermMemory,LSTM)模型,他们将词信息添加到词的开始或结束字符中,在获得词边界信息的同时减轻分词错误带来的影响。Ta
15、ng 等人10使用交叉 GCN 块同时处理两个方向的词字符,并在其中引入了全局注意力机制改进了长距离的依赖捕获。近年来,基于编码器-解释器模型(Transformer)11被大量应用于命名实体识别当中,其中最具代表性的就是基于编码器-解码器 的 双 向 编 码 表 示 法(BidirectionalEncoderRepresentations From Transformers,BERT)12模 型。Usman 等人13使用 ALBERT(Lite BERT)14模型在大规模生物医学语料上训练,更好地学习了上下文相关的表示,提高了训练的效率。虽然进行命名实体识别的方法有很多,并且国内外学者都对
16、其做了大量的研究,但是这些方法都不适用于有色冶金领域命名实体识别的研究,原因有以下几点。(1)由于研究领域的独特性,已有的研究很少涉及到有色冶金产业,也没有相关数据集对其支持。(2)在有色冶金领域命名实体当中存在很多嵌套的命名实体,进一步增加了实体识别的难度。(3)已有的命名实体识别模型无法充分提取有色冶金领域文本中的语义特征和信息。(4)已有的命名实体识别模型无法充分利用有色冶金领域文本当中标签的先验知识,影响了命名实体识别的准确率。为了解决上述问题,该文构建了有色冶金领域命名实体识别数据集,并提出了 MEAB 命名实体识别模型。首先,在该模型中引入了 MRC 框架,将传统命名实体识别模型中
17、的序列标注与问答任务相结合,提高模型对普通实体和嵌套命名实体的识别准确率;然后,在该模型中使用 ERNIE 预训练模型将序列标注后的标注数据集和引入自然语言问题的问答数据集转化为词向量,使模型能够充分提取出文本当中的语义特征和信息;接着,引入注意力机制作为模型的信息融合层,将通过 ERNIE 处理的两类文本特征向量进行融合,使模型能够充分利用标签当中的先验知识,并通过49摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 计算机技术与发展摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷BiLSTM 模型进一步提取语义特征和信息
18、;最后,通过多层嵌套实体识别器输出在嵌套命名实体中的所有实体。相比其他模型该模型可以更好地提取和利用文本当中的特征和先验知识,提高了对嵌套命名实体的识别准确率,并能输出嵌套命名实体当中的所有实体。2摇 有色冶金领域数据集获取与处理2.1摇 数据集收集与实体类别定义针对有色冶金产业的特点,经研究发现其主要的数据来源以新闻报道、企业年报、专利信息和期刊论文为主。对于新闻报道数据,该文采用了网络爬虫技术从今日头条等新闻媒体平台进行了收集,但是新闻报道数据整体的文本结构比较松散,所以在收集时需要对文本进行去噪处理。对于企业年报数据和专利信息,因为这类数据整体的文本结构比较紧密,所以直接使用即可。对于期
19、刊论文类的数据,鉴于其摘要已经对论文整体进行了总结,所以直接选用摘要作为数据集。最终收集到了 20 000 多条有色冶金领域的文本,总共有 300 多万字。针对构建产业企业画像和产业知识图谱的命名实体需求,定义的产业实体类别一共有六种:人名,企业名称,组织名称,产品名称,项目名称,技术名称。各个实体类别的标注符号以及实例如表 1 所示。表 1摇 实体标注符号及其实例实体类型标注符号实例人名企业名称PERCOM张三金川集团产品名称PRONi999(0#镍)组织名称ORG金川集团镍钴资源产品开发创新联合体项目名称ITE半导体封装新材料生产线建设技术名称TEC羰化冶金技术2.2摇 嵌套实体处理由于有
20、色冶金领域命名实体识别研究的独特性和复杂性,在构建的有色冶金领域数据集中存在大量的嵌套命名实体,大大增加了实体识别的难度。例如在某新闻报道中出现的命名实体“金川集团镍钴资源产品开发创新联合体冶中就包含了多层实体,其最外层的为 ORG 实体:“金川集团镍钴资源产品开发创新联合体冶,其内部也包含 COM 实体:“金川集团冶,PRO实体:“镍冶“钴冶,ORG 实体:“开发创新联合体冶。同时在 PRO 类别的实体中,很多实体都包含了大小写字母和特殊的字符,如“Ni999(0#镍)冶,其内部就包含了字母、数字和特殊字符,在其中也存在另一种 PRO实体:“镍冶。传统的命名实体识别方法只能准确识别非嵌套的命
21、名实体,对于嵌套的命名实体识别准确率不高,并且无法完全提取出这些嵌套命名实体中的内部实体,由此可能会导致没有获取到足够的实体去构建有色冶金产业的企业画像和产业知识图谱。因此,该文设计了多层嵌套实体识别器来满足识别多层嵌套实体的需求。2.3摇 数据集标注与 MRC 框架问题设计在进行命名实体识别时,首先需要对文本当中的每个实体进行标注。为了提高实体标注的效率,该文使用了 Label Studio 软件工具对有色冶金领域数据集进行实体标注。在标注方法的选择上,采用了 BIO 序列标注方法对有色冶金领域数据集进行标注。为了将 MRC 框架引入有色冶金领域命名实体识别任务当中,还需要将数据集转换为问答
22、数据集。若给定的文本为 X=x1,x2,xn,其中 xi为文本当中的每一个字符,n 为给定文本长度,而对于在文本当中的每一个命名实体就可以表示为 Xstart,end=Xstart,Xend。在构建问答数据集时,需要为每一个实体标签分配一个自然语言形式的问题 qy=q1,q2,qm,其中m 是问题 qy的长度。则每一个在文本当中的实体就可以表示成三元组(qy,Xstart,end,X),这也是每一个实体在问答数据集当中的表现形式。基于此,对于每一个实体它的自然语言形式的问题就非常重要,因为问题中会包含着当前实体标签的先验知识,这对最终模型的效果有显著影响。经过分析和比较,最终选择以引导说明的方
23、式构建实体的自然语言形式的问题,每种实体及其对应的自然语言问题如表 2 所示。表 2摇 实体类型及其对应的自然语言问题实体类型自然语言问题PERCOM寻找句子中存在的人名寻找句子当中的企业名称PRO寻找句子当中包含铜、铝、镁、镍、锌、钴、铅的有色冶金产品ORG寻找句子当中存在的企业组织机构、政府组织机构、第三方组织机构ITE寻找句子当中存在的企业牵头项目、政府牵头项目TEC寻找句子当中存在的冶炼技术、加工技术、产品专利、管理技术3摇 有色冶金领域命名实体识别方法3.1摇 MRC 框架MRC 任务就是先让计算机识别给定文本当中的59摇 第 10 期摇 摇 摇 摇 摇 摇 摇 摇 摇 贵向泉等:基
24、于 MRC 和 ERNIE 的有色冶金命名实体识别模型语义信息,然后对应的给一个问题,让计算机根据识别到的语义信息去回答问题,且问题的答案必须是能够在给定文本当中找到的一段话或者是几个词。MRC任务可以分为四个子任务,即填空型阅读理解任务、选择型阅读理解任务、片段抽取型阅读理解任务以及自由回答型阅读理解任务,随着 NLP 技术的不断进步,四种 MRC 任务都有着快速的发展15。在命名实体识别任务中借助 MRC 框架,可以更加快速有效地识别出嵌套的命名实体,同时,在一定程度上也可以提高非嵌套命名实体的识别准确率16。3.2摇 ERNIE 预训练模型随着深度学习的不断发展,BERT 等自然语言预处
25、理模型可以很好地捕捉原始文本当中的语义模式,并可以根据不同的 NLP 任务进行微调。但是现有的预训练模型很少有结合到知识图谱,而知识图谱可以提供丰富的结构化知识,并可以更好地进行语义的理解,因为知识图谱当中有很多富含信息的实体和外部知识可以增强文本的语义特征。而 ERNIE 就是利用知识图谱和大规模中文语料训练得到的语言表征模型,它可以充分利用语法、语义还有知识的优势。相关实验表明,ERNIE 相比 BERT 等预训练模型在实体识别、问答系统、语言推理和文本分类当中可以达到较好的效果2。ERNIE 和 BERT 都是基于 Transformer 中 Encoder层的大规模预训练语言模型。相比
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 MRC ERNIE 有色 冶金 命名 实体 识别 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。