基于门控空洞卷积特征融合的中文命名实体识别.pdf
《基于门控空洞卷积特征融合的中文命名实体识别.pdf》由会员分享,可在线阅读,更多相关《基于门控空洞卷积特征融合的中文命名实体识别.pdf(11页珍藏版)》请在咨信网上搜索。
1、第 49卷 第 8期2023年 8月Computer Engineering 计算机工程基于门控空洞卷积特征融合的中文命名实体识别杨长沛1,廖列法1,2(1.江西理工大学 信息工程学院,江西 赣州 341000;2.江西理工大学 软件工程学院,南昌 330000)摘要:在中文命名实体识别任务中,具有循环结构的长短时记忆网络模型通过捕捉时序特征解决长距离依赖问题,但其特征捕捉方式单一,信息获取能力有限。卷积神经网络通过使用多层卷积并行处理文本,能够提高模型运算速度,捕捉文本的空间特征,但简单地堆叠多个卷积层容易导致梯度消失。为同时获得多维度的文本特征且改善梯度消失问题,提出一种基于 RoBERT
2、a-wwm-DGCNN-BiLSTM-BMHA-CRF的中文命名实体识别模型,通过基于全词遮蔽技术的预训练语言模型 RoBERTa-wwm 把文本表征为字符级嵌入向量,捕捉深度上下文语义信息,并采用门控机制和残差结构对空洞卷积神经网络进行改进以降低梯度消失的风险。使用双向长短时记忆网络和门控空洞卷积神经网络分别捕捉文本的时序特征和空间特征,采用双线性多头注意力机制对多维度的文本特征进行动态融合,最后使用条件随机场对结果进行约束,获得最佳标记序列。实验结果表明,所提模型在 Resume、Weibo和 MSRA数据集上的 F1值分别为 97.20%、74.28%和 95.74%,证明了该模型在中文
3、命名实体识别中的有效性。关键词:命名实体识别;RoBERTa-wwm模型;空洞卷积;注意力机制;特征融合开放科学(资源服务)标志码(OSID):中文引用格式:杨长沛,廖列法.基于门控空洞卷积特征融合的中文命名实体识别 J.计算机工程,2023,49(8):85-95.英文引用格式:YANG C P,LIAO L F.Chinese named entity recognition based on dilated gated convolution feature fusion J.Computer Engineering,2023,49(8):85-95.Chinese Named Enti
4、ty Recognition Based on Dilated Gated Convolution Feature FusionYANG Changpei1,LIAO Liefa1,2(1.School of Information Engineering,Jiangxi University of Science and Technology,Ganzhou 341000,Jiangxi,China;2.School of Software Engineering,Jiangxi University of Science and Technology,Nanchang 330000,Chi
5、na)【Abstract】In the task of Chinese Named Entity Recognition(NER),the long short-term memory network model with cyclic structure can solve the problem of long-distance dependence by capturing temporal features,but its feature capture method is singular and the information acquisition ability is limi
6、ted.By using multi-layer convolution to process text in parallel,the Convolutional Neural Network(CNN)can improve the operation speed of the model and capture the spatial features of text.However,simply stacking multiple convolutional layers can easily lead to the gradient vanishing problem.To obtai
7、n multi-dimensional text features simultaneously and improve the gradient vanishing problem,this paper proposes a Chinese NER model based on RoBERTa-wwm-DGCNN-BiLSTM-BMHA-CRF.Firstly,text is represented as a character-level embedding vector by the pre-trained language model RoBERTa-wwm based on the
8、whole-word masking technique to capture the deep contextual semantic information.Secondly,the gating mechanism and residual structure are used to improve the Dilated CNN(DCNN)to reduce the risk of gradient disappearance,and then the Bi-directional Long Short-Term Memory(BiLSTM)network and Dilated Ga
9、ted CNN(DGCNN)are used to capture the temporal and spatial characteristics of the text,respectively.Thirdly,the Bi-linear Multi-Head Attention(BMHA)mechanism is used to dynamically fuse the multi-dimensional text features.Finally,the Conditional Random Field(CRF)is used to constrain the results and
10、obtain the best marker sequence.The experimental results indicate that the F1 values of the proposed model on the Resume,Weibo,and MSRA data sets were 97.20%,74.28%and 95.74%,respectively,which proves the effectiveness of the proposed model for Chinese NER.【Key words】Named Entity Recognition(NER);Ro
11、BERTa-wwm model;dilated convolution;attention mechanism;feature fusionDOI:10.19678/j.issn.1000-3428.0065455基金项目:国家自然科学基金(71462018,71761018)。作者简介:杨长沛(1996),男,硕士研究生,主研方向为自然语言处理、命名实体识别;廖列法(通信作者),教授、博士。收稿日期:2022-08-08 修回日期:2022-09-25 Email:人工智能与模式识别文章编号:1000-3428(2023)08-0085-11 文献标志码:A 中图分类号:TP3912023年
12、 8月 15日Computer Engineering 计算机工程0概述 命名实体识别(Named Entity Recognition,NER)是自然语言处理(Natural Language Processing,NLP)领域的核心任务之一,旨在从数据中自动发现实体信息并且识别出对应的类别。在 NLP的一些下游任务 中,命 名 实 体 识 别 有 着 重 要 作 用,如 信 息 检 索(Information Retrieval,IR)、知 识 图 谱(Knowledge Graph,KG)、情感分析(Sentiment Analysis,SA)、问答系统(Question Answeri
13、ng,QA)等。因此,高效地从文本中准确识别出实体信息对计算机处理文本数据有着重要的意义。早期的命名实体识别研究为基于词典和规则相结合的统计方法,需要大量人工参与来建立词典和制定规则,费时费力且泛化能力差。随着机器学习技术的发展,基于机器学习的方法需要人工制定大量特征模板并结合复杂的特征工程来构造模型,如隐 马 尔 可 夫 模 型1、支 持 向 量 机2、条 件 随 机 场(Conditional Random Field,CRF)3等。与统计方法相比,基于机器学习的方法提升了实体识别的准确率,模型泛化能力更强,但过度依赖于该领域专家的知识量和人工总结特征。近年来,基于深度学习的方法逐渐成为了
14、主流,该方法利用现有的神经网络模型并结合分布式特征,能够自动识别实体,在很大程度上降低了人工成本。与以往的方法相比,基于深度学习的方法在使用预训练词向量技术后准确率普遍较高,模型可移植性较强。在深度学习领域,针对文本数据格式通常为序列结构这一特点,以往的神 经 网 络 模 型 普 遍 采 用 基 于 循 环 神 经 网 络(Recurrent Neural Network,RNN)的循环结构来进行命名实体识别,使输入的序列数据在序列的演进方向进行递归,捕捉文本的时序特征。LAMPLE等4使用基于转换的方法构建神经网络模型,并结合双向长短时记忆(Bi-directional Long Short
15、-Term Memory,BiLSTM)网络+CRF 神经网络模型进行命名实体识别,在没有借助任何特定于语言的知识或资源的情况下获得了较好的性能。然而循环神经网络受限于其结构特点仅能抽取文本的时序特征,无法并行运算。卷积神经网络(Convolutional Neural Network,CNN)的结构与 RNN 不同,CNN 中的各层神经元以三维的方式进行排列,在空间上表现为高度、宽度和深度,CNN 呈现出的空间特性使其通过卷积运算就能并行处理输入序列。CHIU 等5提出一种新颖的神经网络架构 BiLSTM-CNN 进行命名实体识别,该架构能够自动检测词语和字符级别的特征,在 CoNLL-20
16、03和 OntoNotes5.0数据集上的 F1值分别为 91.62%和 86.28%,解决了传统命名实体识别任务需要大量特征工程和词典形式的知识才能实现高性能的问题。随着数据量不断增大,输入序列长度不断增加,而 CNN 感受野有限,无法对大量数据进行有效处理,且过多地堆叠卷积层容易产生梯度消失。为解决以上问题,FISHER 等6提出空洞卷积神经网络(Dilated Convolutional Neural Network,DCNN)模型,该模型在不降低图片分辨率的情况下使用膨胀的卷积来系统性地聚合多尺度的上下文信息,且感受野的指数扩张不会降低图片的分辨率或者覆盖率。STRUBELL 等7针对
17、 BiLSTM 神经网络没有充分利用 GPU 的并行性,导致计算机计算效率受限的问 题,提 出 使 用 迭 代 空 洞 卷 积 神 经 网 络(Iterated Dilated Convolutional Neural Network,IDCNN)代替BiLSTM 神经网络进行命名实体识别,IDCNN 模型与传统 CNN 模型相比不仅具有更强大的上下文信息抽取能力和结构化预测能力,而且在使用较少测试时间的同时能达到与 BiLSTM 网络相当的准确性。虽然 IDCNN 在不改变卷积核数量的情况下能够通过调节空洞率来扩大感受野,增大卷积核对输入序列的覆盖率,但未考虑信息的流通方式,依然存在梯度消失
18、的风险。DAUPHIN 等8提出一种门控卷积神经网络(Gated Convolutional Neural Network,GCNN)模型,该模型把新颖的简化门控机制引入卷积神经网络中,给每个输出增加一个“阀门”来控制数据的流通,在一定程度上降低了梯度消失的风险,实验证明该模型在语言建模任务上比基于循环神经网络的模型更加有效。WANG 等9针对命名实体识别任务中过度依赖于基于 RNN 循环结构的神经网络模型的问题,提出使用基于 GCNN 模型的新架构来解决 NER 问题,实验结果表明,该模型在训练效率 方 面 有 显 著 的 优 势,并 且 在 MSRA、CityU 和CoNLL-2003 这
19、 3 个数据集上均获得了较好的结果。王 笑 月 等10提 出 一 种 带 有 残 差 连 接 的 门 控 空 洞卷 积 神 经 网 络(Dilated Gated Convolutional Neural Network,DGCNN)模型进行中文命名实体识别,并把字向量和词特征进行融合,通过获取所属词的位置信息来丰富文本特征。该模型使用了门控机制和残差结构对 IDCNN 进行改进,能够降低梯度消失的风险并使信息在多通道内传输,在 MSRA 和 Resume数据集上的 F1值分别为 92.97%和 94.98%,与一般的基于 RNN 架构的神经网络模型相比,训练速度更快,实验效果更好。谭岩杰等1
20、1针对传统模型在每个实体上进行分类任务时工作量大且循环结构运算速度较慢的问题,提出一种将门控空洞卷积神经网络和级联网络相结合的中文命名实体识别模型,通过使用 DGCNN 模型替换 BiLSTM 模型来提升运算速度,采用级联结构把实体的位置和属性分开标注来 降 低 分 类 计 算 量 以 进 行 多 任 务 学 习,实 验 在Resume 数据集上的 F1 值为 95.50%,证明了该模型的有效性。然而,以上研究只是简单地使用基于 CNN 卷积结构的神经网络模型替换基于 RNN 循环结构的神86第 49卷 第 8期杨长沛,廖列法:基于门控空洞卷积特征融合的中文命名实体识别经网络模型进行命名实体识
21、别,特征抽取方式单一,上下文信息获取能力有限,忽略了后者获得的时序特 征。因 此,本 文 一 方 面 使 用 具 有 循 环 结 构 的BiLSTM 模型抽取文本的时序特征和双向语义信息,另一方面使用带有残差连接的 DGCNN 模型抽取文本的空间特征,并且使用泛化能力更强的双线性多头注意力(Bi-linear Multi-Head Attention,BMHA)机制对以上特征进行动态融合,以大幅提高模型对多维度特征进行建模的能力。1相关工作 本文在第 1.1 节介绍基于特征融合解决命名实体识别的研究,在第 1.2节对预训练模型的发展进行阐述。1.1基于特征融合的命名实体识别集成学习源于机器学习
22、,它的思想是通过建立多个学习器独立地完成学习任务,然后使用某种策略把所有学习器的预测结果进行结合,从而获得比单一学习器更好的结果。这类学习器通常分为“基学习器”和“组建学习器”,基学习器用于学习同种类型的特征,组建学习器用于学习不同类型的特征,当这类学习器准确性较高且具有多样性时,模型能够在很大程度上获得更加优异的性能。在深度学习领域,特征融合技术采用集成学习的思想,通过使用不同类型的模型抽取不同种类的特征,然后对多维度的特征进行融合,能够获得比单一模型更好的识别效果。胥小波等12针对基于字符的命名实体识别模型不能很好地引入句子的句法信息这一问题,提出了多特征中文命名实体识别模型。该模型的向量
23、表示层由字符表示、词表示和字形表示组成,字符表示使用预训练进行词嵌入,词表示使用词典匹配法获得每个字符的词典嵌入表示,字形表示分别使用双向长短时记忆网络和多尺度卷积神经网络对字符的偏旁序列进行编码,然后对 3 种表示进行拼接。该模 型 的 编 码 层 由 ON-LSTM 模 型 和 改 进 后 的Transformer编码器组成,ON-LSTM 用于语法信息的归纳,Transformer编码器用于捕捉长距离依赖关系,从 多 维 度 的 特 征 子 空 间 中 抽 取 特 征。该 模 型 在Weibo 数据集和 CLUENER 数据集上的 F1 值分别为63.61%和 76.93%,证明了该模型
24、的有效性。廖涛等13针对以往的命名实体识别任务中字嵌入过程对不同单词的向量表示以累加或拼接方式提取信息,容易忽略不同单词特征表示之间的相互依赖关系这一问题,提出一种基于交互式特征融合的嵌套命名实体识别模型。该模型在字嵌入层使获得的字符级嵌入和字级嵌入表示向量进行交互学习来捕 捉 更 强 的 单 词 语 义 信 息,在 特 征 交 互 层 使 用BiLSTM 编码器捕捉长距离依赖关系,并把两个隐藏层信息进行交互学习,紧接着使用多头注意力机制进一步抽取更深层次的多重语义信息,最后通过粒度划分和类别判断得到最终结果,实验在嵌套NER 数据集 GENIA 上的 F1值为 71.2%,证明了该模型的优越
25、性。廖列法等14为同时获得文本的方向信息和全局语义信息,提出一种基于注意力机制特征融合的中文命名实体识别模型,该模型使用改进的Transformer 编码器捕捉文本的全局语义信息,采用BiLSTM 抽取文本的方向信息,通过注意力机制对全局语义信息和方向信息进行动态融合,该模型在Resume 数 据 集 和 Weibo 数 据 集 上 的 F1 值 分 别 为96.68%和 71.29%,与传统深度学习模型相比有更好的识别效果。从以上学者的研究成果可以看出,针对模型的不同层面融合多维度特征能够整合各个模型的优势,更好地处理命名实体识别任务。1.2预训练模型预训练模型是迁移学习的一种应用,其在大规
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 门控 空洞 卷积 特征 融合 中文 命名 实体 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。