分销赏收藏举报申诉 / 11

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于门控空洞卷积特征融合的中文命名实体识别.pdf

基于门控空洞卷积特征融合的中文命名实体识别.pdf

上传人：自信****多点

文档编号：647074

上传时间：2024-01-23

格式：PDF

页数：11

大小：1.62MB

《基于门控空洞卷积特征融合的中文命名实体识别.pdf》由会员分享，可在线阅读，更多相关《基于门控空洞卷积特征融合的中文命名实体识别.pdf（11页珍藏版）》请在咨信网上搜索。

1、第 49卷第 8期2023年 8月Computer Engineering 计算机工程基于门控空洞卷积特征融合的中文命名实体识别杨长沛1，廖列法1，2（1.江西理工大学信息工程学院，江西赣州 341000；2.江西理工大学软件工程学院，南昌 330000）摘要：在中文命名实体识别任务中，具有循环结构的长短时记忆网络模型通过捕捉时序特征解决长距离依赖问题，但其特征捕捉方式单一，信息获取能力有限。卷积神经网络通过使用多层卷积并行处理文本，能够提高模型运算速度，捕捉文本的空间特征，但简单地堆叠多个卷积层容易导致梯度消失。为同时获得多维度的文本特征且改善梯度消失问题，提出一种基于 RoBERT

2、a-wwm-DGCNN-BiLSTM-BMHA-CRF的中文命名实体识别模型，通过基于全词遮蔽技术的预训练语言模型 RoBERTa-wwm 把文本表征为字符级嵌入向量，捕捉深度上下文语义信息，并采用门控机制和残差结构对空洞卷积神经网络进行改进以降低梯度消失的风险。使用双向长短时记忆网络和门控空洞卷积神经网络分别捕捉文本的时序特征和空间特征，采用双线性多头注意力机制对多维度的文本特征进行动态融合，最后使用条件随机场对结果进行约束，获得最佳标记序列。实验结果表明，所提模型在 Resume、Weibo和 MSRA数据集上的 F1值分别为 97.20%、74.28%和 95.74%，证明了该模型在中文

3、命名实体识别中的有效性。关键词：命名实体识别；RoBERTa-wwm模型；空洞卷积；注意力机制；特征融合开放科学（资源服务）标志码（OSID）：中文引用格式：杨长沛，廖列法.基于门控空洞卷积特征融合的中文命名实体识别 J.计算机工程，2023，49（8）：85-95.英文引用格式：YANG C P，LIAO L F.Chinese named entity recognition based on dilated gated convolution feature fusion J.Computer Engineering，2023，49（8）：85-95.Chinese Named Enti

4、ty Recognition Based on Dilated Gated Convolution Feature FusionYANG Changpei1，LIAO Liefa1，2（1.School of Information Engineering，Jiangxi University of Science and Technology，Ganzhou 341000，Jiangxi，China；2.School of Software Engineering，Jiangxi University of Science and Technology，Nanchang 330000，Chi

5、na）【Abstract】In the task of Chinese Named Entity Recognition（NER），the long short-term memory network model with cyclic structure can solve the problem of long-distance dependence by capturing temporal features，but its feature capture method is singular and the information acquisition ability is limi

6、ted.By using multi-layer convolution to process text in parallel，the Convolutional Neural Network（CNN）can improve the operation speed of the model and capture the spatial features of text.However，simply stacking multiple convolutional layers can easily lead to the gradient vanishing problem.To obtai

7、n multi-dimensional text features simultaneously and improve the gradient vanishing problem，this paper proposes a Chinese NER model based on RoBERTa-wwm-DGCNN-BiLSTM-BMHA-CRF.Firstly，text is represented as a character-level embedding vector by the pre-trained language model RoBERTa-wwm based on the

8、whole-word masking technique to capture the deep contextual semantic information.Secondly，the gating mechanism and residual structure are used to improve the Dilated CNN（DCNN）to reduce the risk of gradient disappearance，and then the Bi-directional Long Short-Term Memory（BiLSTM）network and Dilated Ga

9、ted CNN（DGCNN）are used to capture the temporal and spatial characteristics of the text，respectively.Thirdly，the Bi-linear Multi-Head Attention（BMHA）mechanism is used to dynamically fuse the multi-dimensional text features.Finally，the Conditional Random Field（CRF）is used to constrain the results and

10、obtain the best marker sequence.The experimental results indicate that the F1 values of the proposed model on the Resume，Weibo，and MSRA data sets were 97.20%，74.28%and 95.74%，respectively，which proves the effectiveness of the proposed model for Chinese NER.【Key words】Named Entity Recognition（NER）；Ro

11、BERTa-wwm model；dilated convolution；attention mechanism；feature fusionDOI：10.19678/j.issn.1000-3428.0065455基金项目：国家自然科学基金（71462018，71761018）。作者简介：杨长沛（1996），男，硕士研究生，主研方向为自然语言处理、命名实体识别；廖列法（通信作者），教授、博士。收稿日期：2022-08-08 修回日期：2022-09-25 Email：人工智能与模式识别文章编号：1000-3428（2023）08-0085-11 文献标志码：A 中图分类号：TP3912023年

12、 8月 15日Computer Engineering 计算机工程0概述命名实体识别（Named Entity Recognition，NER）是自然语言处理（Natural Language Processing，NLP）领域的核心任务之一，旨在从数据中自动发现实体信息并且识别出对应的类别。在 NLP的一些下游任务中，命名实体识别有着重要作用，如信息检索（Information Retrieval，IR）、知识图谱（Knowledge Graph，KG）、情感分析（Sentiment Analysis，SA）、问答系统（Question Answeri

13、ng，QA）等。因此，高效地从文本中准确识别出实体信息对计算机处理文本数据有着重要的意义。早期的命名实体识别研究为基于词典和规则相结合的统计方法，需要大量人工参与来建立词典和制定规则，费时费力且泛化能力差。随着机器学习技术的发展，基于机器学习的方法需要人工制定大量特征模板并结合复杂的特征工程来构造模型，如隐马尔可夫模型1、支持向量机2、条件随机场（Conditional Random Field，CRF）3等。与统计方法相比，基于机器学习的方法提升了实体识别的准确率，模型泛化能力更强，但过度依赖于该领域专家的知识量和人工总结特征。近年来，基于深度学习的方法逐渐成为了

14、主流，该方法利用现有的神经网络模型并结合分布式特征，能够自动识别实体，在很大程度上降低了人工成本。与以往的方法相比，基于深度学习的方法在使用预训练词向量技术后准确率普遍较高，模型可移植性较强。在深度学习领域，针对文本数据格式通常为序列结构这一特点，以往的神经网络模型普遍采用基于循环神经网络（Recurrent Neural Network，RNN）的循环结构来进行命名实体识别，使输入的序列数据在序列的演进方向进行递归，捕捉文本的时序特征。LAMPLE等4使用基于转换的方法构建神经网络模型，并结合双向长短时记忆（Bi-directional Long Short

15、-Term Memory，BiLSTM）网络+CRF 神经网络模型进行命名实体识别，在没有借助任何特定于语言的知识或资源的情况下获得了较好的性能。然而循环神经网络受限于其结构特点仅能抽取文本的时序特征，无法并行运算。卷积神经网络（Convolutional Neural Network，CNN）的结构与 RNN 不同，CNN 中的各层神经元以三维的方式进行排列，在空间上表现为高度、宽度和深度，CNN 呈现出的空间特性使其通过卷积运算就能并行处理输入序列。CHIU 等5提出一种新颖的神经网络架构 BiLSTM-CNN 进行命名实体识别，该架构能够自动检测词语和字符级别的特征，在 CoNLL-20

16、03和 OntoNotes5.0数据集上的 F1值分别为 91.62%和 86.28%，解决了传统命名实体识别任务需要大量特征工程和词典形式的知识才能实现高性能的问题。随着数据量不断增大，输入序列长度不断增加，而 CNN 感受野有限，无法对大量数据进行有效处理，且过多地堆叠卷积层容易产生梯度消失。为解决以上问题，FISHER 等6提出空洞卷积神经网络（Dilated Convolutional Neural Network，DCNN）模型，该模型在不降低图片分辨率的情况下使用膨胀的卷积来系统性地聚合多尺度的上下文信息，且感受野的指数扩张不会降低图片的分辨率或者覆盖率。STRUBELL 等7针对

17、 BiLSTM 神经网络没有充分利用 GPU 的并行性，导致计算机计算效率受限的问题，提出使用迭代空洞卷积神经网络（Iterated Dilated Convolutional Neural Network，IDCNN）代替BiLSTM 神经网络进行命名实体识别，IDCNN 模型与传统 CNN 模型相比不仅具有更强大的上下文信息抽取能力和结构化预测能力，而且在使用较少测试时间的同时能达到与 BiLSTM 网络相当的准确性。虽然 IDCNN 在不改变卷积核数量的情况下能够通过调节空洞率来扩大感受野，增大卷积核对输入序列的覆盖率，但未考虑信息的流通方式，依然存在梯度消失

18、的风险。DAUPHIN 等8提出一种门控卷积神经网络（Gated Convolutional Neural Network，GCNN）模型，该模型把新颖的简化门控机制引入卷积神经网络中，给每个输出增加一个“阀门”来控制数据的流通，在一定程度上降低了梯度消失的风险，实验证明该模型在语言建模任务上比基于循环神经网络的模型更加有效。WANG 等9针对命名实体识别任务中过度依赖于基于 RNN 循环结构的神经网络模型的问题，提出使用基于 GCNN 模型的新架构来解决 NER 问题，实验结果表明，该模型在训练效率方面有显著的优势，并且在 MSRA、CityU 和CoNLL-2003 这

19、 3 个数据集上均获得了较好的结果。王笑月等10提出一种带有残差连接的门控空洞卷积神经网络（Dilated Gated Convolutional Neural Network，DGCNN）模型进行中文命名实体识别，并把字向量和词特征进行融合，通过获取所属词的位置信息来丰富文本特征。该模型使用了门控机制和残差结构对 IDCNN 进行改进，能够降低梯度消失的风险并使信息在多通道内传输，在 MSRA 和 Resume数据集上的 F1值分别为 92.97%和 94.98%，与一般的基于 RNN 架构的神经网络模型相比，训练速度更快，实验效果更好。谭岩杰等1

20、1针对传统模型在每个实体上进行分类任务时工作量大且循环结构运算速度较慢的问题，提出一种将门控空洞卷积神经网络和级联网络相结合的中文命名实体识别模型，通过使用 DGCNN 模型替换 BiLSTM 模型来提升运算速度，采用级联结构把实体的位置和属性分开标注来降低分类计算量以进行多任务学习，实验在Resume 数据集上的 F1 值为 95.50%，证明了该模型的有效性。然而，以上研究只是简单地使用基于 CNN 卷积结构的神经网络模型替换基于 RNN 循环结构的神86第 49卷第 8期杨长沛，廖列法：基于门控空洞卷积特征融合的中文命名实体识别经网络模型进行命名实体识

21、别，特征抽取方式单一，上下文信息获取能力有限，忽略了后者获得的时序特征。因此，本文一方面使用具有循环结构的BiLSTM 模型抽取文本的时序特征和双向语义信息，另一方面使用带有残差连接的 DGCNN 模型抽取文本的空间特征，并且使用泛化能力更强的双线性多头注意力（Bi-linear Multi-Head Attention，BMHA）机制对以上特征进行动态融合，以大幅提高模型对多维度特征进行建模的能力。1相关工作本文在第 1.1 节介绍基于特征融合解决命名实体识别的研究，在第 1.2节对预训练模型的发展进行阐述。1.1基于特征融合的命名实体识别集成学习源于机器学习

22、，它的思想是通过建立多个学习器独立地完成学习任务，然后使用某种策略把所有学习器的预测结果进行结合，从而获得比单一学习器更好的结果。这类学习器通常分为“基学习器”和“组建学习器”，基学习器用于学习同种类型的特征，组建学习器用于学习不同类型的特征，当这类学习器准确性较高且具有多样性时，模型能够在很大程度上获得更加优异的性能。在深度学习领域，特征融合技术采用集成学习的思想，通过使用不同类型的模型抽取不同种类的特征，然后对多维度的特征进行融合，能够获得比单一模型更好的识别效果。胥小波等12针对基于字符的命名实体识别模型不能很好地引入句子的句法信息这一问题，提出了多特征中文命名实体识别模型。该模型的向量

23、表示层由字符表示、词表示和字形表示组成，字符表示使用预训练进行词嵌入，词表示使用词典匹配法获得每个字符的词典嵌入表示，字形表示分别使用双向长短时记忆网络和多尺度卷积神经网络对字符的偏旁序列进行编码，然后对 3 种表示进行拼接。该模型的编码层由 ON-LSTM 模型和改进后的Transformer编码器组成，ON-LSTM 用于语法信息的归纳，Transformer编码器用于捕捉长距离依赖关系，从多维度的特征子空间中抽取特征。该模型在Weibo 数据集和 CLUENER 数据集上的 F1 值分别为63.61%和 76.93%，证明了该模型

24、的有效性。廖涛等13针对以往的命名实体识别任务中字嵌入过程对不同单词的向量表示以累加或拼接方式提取信息，容易忽略不同单词特征表示之间的相互依赖关系这一问题，提出一种基于交互式特征融合的嵌套命名实体识别模型。该模型在字嵌入层使获得的字符级嵌入和字级嵌入表示向量进行交互学习来捕捉更强的单词语义信息，在特征交互层使用BiLSTM 编码器捕捉长距离依赖关系，并把两个隐藏层信息进行交互学习，紧接着使用多头注意力机制进一步抽取更深层次的多重语义信息，最后通过粒度划分和类别判断得到最终结果，实验在嵌套NER 数据集 GENIA 上的 F1值为 71.2%，证明了该模型的优越

25、性。廖列法等14为同时获得文本的方向信息和全局语义信息，提出一种基于注意力机制特征融合的中文命名实体识别模型，该模型使用改进的Transformer 编码器捕捉文本的全局语义信息，采用BiLSTM 抽取文本的方向信息，通过注意力机制对全局语义信息和方向信息进行动态融合，该模型在Resume 数据集和 Weibo 数据集上的 F1 值分别为96.68%和 71.29%，与传统深度学习模型相比有更好的识别效果。从以上学者的研究成果可以看出，针对模型的不同层面融合多维度特征能够整合各个模型的优势，更好地处理命名实体识别任务。1.2预训练模型预训练模型是迁移学习的一种应用，其在大规

26、模的语料数据中进行预训练并保存下模型参数，用以训练后续任务15。早期的预训练任务使用传统预训练技术独热码16（One-hot）把语料转化为向量表示，能够在一定程度上对特征进行扩充，独热码技术对每个状态使用独立的状态寄存器进行编码，而且在任意时刻只有一个状态有效。基于神经网络模型的预训练技术针对传统预训练技术进行改进，对词序间的上下文特征进行编码，早期以 Word2vec17、GloVe18等静态词向量为代表，静态词向量能够考虑到单词的上下文相关词，形成词向量的固定表征，可以更好地解决词性孤立且不连贯的问题，但存在一词多义现象。随着 Elmo19、GPT20、BERT21等动态词向量技术的诞生，

27、动态词向量获得的动态表征不仅能够考虑到单词的上下文相关词，而且能抽取单词的上下文信息，能够表征单词在不同语境下的不同含义，解决词的多义性问题。BERT预训练语言模型作为动态词向量技术的代表，它的出现使得 NLP下游任务均获得了先进的性能，但 BERT 模型依然存在一些较为明显的缺陷，其采用的下一句预测（Next Sentence Prediction，NSP）任务有可能导致预测结果出现偏差，且采用的静态遮蔽任务效果欠佳。因此，ALBERT22、RoBERTa23等一些基于 BERT 改进的预训练模型相继出现。2中文命名实体识别模型本文提出的模型框架如图 1所示。该模型由 4部分组成，分别为向

28、量表示层、特征抽取层、特征融合层、CRF层。首先，在向量表示层使用具有更强掩码学习能力的 RoBERTa-wwm-ext（以下简称 RoBERTa-wwm）模型把输入序列表征为富含语义信息的字符级嵌入向量；其次，特征抽取层一方面通过 BiLSTM模型抽取序列的长距离依赖关系和时序特征，另一方面使用 DGCNN 模型抽取序列的空间特征；然后，在特征融合层使用泛化能力更强的双线性多头注意力机制对 BiLSTM 和 DGCNN 模型抽取出的特征进行动态融合，提高模型的特征表征能力；最后，通过 CRF层对输出进行约束，得到最佳标记结果。872023年 8月 15日Computer Engineerin

29、g 计算机工程2.1RoBERTa-wwm 模型随着预训练模型的不断发展，使用 BERT 进行字符嵌入来解决命名实体识别任务逐渐成为了主流，BERT 的模型结构如图 2 所示。与以往的预训练模型不同，BERT 采用双向 Transformer 为架构，Transformer 是以注意力机制为基础并且所有单元交互的新架构，BERT 使用此架构在几乎所有的 NLP 下游任务中获得了先进的表现，证明该架构具有更强的的信息抽取能力和特征编码能力。BERT的

30、输入表示(E1E2En)由标记嵌入、句子嵌入和位置嵌入组成，输出(T1T2Tn)分别记录了序列中单词级别、句子级别和位置级别的信息。此外，BERT 在预训练过程中采用了遮蔽语言模型（Masked Language Model，MLM）技术和 NSP 任务，其中：BERT 的 MLM 技术为静态遮蔽，即随机遮蔽每个句子中 15%的单词，且在每一轮训练中保持遮蔽单词不变，然后对被遮蔽的单词进行预测；NSP任务则通过预测句子 B 是否为句子 A 的下一个句子来学习句子间的相关性。RoBERTa-wwm 使用了 BERT 的模型框架，并对其语料规模和预训练过程进行了改进。

31、首先，RoBERTa-wwm在预训练过程中使用动态遮蔽技术，动态遮蔽技术在每一轮训练中随机遮蔽 15%的单词，间接性地增加了训练语料，能够提高模型的泛化能力和性能；其次，RoBERTa-wwm 删除了 NSP 任务，转变为每次输入多个句子直到达到最大长度，该方法能够捕捉更长距离的依赖关系；最后，RoBERTa-wwm 使用了更大的语料规模和批次量进行重新训练，以获取更多语料的特征信息，提高模型的性能。2.2BiLSTM 模型BiLSTM 由前向 LSTM 和后向 LSTM 组成，进而抽取双向的语义特征，能够更好地解决短期依赖和长期依赖的问题，其中，LSTM 网络

32、为循环结构的神经网络，它针对 RNN 进行改进，解决了RNN 的梯度消失和梯度爆炸问题。LSTM 通过记忆机制和门控单元来捕捉时序信息，其中：门控单元包括输入门、遗忘门和输出门；记忆机制分为短期记忆和长期记忆。LSTM 网络的结构如图 3所示。图 1中文命名实体识别模型的架构Fig.1Architecture of Chinese named entity recognition model图 2BERT模型的结构Fig.2Structure of BERT model88第 49卷第 8期杨长沛，廖列法：基于门控空洞卷积特征融合的中文命名实

33、体识别在图 3 中，输入门it控制当前单元的信息，遗忘门ft控制信息的遗忘，输出门ot控制信息的输出，短期记忆ht记录了当前时刻的输出，长期记忆ct把当前单元的状态保存并作为下一单元的输入，表达式分别如下：it=(Wiht-1xt+bi)（1）ft=(Wfht-1xt+bf)（2）ot=(Woht-1xt+bo)（3）st=tanh(Wsht-1xt+bs)（4）ct=ft ct-1+it st（5）ht=ot tanh(ct)（6）其中：表示 Sigmoid激活函数；W和b分别表示权重矩阵和偏置项；xt为当前单元的输入；st表示当前时刻更新的状态；tanh 为双曲正切激活函数；表示Hadam

34、ard积。2.3DGCNN模型在 NLP 领域，通常使用普通一维卷积对输入数据进行处理，但普通一维卷积只能获得输入序列的小部分信息，特征抽取能力有限，然而通过简单地堆叠卷积层来获取更多的信息容易导致过拟合，且通过池化层来整合多尺度的信息容易造成信息的损失。DCNN 模型的出现解决了以上问题，DCNN 模型在卷积核中增加空洞并通过调节空洞率来扩大感受野，对输入的数据进行间隔采样，呈指数增长的空洞率使得在层数较少时能够对较长的句子进行覆盖，普通卷积和空洞卷积的采样图如图 4 所示。DCNN 模型的计算式如下：st=Ask=0nxt k（7）其中：st为输出结果；As是大小为n的卷积核；表示向量的拼

35、接；代表空洞率。为提高模型的信息抽取能力，IDCNN 模型对多个相同结构的 DCNN 模型进行堆叠，但堆叠多个卷积块容易导致梯度消失。为了降低梯度消失的风险，DGCNN 模型在 IDCNN 模型的基础上使用门控机制对模型进行改进，通过增加一个阀门来控制数据的流通。为了使信息能够通过多通道传输，本文参考文献 10 的方法，使用残差结构对模型进一步改进，门控机制和残差结构的改进方法如式（8）所示，引入残差结构的门控卷积如图 5所示。Y=X+Conv1D1(X)(Conv1D2(X)（8）其中：X 代表输入；Conv1D1和 Conv1D2为参数结构相同但权值不共享的空洞卷积；为 Sigmoid函数

36、；为向量的 Hadamard乘积；为向量的相加操作。2.4注意力机制注意力机制源于人类视觉神经系统，当人类观察一项事物时，注意力会聚焦于重点关注的目标区域，同时从其他区域接收到的信息会大幅减少，如此能够高效地筛选出有价值的信息。注意力机制首先被应用于图像领域，并取得了显著成效，随后被逐渐图 3LSTM 网络的结构Fig.3Structure of LSTM network图 5引入残差结构的门控卷积Fig.5Gated convolution with residual structure图 4普通卷积和空洞卷积的采样图Fig.4Sampling diagrams of ordinary co

37、nvolution and dilated convolution892023年 8月 15日Computer Engineering 计算机工程应用于 NLP 领域。在 NLP 领域，注意力机制能够在模型对文本进行编码的过程中重点关注与任务相关的部分，赋予该部分更高的权重。注意力机制发展至今类别呈现出多样化，在 NLP 领域应用较广的类型有以下 4种：1）加性注意力机制，把 Q 和 K 结合起来输入到一个多层感知机中，当 Q和 K长度不同时效果较好。2）点积注意力机制，对 Q 和 K 进行普通的点积运算，点积模型能够更好地利用矩阵运算，效率更高。3）缩放点积注

38、意力机制，对 Q 和 K 进行点积运算后除以词向量维度，能够解决当向量维度较高时Softmax函数结果梯度较小的问题。4）双线性注意力机制，双线性模型是一种泛化的点积模型，它分别对 Q 和 K 进行线性变换后计算点积，与点积模型相比，它引入了非对称性，特征融合能力更强。双线性注意力机制的计算式如下：Attention(QKV)=Softmax(QTWK)V（9）其中：Q、K、V分别为为查询向量、键向量、值向量；W为可学习的参数矩阵；当W=UTS时，QTWK可改写为(UQ)T(SK)，即分别对 Q 和 K 线性变换后进行点积运算。文本序列中每个单词的向量包含各个方面的特征，当向量的维度较高时，单

39、次的注意力计算无法获取单词的全部特征，多头注意力机制能够对文本序列并行地进行多次注意力计算，然后对结果进行拼接，得到最终注意力层的输出：hi=Attention(QWQiKWKiVWVi)（10）MultiHead(QKV)=Concat(h1h2 hn)WO（11）其中：QWQi、WKi、VWVi和WO均为可训练的参数矩阵。本文使用特征融合能力更强的双线性多头注意力机制对 BiLSTM 模型和 DGCNN 模型抽取出来的特征进行动态融合，在最大程度上获得文本序列的特征信息，提高整体模型的性能。2.5CRF模型双线性多头注意力机制能够在很大程度上对特征进行融合，独立得到每个单词的最大概率标签，

40、但无法解决相邻标签之间的合理性问题。CRF模型通过在标签之间添加一些有效约束来赋予合理标签序列更大的概率值，以获得最佳预测序列。把一个句子X=(x1x2xn)送入先前模型中进行训练，得到融合了时序特征和空间特征的(n k)维特征矩阵M，其中：n代表单词的个数；k代表标签的个数；Mij为特征矩阵中第i个单词的第j个标签的概率。得到预测序列Y的概率如下：T(XY)=i=0nAyiyi+1+i=0nMiyi（12）其中：A为在 CRF 层中获得的转移矩阵；Aij为标签i转移到标签j的概率，在句子X的条件下出现预测序列Y的概率公式如下：P(Y|X)=eT(XY)Y YXT(XY)（13）其中：Y为真实

41、的标记值；YX为所有可能的标记值。得到预测序列Y的似然函数为：ln(P(Y|X)=T(XY)-ln()Y YXT(XY)（14）通过似然函数求出合理的标签序列，然后通过式（15）输出概率最大的标签序列：Y*=arg maxY YXT(XY)（15）通过 CRF 层对整体模型的结果进行约束，能够获得最优的预测序列。3实验结果与分析 3.1语料数据及标注体系为验证本文所提模型的有效性，在Resume、Weibo和MSRA数据集上进行实验。数据集的详情如下：1）Resume 数据集为上市公司高级经理人的简历摘要数据，筛选及标注后共 4 761 条样本，包含8 种类别，分别为人名（NAME）、学位（E

42、DU）、地址（LOC）、组织机构（ORG）、专业（PRO）、职称（TITLE）、国籍（CONT）和种族（RACE）。2）Weibo数据集由新浪微博历史数据筛选、过滤形成，共 1 890 条样本，包含 4 种类别，分别为人物（PER）、组织机构（ORG）、地址（LOC）和地缘政治（GPE），并且每个实体均可通过后缀细分为特指（NAM）和泛指（NOM）。3）MSRA 数据集为微软亚洲研究院标注的新闻领域实体识别数据集，共 48 442条样本，包含 3种类别，分别为人物（PER）、地址（LOC）、组织机构（ORG）。文本采用 BIO三元标记法对数据集进行标记，B代表实体的首

43、部，I 代表实体除首部以外的其他部分，O 代表非实体。对数据集进行标注后，根据数据集规模大小，按照不同比例划分为训练集、验证集和测试集，表 1所示为数据集的字符数。3.2评估指标本文使用精确率(P)、召回率(R)和 F1 值（F1）对模型效果进行评价，P代表预测为正的正确实体占所有预测为正的实体总数的比例，R代表预测为正的正确实体占所有实体中实际为正的比例，F1为P和R的调和平均值，表达式分别如下：表 1数据集的字符数Table 1The number of characters of the data sets单位：个数据集ResumeWeiboMSRA训练集127 91975 1272 0

44、50 525验证集14 35214 778177 231测试集15 57615 111170 00890第 49卷第 8期杨长沛，廖列法：基于门控空洞卷积特征融合的中文命名实体识别P=TTPTTP+FFP（16）R=TTPTTP+FFN（17）F1=2PRP+R=2TTP2TTP+FFP+FFN（18）其中：TTP为正例识别为正例的实体个数；FFP为反例识别为正例的实体个数；FFN为正例识别为反例的实体个数。3.3实验设置本文使用 PyTorch深度学习框架进行实验，实验环境如下：CPU 使用的是 Intel Xeon Silver 4210 CPU 2.20 GHz 2.19

45、GHz2；GPU 使用的是NVDIA GeForce RTX2080ti（11 GB）；Python 为 3.9.7版本；PyTorch版本为 1.10.1+cu113，内存为 32 GB。本文的实验参数设置如下：实验的向量表示层采用的是哈工大讯飞联合实验室推出的 RoBERTa-wwm-ext 模型，实验的 batch_size 在 Resume 数据集和 Weibo 数据集上均设为 16，在 MSRA 数据集上设为 32，其他参数的详细情况如表 2所示。3.4结果与分析为验证本文所提模型的有效性，在 Resume数据集、Weibo 数据集和 MSRA 数据集上进行对比实验和消融实验。

46、3.4.1对比实验本节为本文模型与前人模型的对比实验，对比模型介绍如下：1）Lattice-LSTM 模型。由 ZHANG等24提出，使用网格状（Lattice）的 LSTM 来表征句子中的字典词（lexicon word），从而把潜在的词汇信息嵌入到基于字符的 LSTM-CRF中。2）LGN 模型。由 GUI等25提出，采用一种基于词汇信息的图神经网络来解决中文 NER 中的重叠歧义问题，使用图结构来打破 RNN 循环结构的限制，把中文 NER任务建模为图中节点分类任务。3）LR-CNN 模型。由 GUI 等26提出，使用rethinking机制把高层特征输入到 feedback la

47、yer中来调整字典词之间的权重，解决词汇冲突问题，并采用CNN来解决RNN循环结构无法并行运算的问题。4）TENER模型。由 YAN等27提出，使用带有位置感知的注意力机制来改进 Transformer模型，能够捕捉单词的位置信息和方向信息，建模词级别和字符级别的上下文信息。5）SoftLexicon 模型。由 MA 等28提出，把字典信息编码到向量表示中来规避复杂的模型结构，提升运算速度，提高了基于字典的结构与其他神经网络模型的兼容性。6）LEBERT模型。由 LIU等29提出，把词典适配器层（lexicon adapter layer）嵌入到 BERT 的Transformer层之间

48、来集成词典信息，能够把句子编码为字符-词汇（character-words）对序列，使得 LEBERT模型的输出同时具有字符特征和词典特征。7）NFLAT 模型。由 WU 等30提出，使用具有多头 Inter-attention 的 InterFormer 模块来构建非 Flat31模型的网格结构（non-flat-lattice），能够同时对不同长度的字符和词汇序列进行建模，并且减少一些冗余计算。8）BSNER模型。由 ZHU等32提出，将边界平滑的方法作为基于跨度（span）的 NER 模型正则化技术，把实体的概率从标注的跨度重新分配到实体周围的跨度，能够有效缓解神经网络模型容易遇到的过度

49、自信问题，带来更平滑的模型预测。不同模型在不同数据集下的实验对比结果如表 3 所示。由表 3 可知，本文模型在 Resume 数据集上的 F1 值为 97.20%，比目前效果较好的 BSNER、NFLAT、LEBERT 和 SoftLexicon 模型分别提升了0.54、1.62、1.12和 1.09个百分点，表明本文模型的实体识别效果更好。在Weibo数据集上本文模型的F1值为 74.28%，比 BSNER、LEBERT 和 SoftLexicon 模型分别提升了 1.62、3.53 和 3.78 个百分点，可以看出本文模型的 F1值在文本格式不规范的 Weibo数据集上提升较大

50、，表明本文模型能够从不同维度上充分抽取特征信息。在 MSRA 数据集上本文模型的 F1 值为 95.74%，比 NFLAT、LEBERT 和 SoftLexicon 模型分别提升了 1.19、0.04 和 0.32 个百分点，比 BSNER模型低 0.52个百分点。可以看出本文模型的性能高于基于词典的模型，空间特征的抽取能够进一步提升模型的性能。但由于数据量较大的 MSRA 数据集存在大量的边界信息，基于跨度的方法使用边界平滑技术能够有效捕捉边界信息，增强实体识别能力，而本文模型在边界信息的利用上不如 BSNER 模型，导致本文模型的 F1值相对更低。综上所述，本文模型在 3 个数据集上与对比

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于门控空洞卷积特征融合中文命名实体识别

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。