分销赏收藏举报申诉 / 10

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于RoBERTa-wwm-BiLSTM-CRF的扶持政策文本实体识别研究.pdf

基于RoBERTa-wwm-BiLSTM-CRF的扶持政策文本实体识别研究.pdf

上传人：自信****多点

文档编号：636641

上传时间：2024-01-21

格式：PDF

页数：10

大小：1.16MB

《基于RoBERTa-wwm-BiLSTM-CRF的扶持政策文本实体识别研究.pdf》由会员分享，可在线阅读，更多相关《基于RoBERTa-wwm-BiLSTM-CRF的扶持政策文本实体识别研究.pdf（10页珍藏版）》请在咨信网上搜索。

1、基于R o B E R T a-w w m-B i L S TM-C R F的扶持政策文本实体识别研究*喻金平1,朱伟锋1,廖列法2(1.江西理工大学信息工程学院,江西赣州 3 1 4 0 0 0;2.江西理工大学软件工程学院,江西南昌 3 3 0 0 0 0)摘要:扶持政策能够帮助企业获得政府在资金补助、税务减免等方面的支持,帮助企业更好地发展。针对扶持政策文本存在实体边界难以划分且传统词向量无法解决一词多义的问题,提出基于R o B E R T a-wwm-B i L S TM-C R F的扶持政策文本实体识别模型。该模型使用预训练语言模型R o B E R T a-wwm训练得到

2、动态词向量,能够表征词的多义性;利用B i L S TM网络进一步抽取扶持政策文本的上下文信息和语义特征;最后通过条件随机场得到最佳的预测序列。提出的模型在自建的5 5 1 2条语料组成的扶持政策数据集上的F1值达到9 1.7%,结果表明,该模型能够有效识别扶持政策文本的命名实体,从而提高企业筛选政策的效率。关键词:扶持政策文本;预训练语言模型;命名实体识别;动态词向量;企业扶持中图分类号:T P 3 9 1.1文献标志码:Ad o i:1 0.3 9 6 9/j.i s s n.1 0 0 7-1 3 0 X.2 0 2 3.0 8.0 1 9E n t i t y r e c o g n

3、i t i o n o f s u p p o r t p o l i c y t e x t b a s e d o n R o B E R T a-w w m-B i L S TM-C R FYU J i n-p i n g1,Z HU W e i-f e n g1,L I AO L i e-f a2(1.S c h o o l o f I n f o r m a t i o n E n g i n e e r i n g,J i a n g x i U n i v e r s i t y o f S c i e n c e a n d T e c h n o l o g y,G a n

4、z h o u 3 1 4 0 0 0;2.S c h o o l o f S o f t w a r e E n g i n e e r i n g,J i a n g x i U n i v e r s i t y o f S c i e n c e a n d T e c h n o l o g y,N a n c h a n g 3 3 0 0 0 0,C h i n a)A b s t r a c t:S u p p o r t p o l i c i e s c a n h e l p e n t e r p r i s e s o b t a i n g o v e r n m

5、e n t s u p p o r t i n f u n d i n g s u b s i d i e s,t a x r e d u c t i o n s,a n d o t h e r a s p e c t s,a n d h e l p e n t e r p r i s e s d e v e l o p b e t t e r.I n o r d e r t o a d d r e s s t h e p r o b l e m t h a t t h e e n t i t y b o u n d a r i e s i n s u p p o r t p o l i c

6、y t e x t s a r e d i f f i c u l t t o d e f i n e a n d t r a d i t i o n a l w o r d v e c t o r s c a n n o t s o l v e t h e p r o b l e m o f p o l y s e m y,a s u p p o r t p o l i c y t e x t s n a m e d e n t i t y r e c o g n i t i o n m o d e l b a s e d o n R o B E R T a-wwm-B i L S TM-C

7、 R F i s p r o p o s e d.F i r s t l y,t h e m o d e l u s e s t h e p r e-t r a i n e d l a n g u a g e m o d e l R o B E R T a-wwm t o o b t a i n d y n a m i c w o r d v e c t o r s,w h i c h c a n r e p r e s e n t t h e p o l y s e m y o f w o r d s.S e c o n d l y,t h e B i L S TM n e t w o r

8、k i s u s e d t o f u r t h e r e x t r a c t t h e c o n t e x t i n f o r m a t i o n a n d s e m a n t i c f e a t u r e s o f s u p p o r t p o l i c y t e x t s.F i n a l l y,t h e b e s t p r e d i c t i o n s e q u e n c e i s o b t a i n e d t h r o u g h t h e c o n d i t i o n a l r a n d

9、o m f i e l d.T h e p r o p o s e d m o d e l a c h i e v e s a n F 1 v a l u e o f 9 1.7%o n a s e l f-b u i l t s u p p o r t p o l i c y d a t a s e t c o m p o s e d o f 5 5 1 2 s e n t e n c e s.T h e r e s u l t s s h o w t h a t t h e m o d e l c a n e f f e c t i v e l y r e c o g n i z e t

10、h e n a m e d e n t i t i e s i n s u p p o r t p o l i c y t e x t s,t h e r e b y i m p r o v i n g t h e e f f i c i e n c y o f e n t e r p r i s e p o l i c y s c r e e n i n g.K e y w o r d s:s u p p o r t p o l i c y t e x t;p r e-t r a i n e d l a n g u a g e m o d e l;n a m e d e n t i t y

11、r e c o g n i t i o n;d y n a m i c w o r d v e c t o r;e n t e r p r i s e s u p p o r t*收稿日期:2 0 2 2-0 3-2 7;修回日期:2 0 2 2-0 5-0 5基金项目:国家自然科学基金(7 1 4 6 2 0 1 8,7 1 7 6 1 0 1 8)通信地址:3 1 4 0 0 0 江西省赣州市南康区江西理工大学信息工程学院A d d r e s s:S c h o o l o f I n f o r m a t i o n E n g i n e e r i n g,J i a n g x

12、 i U n i v e r s i t y o f S c i e n c e a n d T e c h n o l o g y,N a n k a n g D i s t r i c t,G a n z h o u 3 1 4 0 0 0,J i a n g-x i,P.R.C h i n a C N 4 3-1 2 5 8/T PI S S N 1 0 0 7-1 3 0 X 计算机工程与科学C o m p u t e r E n g i n e e r i n g&S c i e n c e第4 5卷第8期2 0 2 3年8月 V o l.4 5,N o.8,A u g.2 0 2

13、3 文章编号:1 0 0 7-1 3 0 X(2 0 2 3)0 8-1 4 9 8-1 01 引言命名实体识别作为自然语言处理领域的一个子任务,能够通过识别非结构化文本中预先定义的实体类型,实现非结构文本的结构化处理1 5。随着自然语言处理N L P(N a t u r a l L a n g u a g e P r o c e s-s i n g)技术的发展,命名实体识别任务在众多领域中得到应用并取得了显著的效果6,7。然而,政策文本中的实体通常由多个词语或字符构成,实体边界难以划分,因此,传统命名实体识别方法对政策文本实体识别的效果不佳。扶持政策是国家、省、市等各级政府部门为支持企业发展

14、所公开发布的税收减免、项目补贴、信贷支持和资质认定等一系列措施。企业可以通过申报扶持政策,获得来自政府在资金和税收等方面的支持,从而促进企业的发展。目前学者对于政策文本处理方法的研究主要分为2类:第1类为基于统计的方法。该类方法通过对大量数据进行统计分析,获取其中潜在的规律。张凯等人8把2 0 1 22 0 1 9年我国体育产业的政策文本作为研究对象,利用矩阵分析法和数理统计法等统计方法对政策文本进行量化分析,通过对共现主题词的提取,总结我国体育产业政策的特征和演变趋势。戴悦等人9基于类型维度和价值维度使用政策工具对三明市2 0 1 22 0 2 0年发布的1 5 1份医药卫生体制改革相关政策

15、文件进行统计分析,从而揭示现有政策工具在应用中的特点。基于统计的方法处理政策文本中异常数据的鲁棒性较差,使得实验结果与真实值的差异较大;同时,基于统计的方法对于单个政策文本的处理较为粗糙,容易丢失很多有用的信息。第2类为基于机器学习的方法。该类方法相较于基于统计的方法,加强了对单个政策文本的挖掘力度,能够获取更多的信息。胡吉明等人1 0以主题为核心,从外部属性和内容属性2个视角展开对政策文本的结构化解析,挖掘政策文本的语义,为政策内容解读提供新模式。张宝建等人1 1以1 9 9 62 0 1 7年国家科技创新政策作为研究对象,通过R w o r d s e g数据提取关键词并构建关系矩阵,然后

16、采用K-m e a n s聚类提取科技创新政策文本的主题,从而能够更好地把握政策的特点和侧重点。基于机器学习的方法本质上仍然停留在对于单个政策文本整体的挖掘上,没有深入到对政策文本内容的分析。目前,研究人员和学者对于政策文本处理方法的研究主要为基于统计的方法和基于机器学习的方法,这2类方法侧重于文本整体而忽视了文本中特征的重要性,因而无法精确地识别实体。然而,基于神经网络的方法可以捕捉特定任务的分布式特征,有效地避免人工定义特征的问题,同时可以从文本中获取更丰富的特征信息,能够更加精准地识别实体。因此,本文提出基于R o B E R T a-wwm-B i L S TM-C R F(R o b

17、 u s t l y o p t i m i z e d B i d i r e c t i o n a l E n c o d e r R e p r e s e n t a t i o n s f r o m T r a n s f o r m e r s a p-p r o a c h w h o l e w o r d m a s k i n g B i d i r e c t i o n a l L o n g S h o r t-T e r m M e m o r y C o n d i t i o n a l R a n d o m F i e l d)的扶持政策文本

18、实体识别模型。首先,使用R o B E R T a-wwm预训练语言模型训练得到动态词向量,解决了传统词向量无法解决的一词多义问题;然后,通过B i L S TM神经网络获取扶持政策文本的上下文信息;最后,利用C R F模型对结果进行约束,得到最佳预测序列。本文在自建的扶持政策文本命名实体数据集上进行实验,结果表明,该模型的F1值达到9 1.7%,能够精确地识别实体,提高企业申报政策的成功率和效率,降低企业申报政策的成本,同时也为后续政策大数据的建立打好基础。本文主要工作是:提出了一种基于R o B E R T a-wwm-B i L S TM-C R F的扶持政策文本实体识别模

19、型,相较于以往的政策文本处理方法,本文提出的模型能够获取更加深入的扶持政策文本中的信息。本文提出的模型有较好的应用前景,能够切实有效地提高企业选取扶持政策的效率,同时也为后续扶持政策大数据的建立打下了坚实的基础。2 命名实体识别方法研究目前,命名实体识别方法的研究可分为基于规则的方法、基于统计与机器学习的方法和基于神经网络的方法。基于规则的方法作为早期命名实体识别研究的主要方法,基于大量领域文本进行总结归纳,由领域专家根据语法和自身经验制定得到识别规则;基于规则的方法通过定义规则和特征,可以清晰地解释模型的预测结果,从而提高模型的可解释性和可信度。何炎祥等人1 2通过总结地理文本中的规律并自定

20、义规则,成功提升了地理实体信息识别的精度,解决了地理文本数据中存在的地理实体信息识别精度较低的问题。然而,该方法过度依赖人工制定规则以及领域专家的经验和知识量。因此,该9941喻金平等:基于R o B E R T a-w wm-B i L S TM-C R F的扶持政策文本实体识别研究方法定义的规则和模板的泛化能力较差。随着计算机技术的不断发展,基于统计和机器学习的方法逐渐取代基于规则的方法,其中支持向量机S VM(S u p p o r t V e c t o r M a c h i n e)、隐马尔科夫HMM(H i d d e n M a r k o v M o d e l)等方法得到了

21、广泛的应用。高冰涛等人1 3基于权值学习模型,构建基于迁移学习的隐马尔科夫模型B i o T r HMM(B i-o l o g i c a l s e q u e n c e d a t a a n d T r a i n e d H i d d e n M a r k-o v M o d e l)算法,相较于传统的隐马尔科夫模型算法具有更好的性能。与基于规则的方法相比,基于统计和机器学习的方法能够自动学习语法规律,在泛化性能方面有了较大的改善。然而,基于统计和机器学习的方法仍然需要人工制定大量的特征集合。随着神经网络模型的发展与衍化,以深度学习为代表的人工智能技术在自然语言处理N L P等

22、领域取得了大量的成果1 4。相较于传统机器学习算法,神经网络模型能够自动获取字符级、词汇级和句子级别的特征,降低人为对特征选择的主观性影响,提高实体识别效果。2 0 1 5年,H u a n g等人1 5提出了将B i L S TM与C R F相结合的创新思路,使用双向长短时记忆网络能够更好地处理输入前后的特征,通过条件随机场学习C R F(C o n d i t i o n a l R a n d o m F i e l d)标签之间转移规律,筛选出符合要求的结果。马建红等人1 6针对传统B i L S TM-C R F模型存在长距离文本信息弱化的问题,利用注意力机制能够通过对关键词分配

23、较高权重从而突出关键词的特点,引入注意力机制对模型进行改善,在对新能源汽车领域的术语抽取实验中,F1值达到了8 5.8 3%,相较于传统的B i L S TM-C R F模型有更高的识别精度。根据多头自注意力机制(M u l t i-h e a d e d S e l f-a t t e n t i o n)能够通过多头并行的自注意力机制从多层面得到更全面特征的优点,罗熹等人1 7将多头自注意力机制与传统B i L S TM-C R F模型相结合,从而改善传统B i L S TM-C R F模型对长文本的特征信息获取困难的问题,在对电子病历命名实体识别的实验中,F1值达到9 0.7 3%。张晗

24、等人1 8针对领域内标注数据缺乏和领域实体识别精度不高的问题,提出了一种新方法,该方法利用生成式对抗网络GAN(G e n e r a t i v e A d v e r s a r i a l N e t w o r k)可以生成数据的特点,将GAN与B i L S TM-A t t e n t i o n-C R F模型相结合,成功提高了领域实体识别的精度。近年来,随着B E R T1 9等预训练语言模型的出现,预训练模型的引入可以为目标任务提供更优的初始化参数,从而在任务上有更出色的泛化性能和更迅速的收敛速度。这些优点使得自然语言处理任务取得了显著的性能提升。目前,B E

25、 R T模型在命名实体识别领域中已得到了广泛的应用,王月等人2 0针对警情领域实体难以识别的问题,提出基于B E R T和B i L S TM-A t t e n t i o n-C R F相结合的警情领域实体识别模型,用B E R T预训练语言模型得到的动态词向量取代传统S k i p-g r a m训练得到的静态词向量,实验的F1值达到了9 1%,解决了中文数据集在使用字向量训练时面临的词汇边界划分问题。许力等人2 1针对生物医学领域使用静态词向量实体识别精度不高的问题,提出基于B E R T-B i L S TM-C R F的生物医学领域实体识别模型,并通过词性分析和组块分析特征来提升模

26、型精度,在B C 4 CHEMD(B i o C r e a t i v e I V CHEM i c a l D i s e a s e r e l a t i o n)等数据集上的平均F1值达到了8 9.4 5%,有效提升了生物医学命名实体识别的精度。刘新亮等人2 2针对生鲜蛋供应链知识图谱构建过程中供应链领域实体名称多样、特征信息提取不充分的问题,提出基于B E R T-C R F的供应链领域实体识别模型,该模型把字向量和位置向量作为输入,通过B E R T提取输入序列的全局特征,并通过C R F引入硬约束,从而构建适合生鲜蛋供应链领域的模型框架,在自建的生鲜蛋供应链数据集上的F1值达到

27、了9 1.0 1%,能够有效识别生鲜蛋供应链领域的实体。曾兰兰等人2 3针对裁判文书中多义词表示问题和实体边界难以识别的问题,提出了基于B E R T和联合学习的命名实体识别模型J L B-B i L S TM-C R F(J o i n t L e a r n i n g o f B i d i r e c t i o n a l L S TM a n d C o n d i t i o n a l R a n d o m F i e l d),该模型首先利用B E R T通过编码增强词向量的表征能力,然后使用B i L S TM建模长文本信息,同时利用联合学习将命名实体识别任务和中文分词任

28、务进行联合训练从而提升实体的边界识别率,该模型在自建的裁判文书数据集上F1值达到了9 4.6 5%,有效提高了裁判文书命名实体识别精度。预训练语言模型B E R T的出现有效提高了各个领域的文本中命名实体识别任务的识别精度。然而,B E R T预训练语言模型依赖随机掩码和t o k e n预测,在数据预处理期间执行一次掩码,得到一个静态掩码,导致该模型对于不同掩码策略的适应性不强;而R o B E R T a-wwm2 4作为基于B E R T改进的预训练语言模型,使用动态掩码,在大量数据不断输入的过程中,模型会适应不同的掩码策略,从而学习不同的语言表征;因此R o B E R T a-

29、wwm模型逐渐得0051C o m p u t e r E n g i n e e r i n g&S c i e n c e 计算机工程与科学 2 0 2 3,4 5(8)到广泛的应用。张芳丛等人2 5针对中文电子病历实体识别中存在的一词多义和识别不全的问题,提出基于中文电子病历的实体识别模型,该模型在C C K S(C h i n a C o n f e r e n c e o n K n o w l e d g e g r a p h a n d S e m a n t i c c o m p u t i n g)数据集上的F1值达到了8 9.0 8%,有效解决了中文电子病

30、历命名实体识别中存在的一词多义和词识别不全的问题。郭瑞等人2 6针对中文医疗文本实体边界难以识别的问题,提出基于对抗训练的中文医疗命名实体识别模型。首先利用R o B E R T a-wwm-e x t-l a r g e预训练模型得到输入文本的初始向量表示,然后通过对抗训练生成对抗样本,最后利用B i L S TM-C R F得到最佳预测序列,在R e s u m e数据集上的F1值达到了9 7.1 4%,有效提高了对中文医疗文本的实体识别精度。综上所述,基于神经网络的方法能够获取文本中丰富的特征信息,提高实体识别精度。因此,针对扶持政策文本中存在的实体边界难以划分问题且传统词向量难以解

31、决的一词多义问题,本文使用基于R o B E R T a-wwm-B i L S TM-C R F的神经网络模型来高效地识别扶持政策文本中的实体。3 模型结构图1所示为本文提出的扶持政策文本实体识别模型框架。首先,利用R o B E R T a-wwm预训练语言模型的T r a n s f o r m e r编码层对输入进行编码,获得动态词向量Xi;其次,通过将动态词向量输入B i L S TM层进行双向语义编码,可以有效地解决长距离依赖问题,并获取文本的上下文特征信息Fi和Bi(i=1,2,6)。这种方法可以加强对文本中深层次的语义信息的理解和提取,从而提高模型在自然语言处理任

32、务中的性能。然后,使用s o f t m a x计算每个输入向量的实体类别标签的概率值Ci;最后,在标注序列中,采用条件随机场C R F模型可以更好地建模标签之间的序列关系,从而提高序列标注的准确性。该方法可以根据计算得到的众多标签概率值,选出最优的标签序列,并将其作为模型的输出结果。通过引入C R F模型,可以更好地考虑标签之间的依赖关系和上下文信息,从而显著提高序列标注的精度和鲁棒性。3.1 R o B E R T a-w w m预训练语言模型B E R T模型是基于双向T r a n s f o r m e r的编码F i g u r e 1 O v e r a l l s

33、t r u c t u r e o f t h e m o d e l图1 模型总体结构图器(E n c o d e r),该模型可以通过预训练方法获取词汇和句子级别的特征信息,其中,预训练方法由LM掩码(L a n g u a g e M o d e l M a s k i n g)和语句预测(N e x t S e n t e n c e P r e d i c t i o n)2个任务构成。LM掩码任务能够使得B E R T模型更多地依赖上下文信息来进行词汇预测,同时赋予B E R T模型一定的纠错能力;而语句预测任务则用于获取上下文之间的联系,B E R T模型将语句预测任务和LM掩码

34、任务进行联合训练,使得B E R T模型输出的词向量能够表示输入文本的整体信息。B E R T模型的整体架构如图2所示。F i g u r e 2 B E R T m o d e l d i a g r a m图2 B E R T模型图B E R T模型将文本转化为字符级别的嵌入向量Em b e d d i n g(Em b e d d i n g用E表示),其中Em-b e d d i n g由T o k e n Em b e d d i n g、S e g m e n t Em b e d-d i n g和P o s i t i o n Em b e d d i n g组合得到。E1,E

35、2,EN作为B E R T模型的输入,在经由T r a n s-f o r m e r层构建的双向编码器译码后,能够读取文1051喻金平等:基于R o B E R T a-w wm-B i L S TM-C R F的扶持政策文本实体识别研究本的上下文信息,最后输出动态词向量Tj。R o B E R T a-wwm是基于B E R T改进的模型,该模型的框架与B E R T一致,在众多数据集上的准确率相较于B E R T提高了5%2 0%。R o B E R T a-wwm模型在以下几个方面有所改进:F i g u r e 3 S t r u c t u r e o f t r a

36、 n s f o r m e r 图3 T r a n s f o r m e r结构图(1)取消N S P(N e x t S e n t e n c e P r e d i c t i o n)任务。N S P任务即判断输入的2个句子是否连续,其原样本集分别由5 0%同一文本中的上下句作为正例,5 0%不同文本中的2个句子作为负例。R o B E R T a对N S P任务进行了4个方面的改进尝试,如表1所示。从结果来看,D O C-S E NT E N C E S的结果略好于S E GME NT-P A I R、S E NT E N C E-P A I R和

37、F U L L-S E NT E N C E S的,但D O C-S E NT E N C E S需要动态调整B a t c h_s i z e,故最终R o B E R T a-wwm采用F U L L-S E NT E N C E S预训练任务。(2)B E R T模型在数据预处理阶段会执行一次掩码,即随机将一定数量的t o k e n进行m a s k,从而得到一个静态掩码;而R o B E R T a-wwm则使用动态掩码,即每向模型输入一个序列,就会生成一个新的掩码模式,在这样的训练过程中,模型会逐渐适应不同的掩码策略,学习到不同的语言表征,有利于提高对扶持政策文本的实体识别效果

38、。(3)B E R T使用字符级别的B P E(B y t e-P a i r E n c o d i n g)词汇,为字符级和词级别表征的混合,大小为3 0 K B,通过启发式分词规则对输入进行预处理后学习得到;而R o B E R T a-wwm使用更大b y t e级别的B P E词汇表进行训练,该词汇表中包含了5 0 K B的s u b w o r d单元,且没有对输入作任何额外的预处理或分词。T a b l e 1 I m p r o v e m e n t o f N S P t a s k表1 对N S P任务的改进M o d e lS Q u A D 1.1/2.0

39、 MN L I-mS S T-2 R A C EO u r r e i m p l e m e n t a t i o n(w i t h N S P l o s s):S E GME N T-P A I R9 0.4/7 8.78 4.09 2.96 4.2S E N T E N C E-P A I R8 8.7/7 6.28 2.99 2.16 3.0O u r r e i m p l e m e n t a t i o n(w i t h o u t N S P l o s s):F U L L-S E N T E N C E S9 0.4/7 9.18 4.79 2.56 4.8D O

40、 C-S E N T E N C E S9 0.6/7 9.78 4.79 2.76 5.6B E R T B A S E8 8.5/7 6.38 4.39 2.86 4.3X L N e t B A S E(K=7)-/8 1.38 5.89 2.76 6.1X L N e t B A S E(K=6)-/8 1.08 5.69 3.46 6.73.2 T r a n s f o r m e r模型结构R o B E R T a-wwm预训练语言模型是基于T r a n s f o r m e r模型构成的。目前,T r a n s f o r m e r模型已广泛应用于N

41、 L P领域,如机器翻译(M a c h i n e T r a n s l a t i o n)、问答系统(Q u e s t i o n A n s w e r i n g)和文本摘要(T e x t S u mm a r i z a t i o n)等方向。T r a n s-f o r m e r模型结构如图3所示。2051C o m p u t e r E n g i n e e r i n g&S c i e n c e 计算机工程与科学 2 0 2 3,4 5(8)T r a n s f o r m e r模型主要分为编码层(E n c o d e r B l o c k)、解码

42、层(D e c o d e r B l o c k)和输出层(O u t-p u t)3个部分。(1)编码层部分。编码层由多头注意力机制(M u l t i-H e a d A t t e n t i o n)、全连接神经网络F C NN(F u l l y C o n n e c t e d N e u r a l N e t w o r k)、编码输入和A d d&N o r m构成。其中编码层的编码输入由词向量(I n p u t Em b e d d i n g)和位置向量(P o s i t i o n a l E n c o d i n g)构成。需要注意的是多头注意力机制

43、的输出结果要经过A d d&N o r m步骤后,才能作为全连接神经网络的输入。其中A d d是残差连接,能够有效防止深度神经网络训练中退化问题的发生;而N o r m则是对输入数据进行归一化处理,从而能够加快T r a n s f o r m e r模型的训练速度和提高T r a n s f o r m e r模型训练的稳定性。全连接层的公式如式(1)所示:F CNN(x)=m a x(0,x W1+b1)W2+b2(1)其中,x是多头注意力机制的输出。全连接层是一个2层的神经网络,这2层网络的目的是将输入x映射到高维,然后通过非线性函数R e L U进行筛选,在筛选后降到原有维度。W1和W

44、2是神经网络中的权重参数,而b1和b2则是偏置。(2)解码层部分。解码层由掩码多头注意力机制(M a s k e d M u l t i-H e a d A t t e n t i o n)、多头注意力机制(M u l t i-H e a d A t t e n t i o n)、全连接神经网络、解码输入和A d d&N o r m构成。掩码多头注意力机制是在多头注意力机制的基础上添加了掩码表示,可以对某些值进行掩盖,使得这些被掩盖的值在计算过程中不会对模型的参数更新产生影响。掩码多头注意力机制与多头注意力机制的计算原理相同,但是添加了掩码表示,从而使得模型可以更加灵活地处理输入序列。(3)输

45、出层部分。解码层的输出结果首先经过一次线性变换,最后通过s o f t m a x得到输出的概率分布(O u t p u t P r o b a b i l i t i e s)。3.3 B i L S TM解析循环神经网络R NN(R e c u r r e n t N e u r a l N e t-w o r k)能够处理序列数据,R NN的出现解决了传统神经网络模型无法解决的上下文之间联系的问题。但是,R NN存在梯度消失或梯度爆炸的问题。长短时记忆L S TM网络是基于循环神经网络R NN的一种改良模型,L S TM模型引入了门结构和记忆细胞来解决上述问题。L

46、 S TM模型中通过输入门(I n p u t G a t e)、遗忘门(F o r g e t G a t e)和输出门(O u t p u t G a t e)3种门结构来保护和控制信息状态;其中,输入门用于更新细胞状态,遗忘门的作用是决定应丢弃或保留哪些信息,输出门的作用是确定下一个隐藏状态的值。L S TM的结构如图4所示。F i g u r e 4 S t r u c t u r e o f L S TM m o d e l图4 L S TM模型结构图L S TM模型是由t时刻的输入xt、细胞状态Ct、临时细胞状态Ct、隐层状态ht、遗忘门ft和输出门Ot组成。遗忘门的输入为前一个隐

47、藏状态的扶持政策文本数据的输出ht-1和当前时刻输入的扶持政策文本信息,输出值在01,其中0表示完全遗忘信息,1表示保留所有信息。计算公式如式(2)所示:ft=(Wf*ht-1,xt+bf)(2)其中,ft表示遗忘门的输出,Wf表示权重参数,bf表示偏置参数,ht-1表示的是前一时刻的隐层输出,xt表示的是当前时刻的输入。记忆门和更新细胞状态决定要更新哪些信息,其输入为当前时刻的扶持政策文本信息和前一个隐藏状态的扶持政策文本数据的输出ht-1,传递到s i g m o i d函数中,得到需要更新的值it。同时,将前一层隐藏状态的信息和当前输入的信息传递到t a n h函数中,创建一个新的候选值

48、向量,将候选值向量加入神经元状态中,并对神经元状态进行更新,最后得到当前时刻的神经元状态Ct,计算公式如式(3)式(5)所示:it=(Wi*ht-1,xt+bi(3)Ct=t a n h(Wc*ht-1,xt+bc)(4)Ct=ft*Ct-1+it*Ct(5)其中,Wi表示神经网络中的权重参数,bi表示偏置参数,ht-1表示前一时刻的隐层输出,xt表示当前时刻的输入,Wc和bc表示权重和偏置参数,Ct-1和Ct表示前一时刻的细胞状态和当前时刻的候补细胞状态,而Ct表示当前时刻更新后的细胞3051喻金平等:基于R o B E R T a-w wm-B i L S TM-C R F的扶持政策文本实

49、体识别研究状态。最后是计算输出门和当前时刻的细胞状态。首先将前一个隐藏状态和当前输入传递到s i g-m o i d函数中,决定输出神经元状态的部分Ot,然后将新得到的细胞状态传递给t a n h函数,最后将t a n h的输出与s i g m o i d的输出相乘,得到最终输出的部分ht。计算公式如式(6)和式(7)所示:Ot=(Wo*ht-1,xt+bo)(6)ht=Ot*t a n h(Ct)(7)其中,Wo表示神经网络中的权重参数,bo表示偏置参数,Ot表示t时刻输出门的输出结果,图4中zt表示对xt的预测输出结果。通过上述计算,最终可以得到长度与序列长度相同的隐层状态序列h1,h2,

50、hn。B i L S TM模型是由前向L S TM和后向L S TM构成的,可以获得上下文信息,因此本文利用B i-L S TM模型提取扶持政策文本中命名实体识别的特征。3.4 C R F层模型结构条件随机场是定义在时序数据上的对数线性模型,具有表达长距离依赖性和交叠性特征的能力,能够较好地解决标注偏置等问题,而B i L S TM模型能够获得上下文信息,但是缺少对标签间依赖关系的考虑。因此,在基于B i L S TM模型完成扶持政策文本的特征学习后,需要将隐藏状态序列h1,h2,hn 作为C R F模型的输入,最终得到最佳标记预测序列(y1,y2,yn)。4 实验与结果分析4.1 实验流程扶

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 RoBERTa wwm BiLSTM CRF 扶持政策文本实体识别研究

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。