基于RoBERTa-wwm-BiLSTM-CRF的扶持政策文本实体识别研究.pdf
《基于RoBERTa-wwm-BiLSTM-CRF的扶持政策文本实体识别研究.pdf》由会员分享,可在线阅读,更多相关《基于RoBERTa-wwm-BiLSTM-CRF的扶持政策文本实体识别研究.pdf(10页珍藏版)》请在咨信网上搜索。
1、 基于R o B E R T a-w w m-B i L S TM-C R F的扶持政策文本实体识别研究*喻金平1,朱伟锋1,廖列法2(1.江西理工大学信息工程学院,江西 赣州 3 1 4 0 0 0;2.江西理工大学软件工程学院,江西 南昌 3 3 0 0 0 0)摘 要:扶持政策能够帮助企业获得政府在资金补助、税务减免等方面的支持,帮助企业更好地发展。针对扶持政策文本存在实体边界难以划分且传统词向量无法解决一词多义的问题,提出基于R o B E R T a-wwm-B i L S TM-C R F的扶持政策文本实体识别模型。该模型使用预训练语言模型R o B E R T a-wwm训练得到
2、动态词向量,能够表征词的多义性;利用B i L S TM网络进一步抽取扶持政策文本的上下文信息和语义特征;最后通过条件随机场得到最佳的预测序列。提出的模型在自建的5 5 1 2条语料组成的扶持政策数据集上的F1值达到9 1.7%,结果表明,该模型能够有效识别扶持政策文本的命名实体,从而提高企业筛选政策的效率。关键词:扶持政策文本;预训练语言模型;命名实体识别;动态词向量;企业扶持中图分类号:T P 3 9 1.1文献标志码:Ad o i:1 0.3 9 6 9/j.i s s n.1 0 0 7-1 3 0 X.2 0 2 3.0 8.0 1 9E n t i t y r e c o g n
3、i t i o n o f s u p p o r t p o l i c y t e x t b a s e d o n R o B E R T a-w w m-B i L S TM-C R FYU J i n-p i n g1,Z HU W e i-f e n g1,L I AO L i e-f a2(1.S c h o o l o f I n f o r m a t i o n E n g i n e e r i n g,J i a n g x i U n i v e r s i t y o f S c i e n c e a n d T e c h n o l o g y,G a n
4、z h o u 3 1 4 0 0 0;2.S c h o o l o f S o f t w a r e E n g i n e e r i n g,J i a n g x i U n i v e r s i t y o f S c i e n c e a n d T e c h n o l o g y,N a n c h a n g 3 3 0 0 0 0,C h i n a)A b s t r a c t:S u p p o r t p o l i c i e s c a n h e l p e n t e r p r i s e s o b t a i n g o v e r n m
5、e n t s u p p o r t i n f u n d i n g s u b s i d i e s,t a x r e d u c t i o n s,a n d o t h e r a s p e c t s,a n d h e l p e n t e r p r i s e s d e v e l o p b e t t e r.I n o r d e r t o a d d r e s s t h e p r o b l e m t h a t t h e e n t i t y b o u n d a r i e s i n s u p p o r t p o l i c
6、y t e x t s a r e d i f f i c u l t t o d e f i n e a n d t r a d i t i o n a l w o r d v e c t o r s c a n n o t s o l v e t h e p r o b l e m o f p o l y s e m y,a s u p p o r t p o l i c y t e x t s n a m e d e n t i t y r e c o g n i t i o n m o d e l b a s e d o n R o B E R T a-wwm-B i L S TM-C
7、 R F i s p r o p o s e d.F i r s t l y,t h e m o d e l u s e s t h e p r e-t r a i n e d l a n g u a g e m o d e l R o B E R T a-wwm t o o b t a i n d y n a m i c w o r d v e c t o r s,w h i c h c a n r e p r e s e n t t h e p o l y s e m y o f w o r d s.S e c o n d l y,t h e B i L S TM n e t w o r
8、k i s u s e d t o f u r t h e r e x t r a c t t h e c o n t e x t i n f o r m a t i o n a n d s e m a n t i c f e a t u r e s o f s u p p o r t p o l i c y t e x t s.F i n a l l y,t h e b e s t p r e d i c t i o n s e q u e n c e i s o b t a i n e d t h r o u g h t h e c o n d i t i o n a l r a n d
9、o m f i e l d.T h e p r o p o s e d m o d e l a c h i e v e s a n F 1 v a l u e o f 9 1.7%o n a s e l f-b u i l t s u p p o r t p o l i c y d a t a s e t c o m p o s e d o f 5 5 1 2 s e n t e n c e s.T h e r e s u l t s s h o w t h a t t h e m o d e l c a n e f f e c t i v e l y r e c o g n i z e t
10、h e n a m e d e n t i t i e s i n s u p p o r t p o l i c y t e x t s,t h e r e b y i m p r o v i n g t h e e f f i c i e n c y o f e n t e r p r i s e p o l i c y s c r e e n i n g.K e y w o r d s:s u p p o r t p o l i c y t e x t;p r e-t r a i n e d l a n g u a g e m o d e l;n a m e d e n t i t y
11、r e c o g n i t i o n;d y n a m i c w o r d v e c t o r;e n t e r p r i s e s u p p o r t*收稿日期:2 0 2 2-0 3-2 7;修回日期:2 0 2 2-0 5-0 5基金项目:国家自然科学基金(7 1 4 6 2 0 1 8,7 1 7 6 1 0 1 8)通信地址:3 1 4 0 0 0 江西省赣州市南康区江西理工大学信息工程学院A d d r e s s:S c h o o l o f I n f o r m a t i o n E n g i n e e r i n g,J i a n g x
12、 i U n i v e r s i t y o f S c i e n c e a n d T e c h n o l o g y,N a n k a n g D i s t r i c t,G a n z h o u 3 1 4 0 0 0,J i a n g-x i,P.R.C h i n a C N 4 3-1 2 5 8/T PI S S N 1 0 0 7-1 3 0 X 计算机工程与科学C o m p u t e r E n g i n e e r i n g&S c i e n c e第4 5卷第8期2 0 2 3年8月 V o l.4 5,N o.8,A u g.2 0 2
13、3 文章编号:1 0 0 7-1 3 0 X(2 0 2 3)0 8-1 4 9 8-1 01 引言命名实体识别作为自然语言处理领域的一个子任务,能够通过识别非结构化文本中预先定义的实体类型,实现非结构文本的结构化处理1 5。随着自然语言处理N L P(N a t u r a l L a n g u a g e P r o c e s-s i n g)技术的发展,命名实体识别任务在众多领域中得到应用并取得了显著的效果6,7。然而,政策文本中的实体通常由多个词语或字符构成,实体边界难以划分,因此,传统命名实体识别方法对政策文本实体识别的效果不佳。扶持政策是国家、省、市等各级政府部门为支持企业发展
14、所公开发布的税收减免、项目补贴、信贷支持和资质认定等一系列措施。企业可以通过申报扶持政策,获得来自政府在资金和税收等方面的支持,从而促进企业的发展。目前学者对于政策文本处理方法的研究主要分为2类:第1类为基于统计的方法。该类方法通过对大量数据进行统计分析,获取其中潜在的规律。张凯等人8把2 0 1 22 0 1 9年我国体育产业的政策文本作为研究对象,利用矩阵分析法和数理统计法等统计方法对政策文本进行量化分析,通过对共现主题词的提取,总结我国体育产业政策的特征和演变趋势。戴悦等人9基于类型维度和价值维度使用政策工具对三明市2 0 1 22 0 2 0年发布的1 5 1份医药卫生体制改革相关政策
15、文件进行统计分析,从而揭示现有政策工具在应用中的特点。基于统计的方法处理政策文本中异常数据的鲁棒性较差,使得实验结果与真实值的差异较大;同时,基于统计的方法对于单个政策文本的处理较为粗糙,容易丢失很多有用的信息。第2类为基于机器学习的方法。该类方法相较于基于统计的方法,加强了对单个政策文本的挖掘力度,能够获取更多的信息。胡吉明等人1 0以主题为核心,从外部属性和内容属性2个视角展开对政策文本的结构化解析,挖掘政策文本的语义,为政策内容解读提供新模式。张宝建等人1 1以1 9 9 62 0 1 7年国家科技创新政策作为研究对象,通过R w o r d s e g数据提取关键词并构建关系矩阵,然后
16、采用K-m e a n s聚类提取科技创新政策文本的主题,从而能够更好地把握政策的特点和侧重点。基于机器学习的方法本质上仍然停留在对于单个政策文本整体的挖掘上,没有深入到对政策文本内容的分析。目前,研究人员和学者对于政策文本处理方法的研究主要为基于统计的方法和基于机器学习的方法,这2类方法侧重于文本整体而忽视了文本中特征的重要性,因而无法精确地识别实体。然而,基于神经网络的方法可以捕捉特定任务的分布式特征,有效地避免人工定义特征的问题,同时可以从文本中获取更丰富的特征信息,能够更加精准地识别实体。因此,本文提出基于R o B E R T a-wwm-B i L S TM-C R F(R o b
17、 u s t l y o p t i m i z e d B i d i r e c t i o n a l E n c o d e r R e p r e s e n t a t i o n s f r o m T r a n s f o r m e r s a p-p r o a c h w h o l e w o r d m a s k i n g B i d i r e c t i o n a l L o n g S h o r t-T e r m M e m o r y C o n d i t i o n a l R a n d o m F i e l d)的扶 持 政 策 文 本
18、实 体 识 别 模 型。首 先,使 用R o B E R T a-wwm预训练语言模型训练得到动态词向量,解决了传统词向量无法解决的一词多义问题;然后,通过B i L S TM神经网络获取扶持政策文本的上下文信息;最后,利用C R F模型对结果进行约束,得到最佳预测序列。本文在自建的扶持政策文本命名实体数据集上进行实验,结果表明,该模型的F1值达到9 1.7%,能够精确地识别实体,提高企业申报政策的成功率和效率,降低企业申报政策的成本,同时也为后续政策大数据的建立打好基础。本文主要工作是:提出了一种基于R o B E R T a-wwm-B i L S TM-C R F的扶持政策文本实体识别模
19、型,相较于以往的政策文本处理方法,本文提出的模型能够获取更加深入的扶持政策文本中的信息。本文提出的模型有较好的应用前景,能够切实有效地提高企业选取扶持政策的效率,同时也为后续扶持政策大数据的建立打下了坚实的基础。2 命名实体识别方法研究目前,命名实体识别方法的研究可分为基于规则的方法、基于统计与机器学习的方法和基于神经网络的方法。基于规则的方法作为早期命名实体识别研究的主要方法,基于大量领域文本进行总结归纳,由领域专家根据语法和自身经验制定得到识别规则;基于规则的方法通过定义规则和特征,可以清晰地解释模型的预测结果,从而提高模型的可解释性和可信度。何炎祥等人1 2通过总结地理文本中的规律并自定
20、义规则,成功提升了地理实体信息识别的精度,解决了地理文本数据中存在的地理实体信息识别精度较低的问题。然而,该方法过度依赖人工制定规则以及领域专家的经验和知识量。因此,该9941喻金平等:基于R o B E R T a-w wm-B i L S TM-C R F的扶持政策文本实体识别研究方法定义的规则和模板的泛化能力较差。随着计算机技术的不断发展,基于统计和机器学习的方法逐渐取代基于规则的方法,其中支持向量机S VM(S u p p o r t V e c t o r M a c h i n e)、隐马尔科夫HMM(H i d d e n M a r k o v M o d e l)等方法得到了
21、广泛的应用。高冰涛等人1 3基于权值学习模型,构建基于迁移学习的隐马尔科夫模型B i o T r HMM(B i-o l o g i c a l s e q u e n c e d a t a a n d T r a i n e d H i d d e n M a r k-o v M o d e l)算法,相较于传统的隐马尔科夫模型算法具有更好的性能。与基于规则的方法相比,基于统计和机器学习的方法能够自动学习语法规律,在泛化性能方面有了较大的改善。然而,基于统计和机器学习的方法仍然需要人工制定大量的特征集合。随着神经网络模型的发展与衍化,以深度学习为代表的人工智能技术在自然语言处理N L P等
22、领域取得了大量的成果1 4。相较于传统机器学习算法,神经网络模型能够自动获取字符级、词汇级和句子级别的特征,降低人为对特征选择的主观性影响,提高实体识别效果。2 0 1 5年,H u a n g等人1 5提出了将B i L S TM与C R F相结合的创新思路,使用双向长短时记忆网络能够更好地处理输入前后的特征,通过条 件随机场学 习C R F(C o n d i t i o n a l R a n d o m F i e l d)标签之间转移规律,筛选出符合要求的结果。马建红等人1 6针对传统B i L S TM-C R F模型存在长距离文本信息弱化的问题,利用注意力机制能够通过对关键词分配
23、较高权重从而突出关键词的特点,引入注意力机制对模型进行改善,在对新能源汽车领域的术语抽取实验中,F1值达到了8 5.8 3%,相较于传统的B i L S TM-C R F模型有更高的识别精度。根据多头自注意力机制(M u l t i-h e a d e d S e l f-a t t e n t i o n)能够通过多头并行的自注意力机制从多层面得到更全面特征的优点,罗熹等人1 7将多头自注意力机制与传统B i L S TM-C R F模型相结合,从而改善传统B i L S TM-C R F模型对长文本的特征信息获取困难的问题,在对电子病历命名实体识别的实验中,F1值达到9 0.7 3%。张晗
24、等人1 8针对领域内标注数据缺乏和领域实体识别精度不高的问题,提出了一种新方法,该方法利用生成式对抗网络GAN(G e n e r a t i v e A d v e r s a r i a l N e t w o r k)可 以 生 成 数 据 的 特 点,将GAN与B i L S TM-A t t e n t i o n-C R F模型相结合,成功提高了领域实体识别的精度。近年来,随着B E R T1 9等预训练语言模型的出现,预训练模型的引入可以为目标任务提供更优的初始化参数,从而在任务上有更出色的泛化性能和更迅速的收敛速度。这些优点使得自然语言处理任务取得了显著的性能提升。目前,B E
25、 R T模型在命名实体识别领域中已得到了广泛的应用,王月等人2 0针对警情领域实体难以识别的问题,提出基于B E R T和B i L S TM-A t t e n t i o n-C R F相结合的警情领域实体识别模型,用B E R T预训练语言模型得到的动态词向量取代传统S k i p-g r a m训练得到的静态词向量,实验的F1值达到了9 1%,解决了中文数据集在使用字向量训练时面临的词汇边界划分问题。许力等人2 1针对生物医学领域使用静态词向量实体识别精度不高的问题,提出基于B E R T-B i L S TM-C R F的生物医学领域实体识别模型,并通过词性分析和组块分析特征来提升模
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 RoBERTa wwm BiLSTM CRF 扶持 政策 文本 实体 识别 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。