结合依存图卷积与文本片段搜索的方面情感三元组抽取_徐康.pdf
《结合依存图卷积与文本片段搜索的方面情感三元组抽取_徐康.pdf》由会员分享,可在线阅读,更多相关《结合依存图卷积与文本片段搜索的方面情感三元组抽取_徐康.pdf(7页珍藏版)》请在咨信网上搜索。
1、第 49卷 第 4期2023年 4月Computer Engineering 计算机工程结合依存图卷积与文本片段搜索的方面情感三元组抽取徐康,李霏,姬东鸿(武汉大学 国家网络安全学院 空天信息安全与可信计算教育部重点实验室,武汉 430040)摘要:现有基于序列标注或文本生成的三元组抽取模型通常未考虑完整文本片段级别的交互,且忽略了句法知识的应用。为解决上述问题,提出一种基于依存图卷积与文本片段搜索的深度学习模型来联合抽取方面情感三元组。通过预训练语言模型 BERT编码层学习句子中每个单词的上下文表达,同时利用图卷积神经网络学习句子单词之间的依存关系和句法标签信息,以捕获远距离的方面词与观点词
2、之间的语义关联关系,并采用文本片段搜索构造候选方面词与观点词及其特征表示,最终使用多个分类器同时进行方面词与观点词抽取及情感极性判断。在ASTE-Data-V2数据集上的实验结果表明,该模型在 14res、14lap、15res和 16res子集上的 F1值相比于 JET模型提升了 10.61、10.54、4.91和 8.48个百分点,具有较高的方面情感三元组抽取效率。关键词:方面情感三元组抽取;图卷积神经网络;深度学习;依存句法分析;文本片段搜索开放科学(资源服务)标志码(OSID):中文引用格式:徐康,李霏,姬东鸿.结合依存图卷积与文本片段搜索的方面情感三元组抽取 J.计算机工程,2023
3、,49(4):61-67.英文引用格式:XU K,LI F,JI D H.Aspect sentiment triple extraction by combining dependency graph convolution and text span search J.Computer Engineering,2023,49(4):61-67.Aspect Sentiment Triple Extraction by Combining Dependency Graph Convolution and Text Span SearchXU Kang,LI Fei,JI Donghong(K
4、ey Laboratory of Aerospace Information Security and Trusted Computing,Ministry of Education,School of Cyber Science and Engineering,Wuhan University,Wuhan 430040,China)【Abstract】Existing studies on the extraction of aspect sentiment triples mostly employ methods based on sequence tagging or text gen
5、eration.These methods consider neither the interactions at the span pair level nor the application of syntactic knowledge.To address these problems,this study proposes a deep learning model based on dependency graph convolution and text span search to jointly extract aspect sentiment triples.The mod
6、el first learns the contextual representation of each word in a sentence through the Bidirectional Encoder Representations from Transformers(BERT)coding layer.It then utilizes a graph convolutional neural network to learn the dependencies and syntactic label information in words to capture the seman
7、tic associations between distant aspect terms and opinion terms.It also uses text span search to construct candidate aspect and opinion terms and their feature representations.Finally,the model extracts aspect and opinion terms and sentiment polarity simultaneously using multiple classifiers.Experim
8、ents on the Aspect Sentiment Triple Extraction(ASTE)-Data-V2 dataset show that the model improves F1 scores by 10.61,10.54,4.91,and 8.48 percentage points on the 14res,14lap,15res,and 16res subsets,respectively,as compared with the JET model,thus demonstrating its effectiveness.【Key words】Aspect Sen
9、timent Triple Extraction(ASTE);graph convolution neural network;deep learning;dependency syntactic parsing;text span searchDOI:10.19678/j.issn.1000-3428.00645580概述 方面级情感分析(Aspect-Based Sentiment Analysis,ABSA)是一种细粒度的情感分析技术1,目的是识别方面术语、对应的情感极性和意见术语2,广泛应用于商品评论、公众观点分析等任务。国际语义评基 金 项 目:国 家 自 然 科 学 基 金(621
10、76187);国 家 重 点 研 发 计 划(2017YFC1200500);教 育 部 哲 学 社 会 科 学 研 究 重 大 课 题 攻 关 项 目(18JZD015);教育部人文社科青年基金(22YJCZH064);湖北省自然科学基金(2021CFB385)。作者简介:徐康(1996),男,硕士研究生,主研方向为自然语言处理;李霏,副研究员、博士;姬东鸿,教授、博士。收稿日期:2022-04-26 修回日期:2022-06-08 Email:人工智能与模式识别文章编号:1000-3428(2023)04-0061-07 文献标志码:A 中图分类号:TP3912023年 4月 15日Com
11、puter Engineering 计算机工程测大会 SemEval从 2014 年起连续 3 年将 ABSA 任务作为其子任务并提供了一系列人工标注的基准数据集3-5。但由于现有方面级情感分析研究主要关注方面词抽取6-8、基于方面词的情感极性分类9-11、观点词抽取12-13、方面词和观点词的共同抽取等子任务14-16,然而针对这些子任务均仅解决了细粒度情感分析任务的某一方面,并没有为其提供完整的解决 方 案,因 此 文 献1提 出 方 面 情 感 三 元 组 抽 取(Aspect Sentiment Triplet Extraction,ASTE)任 务。该 任 务 的 目 标 是 从 用
12、 户 评 论 中 抽 取 形 如(What,How,Why)这样的三元组集合,其中:What代表评论的目标,即方面词;How 代表用户对于评论目标表达的情感极性;Why代表体现相应情感极性的原因,即观点词。例如,从用户评论“the food is not comforting,not appetizing and uncooked.”中,可以抽取(food,negative,not comforting)、(food,negative,not appetizing)、(food,negative,uncooked)三元组集合来刻画用户对于“food”品质的综合评价。此外,文献 1 建立两阶段框
13、架来处理该任务:在第一阶段中,通过序列标注的方法从输入句子中分别抽取带有情感极性的方面词和观点词;在第二阶段中,通过分类器来选择合适的方面词和观点词进行组合。然而,该方法存在两方面的问题:一方面,在第一阶段中将方面词与情感极性相结合的标注方法会导致模型训练和优化过程过于复杂;另一方面,这种基于流水线方式的两阶段方法容易受到错误传播的影响。近年来,学者们陆续提出了基于序列标注17、基于文本生成18-19、基于阅读理解20-21、基于文本片段22等端到端ASTE方法,然而在这些方法中:基于序列标注的方法仅考虑了单个单词的信息而忽略了情感词整体的信息,因此不能很好地处理由多个单词组成的情感词;基于文
14、本生成和阅读理解的方法需要对原始任务进行一定程度的改造,并为其设计相应的问题模板,增加了任务的复杂性;基于文本片段的方法22虽然在预测情感极性时考虑了情感词的完整文本片段的信息,但忽略了依存句法分析在ASTE任务中的重要作用。文献 9-11 利用图神经网络来学习与特定方面词相关的上下文,进而判断特定方面词的情感极性。然而,这些方法并没有考虑到依存句法标签的类别信息,同时也无法以端到端的方式从用户评论中抽取情感三元组。为解决上述问题,本文提出一种基于依存句法知识与文本片段搜索的端到端方面情感三元组抽取模型 ESYNM。该模型利用图卷积神经网络来学习单词之间的依存句法关系,建立方面词与观点词之间的
15、远距离联系,基于依存句法标签的类别信息来判断观点词所表达的情感极性,同时利用文本片段搜索联合进行方面词、观点词预测和情感极性判断以提高计算效率,并在 ASTE-Data-V2数据集上与多种基线模型进行实验对比。1相关工作 在方面级的情感分析任务中,现有研究多数仅关 注 细 粒 度 情 感 分 析 任 务 的 某 一 个 子 任 务。文献 9-11 通过图卷积神经网络来学习依存句法树,然后利用单词之间的依存关系找到与特定方面词相关的句法上下文,进而判断情感极性。文献 23 设计一个双层交互式图卷积网络来融合层次句法图和词汇图。文献 24 提出双图卷积网络 DualGCN 来同时学习句法结构与语义
16、相关性。文献 25 通过图注意力网络来融合句法知识,从而加强方面词之间的交互。然而,单独处理细粒度情感分析任务的某一个子任务面无法进行整体的情感分析。因此,学者们开始考虑多个子任务的联合学习,包括方面词与观点词的共同抽取、方面词及其情感极性抽取26-27等。文献 14使用基于依存树的递归神经网络来捕获方面词与观点词之间的双向传播关系。文献 16 建立一个融入规则的方面词和观点词共同抽取模型。文献 26 采用多目的的标注机制来同时抽取方面词和判定情感极性。文献 1 提出方面情感三元组抽取任务,该任务旨在同时从句子中抽取方面词、观点词,以及与每个方面词相关的情感极性,基于 SemEval 2014
17、、2015和2016相关测评任务的数据集构造基准数据集 ASTE-Data-V1。然而,文献 17 发现 ASTE-Data-V1 数据集遗漏了一个观点词对应多个方面词的情况,在ASTE-Data-V1 数据集的基础上进行修正,发布了ASTE-Data-V2 数据集。在 ASTE 任务中,早期工作主要采用流水线方式,例如 CMLA+1、RINANTE+1和 TwoStage1。这类方法的基本思想是使用统一的标签来抽取方面词和情感极性,同时基于 BIO 标注机制抽取观点词,然后通过分类器将带有情感极性的方面词与观点词配对。然而,这种将情感极性与方面词统一起来的多目的标注方案可能会导致模型特征学习
18、和训练过程过于复杂,同时还存在错误传播问题。近年来,学者们提出了一些端到端方式的ASTE 方法。文献 17 提出一个端到端的模型 JET,该模型设计了一种基于位置感知的标注机制来考虑情感三元组各元素之间的交互信息,以端到端的方式直接输出情感三元组。然而,对于包含多个单词的方面词和观点词,JET 模型并没有将其视为整体,而是逐个处理其中的每个单词,因此忽视了方面词和观点词的整体信息。为解决 JET 模型存在的问题,文献 22 提出基于文本片段的 ASTE 方法来考虑方面词与观点词在完整文本片段之间的交互。除了上述方法之外,部分学者也开始尝试重新定义方面级情感分析任务,然后利用其他领域的方法来解决
19、该问题。文献 18-19 将方面级情感分析的多个子问题重新定义为文本生成问题,然后使用预训练的文本生成模型来统一处理。文献 20 将方面情感三元组抽取任务转换为多轮机器阅读理解任务,通过 3 个轮次的问答从输入句子中得到相应的情感三元组。文献 21 将方面情感三元组任务转换为两个阅读理解问题,其中,一个负责完成方面词抽取,另一个负责完成情感分类和观点词抽取。然而,这些方法需要对原始任务进行重新定义,并依赖人工设计相应模板。在上述工作中,基于文本片段搜索的 ASTE 方62第 49卷 第 4期徐康,李霏,姬东鸿:结合依存图卷积与文本片段搜索的方面情感三元组抽取法22在基准数据集上表现最为优越,但
20、忽略了句法知识在 ASTE 任务中的贡献。方面情感三元组抽取示 例 如 图 1 所 示。在 依 存 句 法 树 中,通 过 单 词“comforting”与“food”之间的“nsubj”依存弧可以找到方面词“food”与观点词“not comforting”。同时,基 于 单 词“not comforting”与“appetizing”之 间 的“dep”依 存 弧 以 及“appetizing”与“uncooked”的“conj”依存弧,可以进一步建立“food”与距离较远的观点词“appetizing”、“uncooked”之间的联系,从而生成正确的三元组集合。此外,在依存句法树中,还可
21、以观察到“not”与“comforting”、“not”与“appetizing”之间均存在“neg”依存弧,这一信息有助于帮助模型判断观点词“not comforting”和“not appetizing”所表达出来的负面情感极性。基于上述研究,本文通过图卷积神经网络来学习单词之间的依存句法知识,进而帮助发现远距离的方面词、观点词及其情感极性。2基于依存图卷积与文本片段搜索的方面情感三元组抽取模型 本文提出的基于依存图卷积和文本片段搜索的ESYNM 模型主要包含预训练语言模型 BERT 编码层、依存图卷积层、文本片段搜索层、方面词和观点词抽取模块和情感极性分类模块 5个部分,如图 2所示,其
22、中 sk代表第 k个文本片段。2.1BERT编码层使用BERT对输入的句子进行编码。假设输入句子 X中包含 N个单词,首先在句子 X前后分别添加特殊符号 CLS 和 SEP,以满足BERT模型的输入要求,然后将其送入BERT模型学习输入句子中每个单词的上下文表达,最后将 BERT模型最后一层的输出作为句子 X的深度向量表达,得到句子编码 H:H=BERT(CLSXSEP)(1)其中:H=h0,h1,hN+1,h0代表特殊符号 CLS 的编码,可将其作为输入句子的全局上下文表达,用于后续任务。2.2依存图卷积层经过 BERT 模型编码得到输入句子中每个单词的上下文向量表达后,基于单词之间的依存句
23、法关系来构建依存句法图网络,然后使用图卷积神经网络来学习单词之间的依存句法知识。对于依存句法树,将其建模为边带有标签的有向图G=(V,E),其中,V代表图中节点的集合,E代表图中边的集合。ei,j=1(0)代表节点i与j之间存在(不存在)依存关系。图卷积神经网络允许信息随着图中的边不断向远处传播,通过增加图卷积的层数可以帮助模型解决方面词和观点词距离较远的问题。依存图卷积层中第 l层节点的更新方式如式(2)所示:hl+1i=ReLU(j=1Ni,j(Wl hlj+bl)(2)其中:hlj代表句子中的第 i个单词在第 l层图卷积网络中的表达;Wl和bl分别代表第 l 层图卷积网络的权重矩阵和偏置
24、向量;i,j代表邻接强度分布。i,j计算如式(3)所示:i,j=eli,j exp()hliT hjt=1Neli,t exp()hliT ht(3)2.3文本片段搜索层经过依存图卷积层学习句子中单词之间的依存句法关联之后,通过枚举所有可能的文本片段来生成候选方面词和观点词集合。对于文本片段si=xstart()i,xend()i,它既可以是单个单词,又可以是由多个单词组成的短语,其中start(i)和end(i)分别代表文本片段si在输入句子中的起始和终止索引。假设文本片段的最大长度为ls,那么起止索引需满足条件:1start(i)end(i)和end(i)-start(i)ls。例如,当l
25、s设置为 3 时,给定句子“the food was delicious”,通过枚举可以得到“food”、“delicious”、“the food”、“food was”,以及“food was delicious”等候选文本片段。在枚举候选文本片段过程中,会得到各种不同长度的文本片段。在用户评论中,方面词、观点词通常以较短的文本片段长度出现。因此,通过考虑文本片段的长度信息可以帮助模型排除错误的文本片段,进而提高抽取准确率。因此,在拼接文本片段的首尾单词向量表达和最大池化操作之后,额外添加一个文本长度特征向量li,最终文本片段si的向量表达pi如式(4)图 1方面情感三元组抽取示例Fig.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 结合 依存 图卷 文本 片段 搜索 方面 情感 三元 抽取 徐康
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。