基于相对词距权重的方面情感分类模型.pdf
《基于相对词距权重的方面情感分类模型.pdf》由会员分享,可在线阅读,更多相关《基于相对词距权重的方面情感分类模型.pdf(4页珍藏版)》请在咨信网上搜索。
1、2023 年第 7 期104计算机应用信息技术与信息化基于相对词距权重的方面情感分类模型徐 明1 仇丽青1 张 晶2XU Ming Qiu Liqing Zhang Jing 摘要 针对方面情感分类模型易受与目标方面无关的描述性词汇干扰的问题,本文提出了相对词距权重算法(relative word distance weight,RWDW)。首先,RWDW 将每个词语与方面词之间的相对距离转化为注意力权重,然后刻画每个词汇对于方面词的关键程度,使模型优先关注靠近方面词的上下文信息;最后,本研究将表征词间距离的权重关系作为先验知识,成功地将其融入了 Aspect-LSTM 和 IAN 模型之中,
2、设计了两种基于相对词距权重的方面情感分类模型:RWDW-LSTM 和 RWDW-IAN。实验结果表明,使用 RWDW 算法优化后的 RWDW-LSTM 和 RWDW-IAN 模型在准确率和鲁棒性方面均实现了显著提升。关键词 情感分析;先验注意力机制;词相对距离;深度学习 doi:10.3969/j.issn.1672-9528.2023.07.0261.山东科技大学 山东青岛 2665902.青岛尤尼科信息科技有限公司 山东青岛 266000基金项目 山东省社会科学规划数字山东研究专项(项目号:21CSDJ48)0 引言情感分析的主要任务是提取分析和归纳人们生活中带有情感色彩的主观文本。根据处
3、理的文本粗细度,情感分析可以分为文本级、句子级和方面级三个层次1。其中,文本级和句子级的文本或句子中通常只包含一种情感,情感分析相对粗粒度。传统的情感分析通常只分析个人观点,即个人对某个人或事的看法是积极、中立还是消极的。新型社交媒体的出现使得人们可以把互联网当做发表观点和交流意见的大数据平台,当下的情感分析任务正是分析这种大规模的线上非要对语言表达过程中的语法规则、方面抽取以及情感捕捉等问题进行更深入的研究,因此方面级情感分析是一项更具挑战性的任务。作为情感分析领域中重要的研究方向之一2,方面情感分析旨在识别特定文本的特定方面的情感极性。例如,在“这个餐厅的食物味道很好但价格太贵了”这句话中
4、,在同一个句子中出现了两个方面:“味道”和“价格”,同时也有两个不同方面极性:正面和负面。传统的解决方案是结合情感词典的自定义规则方法3-4,但这种方法泛化性较弱,严重依赖领域专家。近年来,随着深度学习技术的发展,基于神经网络的方面级情感分析研究取得了重大进展5。Dong 等人6提出一种基于依存树的自适应递归神经网络,针对给定的情感文本生成依存树,并根据文本中不同的目标词来变换依存树,从而使目标词处于树根位置。并且在计算父节点的向量矩阵时,通过多种不同的组合函数,结合上下文和语法结构来判断目标方面情感极性。Tang 等人7提出基于目标的 LSTM 模型(target dependent-LST
5、M,TD-LSTM),分别按照前向和后向两个方向将文本输入 LSTM 网络,在提取上下文双向的语境信息后再将其融合。Ruder8在此基础之上提出分层双向循环神经网络,该模型将每一层的 LSTM 隐藏层拼接起来,以学习句子内部与句子间的依赖关系。Wang 等人9认为这种标准的 LSTM 模型没有考虑某些特定方面和上下文之间的相关性,因此无法区分对某些特定方面更重要的上下文信息,他们提出了一种结合注意力机制的 LSTM 网络(ATAE-LSTM),利用方面嵌入注意力,分别关注句子的不同部分。结果表明,注意力机制可以显著提高方面级情感分析模型的性能。在此基础上,Ma 等人10人认为目标和文本方面应该
6、是交互的,而之前的模型将两者分别建模,并提出了一个细粒度交互注意网络 IAN,使用两个 LSTM,对每个句子和方面信息建模,并通过池化层获取注意力,并将注意力与深度记忆网络结合完成交互操作。Huang 等人11认为 IAN 只考虑了位置信息而缺少语句间的联系,提出 AOA-LSTM 模型,将方面词与文本关联建模,使用多层注意力得到方面词与文本之间的权重矩阵。Chen 等人12人提出一种基于记忆网络的多注意力机制,该方法将多注意力权值与非线性递归神经网络组合,捕获了距离较远的方面情感文本情绪特征,从而减少了其他方面的噪声干扰,增强了模型的表达能力。1 相对词距权重在下文中,将输入的文本序列定义为
7、 S=w0,w1,.,2023 年第 7 期105计算机应用信息技术与信息化wa+1,wn-1,文本中一共有 n 个字,同时文本中目标方面词一共有 m 个字。表示方面词在句子中的起始索引,对于每个句子,使用相对词距权重算法得到一个权重向量 P=p0,p1,pa,pa+1,pn-1,P 表示句子中每个字的权重。将文本S 输入到 FastText、Bert 等预训练模型之后,得到的文本嵌入矩阵表示为 E=e0,e1,ea,ea+1,en-1。最终本文使用权重向量 P 来微调文本嵌入矩阵 E,得到增强后的文本表示,这里使用 I=i0,i1,ia,ia+1,in-1 来表示。然后用 I 取代原嵌入矩阵
8、 E,来进行后续的情感分类任务。综上可以看出,本算法核心之处在于,相对词距权重算法的设计,本文共设计了两种相对词距权重算法,分别是线性相对词距权重以及非线性相对词距权重。这两种算法将句子中词的相对距离映射到词的权重大小,下面依次介绍这两种算法。1.1 线性相对词距权重算法线性相对词距权重算法是指将词的相对距离映射成线性权重,图 1 是一种理想的线性权重关系,输入文本“这里的服务很差但饭很好”的权重向量是 3/11,4/11,5/11,6/11,7/11,8/11,9/11,10/11,1/11,10/11,9/11,这个向量中每个元素分布表示句子中每一个字的重要程度。在这段文本中,“饭”这个单
9、词是这个句子的目标方面词,可以从图中看出“差”这个干扰描述词的权重被减小到了 5/11,而与此同时“好”这个主要描述词的权重仍然维持在 9/11。因此这种方法可以使模型更关注于“好”这个主要描述词,而忽略掉“差”这个干扰描述词,从而更有可能得到正确的分类结果。图 1 线性权重理想化实例 从图 1 可以注意到句子中方面词“饭”的权重只有1/11。因为本文注意到绝大多数情况下,在一个句子中目标方面词是名词,且这个名词实际上和分类任务的结果无关。例如上述例子中饭”可以替换成任何名词,都不会影响这句话的情感倾向。因此通过削弱句子中目标方面词的权重,使句子专心关注其他的与情感倾向有关的词。本文设计的线性
10、相对词距权重算法中,相对词距是指每个词与目标方面词的距离,在文本序列 S=w0,w1,wa,wa+1,wn-1 中,第 i 个词的权重可以由公式(1)与公式(2)求出。(1)(1)0i()1(1)i+m (1)()1(1)(1 +min()iiunmgpunmgimunmg+=+(1)在公式(1)中,、g 是两个可训练的参数,其中可以放大线性权重缩放带来的分布差异,g 可以代表线性关系中权重下降的趋势快慢。g 越大表示权重下降得越慢。公式 2 规定公式 1 中得到的权重最大值只能是 1。对于句子中每一个字,都应用公式(1)与公式(2),即可得到输入句子的权重向量 P=p0,p1,pa,pa+1
11、,pn-1,然后通过公式(3)计算得到增强后的文本表示。Ii=piei线性相对词距权重算法可以描述为算法 1。算法 1:线性相对词距权重算法输入:文本序列 S=w0,w1,wa,wa+1,wn-1输出:句子的权重向量 P=p0,p1,pa,pa+1,pn-11:初始化权重集合 P=2:for wi in do3:利用公式(1)得到 wi的权重 pi4:将 pi输入到公式(2)中进行规范化6:P.append(pi)7:end for8:return P1.2 非线性相对词距权重算法非线性相对词距权重算法是指将词之间的相对距离映射到非线性的关系中,词之间的相对距离是指每个词与目标方面词的距离。非
12、线性权重函数在曲线体现上比线性的下降趋势更平滑。具体的,在文本序列 S=w0,w1,wa,wa+1,wn-1 中,第 i 个词的权重 pi(0,1)可以由公式(4)与求出。()(1)cos 0i 211(1)i+m (4)()(1)cos +mi2()1iiupunmiunm+=+n (4)是一个可训练的参数,其中 可以放大权重缩放带来的分布差异。缩小分布差异是由 dropout 算法启发的思路,在 dropout 算法根据实现设置的概率随机使一些输入的神经元失活,为了维持输出的期望保持不变,该算法再得到输出后,对所有的输入乘以了一个大于 1 的权重。而在本算法中,由于输入文本 S=w0,w1
13、,wa,wa+1,wn-1 中所有的字向量都会乘以 p (0,1),因此为了维持输出的期望保持不变,本文对输出进行了(1+)的放大操作。与线性相对词距权重算法类似,再得到输入句子的权重向量 P=p0,p1,pa,pa+1,pn-1,然后通过公式 3 计算得到2023 年第 7 期106计算机应用信息技术与信息化增强后的文本表示。计算句子权重向量的方法可以描述为算法 2。算法 2:非线性相对词距权重算法输入:文本序列 S=w0,w1,wa,wa+1,wn-1输出:句子的非线性权重向量 P=p0,p1,pa,pa+1,pn-11:初始化权重集合 P=2:for wi in do3:利用公式(3)得
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 相对 权重 方面 情感 分类 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。