基于深度学习和注意力机制的微博情感分析.pdf

上传人：自信****多点

文档编号：648090

上传时间：2024-01-23

格式：PDF

页数：7

大小：1.07MB

《基于深度学习和注意力机制的微博情感分析.pdf》由会员分享，可在线阅读，更多相关《基于深度学习和注意力机制的微博情感分析.pdf（7页珍藏版）》请在咨信网上搜索。

1、第卷第期年月南京师大学报(自然科学版)()收稿日期:.基金项目:国家自然科学青年基金项目()、河南省年度科技厅科技攻关项目()、校级应用基础研究与应用专项项目().通讯作者:隋栋博士后讲师研究方向:人工智能与大数据.:.:./.基于深度学习和注意力机制的微博情感分析周湘贞李帅隋栋(.郑州升达经贸管理学院信息工程学院河南郑州)(.北京航空航天大学计算机学院北京)(.北京建筑大学电气与信息工程学院北京)摘要为了提高微博情感分析的性能采用深度学习算法中的循环神经网络用于情感分类并采用注意力机制对词特征进行选择加权以增强循环神经网络的分类的准确率.首先将微博语料进行去噪、分词、向量

2、化等处理形成微博初始样本.然后构建循环神经网络的微博分类模型通过隐藏层节点循环并结合历史时刻及当前时刻隐藏层输出获得词特征向量.接着注意力机制用于词特征相似计算及选择加权构建句子特征并采用函数获得分类结果.最后通过微博情感分类仿真测试验证了所提方法的可靠性.实验结果表明相比常用微博情感分类算法通过合理设置注意力机制窗口大小所提方法在不同词向量规模样本下均表现出更高的分类性能.关键词微博情感深度学习循环神经网络注意力机制中图分类号文献标志码文章编号()(.)(.)(.):.:微博平台作为用户情感发布的重要平台之一蕴含大量的可用数据资源通过对微博数据资源的深度挖掘既可以分析出热点微博上升的

3、趋势又可以分析出某个话题的用户的情感类别等.微博情感分类作为微博数据管理的重要内容之一是近年来的研究热点通过对不规则程度高的海量微博数据进行清洗去噪、分词及向量化等处理构建可用于深度挖掘的标准样本格式然后通过分类方法和深度学习算法等对样本进行计算和训练从而获得各样本的情感类别最终实现微博的情感类别管南京师大学报(自然科学版)第卷第期(年)理.当前关于微博情感分类的研究较多.朱亚军等采用支持向量机()用于微博情感分类其在语料规范性强和类别较少的条件下分类效果较好但是应对不规则语料时分类准确率有待改进.冯媛媛等采用双向长短时记忆网络()用于多情感类别的分类并采用自注意力机制对样本特征进行筛选取

4、得了较高的分类准确率但没有分析不同词特征规模和不同注意力窗口大小的影响.与上述基于或的情感分类方法不同本文采用深度学习中的循环神经网络()算法作为分类器能够实现复杂多维特征提取并且能够适应大规模样本特征分析.此外本文还将注意力机制()引入到微博文本的词特征提取过程从而提出了基于的微博情感分析方法.这是因为注意力机制在多种类型的样本特征分析中优势明显有助于提高对微博文本重点特征的分类训练准确度.实验结果表明本文所提方法有效提高了多类别微博文本的分类性能且稳定性高.注意力机制注意力机制旨在对重点特征的深度挖掘摒弃了非重点特征的无效训练.通过对重点特征的有效计算满足对特征挖掘的需求而滤出无效特

5、征训练降低运算复杂度.注意力机制主要是在查询()、关键字()和权重()三者之间进行运算下面对注意力机制进行数学描述.设系统的总数为先计算与所有之间的相似程度()()将相似结果记为得分()其计算方法因为所选模型的差异有所不同以下介绍种模型的()计算方法.双线性:()()点积:()()缩放点积:()()式中表示特征维度表示线性变量.相比于双线性和点积缩放点积模型的计算复杂度有一定的增加但是模型的分辨率更高有利于提取对微博样本的词特征进行提取.因此本研究选择了缩放点积模型.设表示第个的权重值其计算方式为:图循环结构 ()().()根据值计算注意力机制结果:().()本文所提方

6、法.循环神经网络相比于普通神经网络主要差异体现在网络的输出与历史输入和历史隐藏层输出有关通过历史输入对当前输出的影响较大限度地反映了历史数据特征对当前时间段的连续性影响.设和分别为输入及隐藏层输出核心结构如图.、和均为权重图中时刻的输出与和周湘贞等:基于深度学习和注意力机制的微博情感分析均有关.根据实际需要还可以加大隐藏层循环规模往更前的历史时刻进行扩展这种时间叠加所带来的训练影响更能够保留训练样本的上下文信息从而获得更精确的训练结果这也正是优于普通神经网络的原因.设个样本()经过的隐藏层后:()()式中和分别表示所有样本点与隐藏层的连接权重系数及偏置.将()输入至转

7、换函数()后得:()().()由图知的时刻输出与和有关通过隐藏层激励()得到:()()式中是时刻激励的偏置.()通过函数获得输出:()()式中为输出偏置.关于的、和求解可以采用前向和反向迭代两种方式而前者是特有其实现方法参照公式()后者是的普遍求解方式.()()()()()()式()在迭代过程中滤除了常量和通过不断累积计算根据样本的输入与输出值则可以获得、和值从而确定稳定的结构.反向迭代主要通过不断缩小误差值来实现可以通过样本的实际值与训练的结果得到:()().()隐藏层节点与之间的权重更新为:()()()式中是学习率.根据()更新后获得节点与

8、之间的最新权重()值:()()().()隐藏层的偏置更新方法为:()()()式中为偏置更新率.根据()获得最新偏置()值:()()()()计算误差和的值:()()式中表示输出节点总数.由于公式()在计算时滤出了偏置的迭代其主要计算都放在了、和的求解上相当于前向迭代仅进行了部分参数的更新.然而反向迭代需将的所有参数都进行更新因此在求解模型参数的完整度方面后者胜于前者但反向求解的效率及复杂度明显高于前者在实际使用时按需求选择参数求解方式.由于本研究中微博情感分类的主要目的是提升分类准确率因此采用了前向迭代方式.基于的微博情感分析流程在微博情感分析中微博原始语料一般是由符号、图片、

9、字母或汉字组成的句子若要建立适合于训练分析的数据样本就需要对这些句子进行分词处理而处理时本文暂只对文字进行挖掘分析南京师大学报(自然科学版)第卷第期(年)图基于的微博情感分析流程暂不考虑句子中的其他部分.分词处理采用分词工具实现接着采用构建特征向量从而为训练提供可使用的数据样本.在的微博情感分析中当训练步骤进行至式()后并不直接进行的分类而是采用注意力机制对微博样本的词特征进行加权求和生成句子特征其实现方式主要是通过式()和式()最后根据句子特征结果进行运算获得情感分类结果.实例仿真为了验证的微博文本情感分类性能选取了常用类微博情感分类集进行不同维度的性能仿真仿真集如

10、表所示.首先对不同词向量规模的样本进行微博情感分类仿真验证本文算法应对不同规模微博文本量的分类性能然后差异化设置注意力机制窗口比例验证不同注意力强度下的分类性能接着分别采用算法和进行情感分类仿真最后将算法与其他种算法进行对比仿真.不同词特征规模的微博情感分类性能在类样本集中微博文本长度差异较大而通过分词后其产生的词特征量数量差异明显分别选择不同规模的词特征进行分类性能仿真其中注意力机制采用全窗口模式将所有词特征纳入加权求和.表仿真集图不同词向量规模下的分类准确率样本集样本记录数类别从图得对于相同的微博样本集算法在不同的词特征规模下的分类准确率差异较小对比类集在不

11、同词特征规模下的分类准确率情况词特征规模增大后准确率略微有下降这说明对不同规模微博数据的情感分类稳定性较高.横向对比算法在的分类准确率最佳范围约为.而在分类准确率较低的集也在.以上.表不同词特征规模的召回率和值数据集词特征数量召回率值数据集词特征数量召回率值.周湘贞等:基于深度学习和注意力机制的微博情感分析对比类集在不同词特征规模下的召回率和值在相同样本集条件下两者对词特征规模的变化并不敏感这说明算法对类集的情感分类适用度高而在个分类指标中均表现出集最优而集最差的情况可能与样本类别数和本身的样本分类难度有关系.不同注意力窗口大小的分类性能采用注意力机制将词特征

12、加权求和组建句子特征的过程中注意力窗口大小决定了组建句子特征的词特征数量根据组建词特征占总词向量的比例确定算法的分类准备率和分类时间.表不同注意力窗口对应的分类性能数据集/准确率分类时间/数据集/准确率分类时间/.从表知选择不同的注意力窗口尺寸算法的微博情感分类准确率和效率影响较大.对于相同的样本集在时也就是所有的词特征均参与加权至句子向量时采用算法求解的分类准确率最高值越小分类准确率越低这也说明了微博情感分类的准确度与预料分词的完整性存在着密切联系对比发现当时的分类准确率虽没有达到最高但是和时所对应的准确率已非常接近.而从分类时间来看当值越大采用注意力机制被选择参与

13、运算的词特征向量数越多分类所需时间越长.因此为了平衡分类准确率和时间在注意力窗口尺寸设置上应合理后续仿真实验中选择均设置.图和算法的分类准确率 .对情感分类影响为了验证对微博情感分类的优化性能分别采用和算法进行微博情感分类仿真.从图可知算法相比于对于类微博集的分类准确率提升明显均在.以上而最高值仅为.所以对分词进行策略后其对微博情感分类准确率提升效果明显.表与的召回率及数据集算法召回率值数据集算法召回率值.由表得在召回率与性能方面相比于优势明显这也说明策略对的微博情感分类作用明显这可能是因为微博文本较长且表述模糊采用后更能够实现词特征到句子

14、特征的精准拼接从而为分类提供帮助.不同算法分类性能为了对比算法和常用微博情感分类算法的性能分别采用、胶囊网络(南京师大学报(自然科学版)第卷第期(年)、分类和进行实例仿真仿真结果如表所示.表种算法的分类微博情感分类性能数据集算法准确率召回率数据集算法准确率召回率.数据集算法准确率召回率数据集算法准确率召回率.从表知对于相同样本类微博情感分类算法的分类性能差异较大其中的分类性能最好算法较好最差前者都是深度学习算法在微博情感分类中的运用后者未采用深度学习算法这表明深度学习算法在微博情感分类的场景适用性更好而对比和采用了注意力机制进行词特征选择其得到的分类效果更优

15、这也说明在深度学习分类训练中采用注意力机制有主次选择性的词特征分类更能获得最佳情感分类性能.结论本文在微博情感分类训练中采用注意力机制用于微博词特征加权求和然后构建句子特征通过句子特征的分类实现微博情感分类.这种通过注意力机制对重点词特征进行筛选后再进行分类的方法有效提高了的分类准确度.后续研究将对的参数求解进行优化考虑采用仿生算法进行求解以进一步提高算法在微博情感分类中的适用度.参考文献马晓慧马尚才闫俊伢等.基于距离感知的目标情感分类模型.南京师大学报(自然科学版)():.段吉东刘双荣马坤等.基于集成学习的文本情感分类方法.济南大学学报(自然科学版)():.朱亚军次曲拥措.基于算

16、法的藏文微博情感分析研究.计算机仿真():.冯媛媛刘克剑李伟豪.基于的多性格微博情感分类.西华大学学报(自然科学版)():.:.:.():.张旭辉张郴李雅南等.城市旅游餐饮体验的注意力机制模型建构基于机器学习的网络文本深度挖掘.南京师大学报(自然科学版)():.:.:.():.:.():.():.周湘贞等:基于深度学习和注意力机制的微博情感分析 .:.:.():.邓君孙绍丹王阮等.基于和的微博舆情情感演化分析.情报理论与实践():.吴仁彪乔晗贾云飞等.基于胶囊网络的中长微博情感分析.信号处理():.林伟.基于的中文微博情感分类研究.中国人民公安大学学报(自然科学版)():.责任编辑:陆炳新

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于深度学习注意力机制情感分析

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。