基于Word2Vec和Bi-GRU的高职线上教评情感分析法试探.pdf
《基于Word2Vec和Bi-GRU的高职线上教评情感分析法试探.pdf》由会员分享,可在线阅读,更多相关《基于Word2Vec和Bi-GRU的高职线上教评情感分析法试探.pdf(5页珍藏版)》请在咨信网上搜索。
1、2021 年广东省教育评价改革试点项目“高职院校过程性考核与结果性考核相结合的学业考评制度优化”;2020年度广东省教育科学“十三五”规划项目“优先连接机制在高职课堂管理的应用研究”(2020GXJK588)作者简介:李淼冰,女,硕士,助理研究员,主要研究方向为工商企业管理、教育教学管理。随着互联网和智能设备的普及,越来越多的大学生通过线上教学平台(如慕课、Coursera 等)参与学校课程。但很多学生的主要目的不是完成课程或取得证书,而是将其作为传统学习方式的补充或复习特定课程,所以线上教学质量备受关注。学校要从学生的反馈评论中分析线上平台的教学效果,不仅有助于教师和平台不断改进和提高,还有
2、助于实现课程的师生共创。教师可基于反馈评论更好地理解学生行为,及时优化课程,进一步提高线上课程的适用性1。同时,通过反馈评论分析学生对特定问题的情感倾向,有利于促进高职教育发展和决策制定。但这些信息无法在量化指标中体现,人工定性分析不但费时费力,且准确度会受到个体知识差异、经验等因素的影响。需通过自动化方法进行观点挖掘,从而对评论文本进行高效的定性处理2。目前文本分析法主要有三类:基于情感极性字典进行统计分析;机器学习方法;深度学习方法3。其中,第一类方法要求定义判断规则,且模型无法跳出固定的情感词约束,所以数据分析性能较差。第二类方法使用朴素贝叶斯(NB)、支持向量机(SVM)、随机森林等算
3、法,提高了文本分析的灵活性和准确度,但在将文本输入算法前需通过较为复杂的预处理步骤提高现实统计数据的完整性和兼容性,且依赖于训练集中文本的类别标注。第三类方法是为克服以上两类方法的缺点而提出的,卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)和BERT 在情感分析领域取得了较好成绩,并被广泛应用到电影、社交媒体平台、电子商务、线上教育和旅游等领域4。上述方法尝试通过观点挖掘完成文本情感分类,但仅考虑到整个句子的情感极性。而学生的反馈评论中可能包含对教师的不同角度评论,如教学方法、教学态度、沟通方式等。所以要识别教育评论的特定方面,以帮助教师做出有针对性地改进。对此,本
4、文提出了基于 Word2Vec 和 Bi-GRU 的多角度教育评论细粒度情感分析法(以下简称“教学评论情感分析法”),其解决的核心问题是如何准确高效地对高职线上教育评论进行情感分析。其现实意义是通过线上情感分析,使观点挖掘更具针对性,从而更加高效地优化教学方案。基于 Word2Vec 和 Bi-GRU 的高职线上教评情感分析法试探李淼冰,王威,王成成(广州华南商贸职业学院,广州 510550)摘 要:为提高高职线上教评情感分析的准确度和效率,提出基于双向门控循环单元(Bi-GRU)网络的教评情感分析法。该方法利用 Skip-gram 神经网络学习教育领域特定的词嵌入向量,再利用两个相同架构的
5、Bi-GRU 网络,从不同角度实现对学生反馈的细粒度分析。实验结果表明,该方法内容分类和情感分类的准确度分别达到 97%和 95%,显著优于支持向量机(SVM)、长短时记忆网络(LSTM)等其他方法。关键词:教学评价;情感分析;双向门控循环单元;词嵌入向量;情感极性;细粒度分析中图分类号:TP391.1;TP18 文献标志码:A 文章编号:1672-2841(2023)03-0073-0573-772023,21(3)74广东水利电力职业技术学院学报1 教学评论情感分析法原理图 1 为教学评论情感分析法框架。先对原始文本进行预处理,再利用 Skip-gram 神经网络构建教育领域特定的词嵌入向
6、量,并与评论句子一起输入第一个 Bi-GRU 网络中,通过 softmax 分类确定与特定评论最相关的教学方面。其后将结果输入第二个 Bi-GRU 网络中,确定该评论的情感极性。11教育领域的词嵌入将教育领域的词嵌入作为主要特征,以进行词语的语义表征。为此,利用某高职在线教育平台上的教学评论,使用 skipgram 模型,构建教育领域中的词嵌入向量,从而更好地捕捉词语之间的语义相似性。使用 skip-gram 前,需先定义上下文窗口,即目标词前后的词数。将上下文窗口大小定义为 2;令目标词为 wk;上下文窗口大小为 z。在 wk 的上下文窗口表示为:11,.,.,k zkkkk zwww ww
7、+(1)指定上下文窗口大小后,将数据转换为 的元组形式。其中,input 为目标词wk,output 为目标词左侧和右侧的上下文词:11.,(,),.,(,),(,),.,(,),.kk zkkkkkk zw ww ww ww w+(2)得到 元组后,利用神经网络学习教育领域特定的词嵌入向量。将输入层的神经元数量设为教育领域词汇表 V 中的词数。利用独热编码将所有输入词编码设为大小为 V 的向量。输出层大小与输入层相同。其后,定义保存词嵌入的矩阵 VN,其中 V 表示词汇表中的词数,N为词嵌入维数,本文设 N=100。令该矩阵为 Wd,其中每行表示词表中的一个词。将该矩阵输入隐藏层作为输入。从
8、隐藏层到输出层的连接表示为矩阵 WO,大小为 NV,其中每列表示词表中的词。网络输出层为词语是上下文词的非归一化预测得分 logpr(wk),其中,W和 b 分别为权重和偏置:logpr()kkwh Wb=+(3)向 logpr(wk)应用 softmax 激活函数,得到范围 0,1 内的归一化得分 yk:1exp(logpr()exp(log pr()knkkwkyw=为提高词嵌入表征能力,优化损失函数,以最大限度增加对目标词的上下文词的预测概率:1,11()(1/2)logpr()logexplogpr()kkVzkzVxkkkzj kz j k lvxkxVlLVzww+=+=式(5)中
9、,V 为词表大小;z 为窗口大小;kx为目标词 wk 的独热编码;l 为循环变量。将该模型训练 50 代,并保存教育领域特定的词嵌入向量,以输入 Bi-GRU 内容分类模型。12Bi-GRU 模型使用两个结构相同的 Bi-GRU 模型,并分别进行文本分类和情感分类。与 LSTM 相比,GRU 结构更简单,将输出门和遗忘门合并为更新门,由此显著提高存储效率。GRU 模型能通过训练自动学习要保留和丢弃的信息,但单向 GRU 网络仅能处理单向时间序列,在文本分析中易造成信息丢失。Bi-GRU则强调正反两个方向的文本关键信息,并向提取出的深层特征赋予相应权重,同时捕捉正反方向的词语长期相依性,以实现更
10、好的特征提取性能,从而帮助模型更好地理解上下文和语义知识5。图 2 是 Bi-GRU 配置。该模型先处理输入句子,其中每个词表示为x1,x2,x3,.,xn。其后使用教育领域词嵌入层,将输入词与词向量 Wd 串联,并通过 BiGRU 网络:ddtzx=W(6)式(6)中,Wd 为词嵌入向量;xt 为输入词向量。Bi-GRU 网络包括前向输出 GRU 和反向输出 GRU两部分,并从正反方向读取输入向量 zd。GRU 模型包括重置门和更新门。重置门的作用等效于 LSTM 中的遗忘门和输入门,确定上一时刻的信息与当前时刻的相关性,并通过对门的重置丢弃不需要的资源。重置门的计算公式是:1(,)trtt
11、RWhX=(7)式(7)中,Rt 为重置门;Wr 为加权矩阵;Xt表示时间 t 的输入;ht-1为上一时刻的输出。其中,利用 Hadamard 操作确定需要丢弃和保留的信息。该操作给出区间 0,1.内的结果,若元素数值为 0,代表完全无用;若数值接近 1,表示非常重要。更新门决定何时对单元状态进行更新:1(,)tzttZWhX=(8)式(8)中,Zt 为更新门;Wz 为加权矩阵。通过 sigmoid 函数对 Xt 进行转换,并利用 Wz 得到时间t的输出结果。更新门决定了当前状态的结果(更新或过去状态)。若 Zt 数值为 1,则状态更新;若Zt 为 0,则保留当前状态并继续传输。(5)(4)李
12、淼冰,王威,王成成:基于 Word2Vec 和 Bi-GRU 的高职线上教评情感分析法试探75GRU 神经网络的前向传播表示为:1tanh()hhtttthW XUhr=+(9)1(1)ttttthzhzh=+(10)式(9)、(10)中,th表示候选隐藏层;Wh 和Uh 为 GRU 的加权矩阵;ht 为隐藏层。Bi-GRU 模型合并了两个单方向的 GRU。在每个时刻,同时以相反方向输入两个 GRU 中,则有:11(,)(,)tttttthGRU x hhGRU x h=式(11)中,th和th分别为时间 t 的正向和反向隐藏层状态。Bi-GRU 对两个 GRU 的输出进行合并,以得到更准确的
13、结果。Bi-GRU 的输出公式为:tttHhh=(12)1.2.1Bi-GRU 的输入和输出第 1 个 Bi-GRU 用于内容分类,将评论文本和教育领域词嵌入向量作为输入,并输出六维向量。该向量描述了在 6 个教学内容标签上的概率分布,选择概率最高的数值作为预测分类标签。第 2 个 Bi-GRU 模型用于预测抽取出的教学情感标签。该网络取评论文本、词嵌入向量和第 1个 Bi-GRU 输出向量作为输入,并输出三维向量,识别在三个情感极性(积极、消极和中性)上的概率分布,并将概率最高的数值考虑为预测情感。1.2.2输出层两个 Bi-GRU 均使用 softmax 函数作为分类函数。softmax
14、函数生成 01 的概率值作为输出,所有概率相加总和为 1,因此适用于多类分类问题。根据 softmax 生成的概率分布,选择概率值最大的分类作为预测结果:1exp()Softmax()exp()ttktkHHH=式(13)中,tH为 Bi-GRU 网络的最终隐藏层状态输出。2 实验与分析首先介绍实验中使用的数据集,预处理方法和评估指标,然后验证所提方法的内容分类和情感分类性能。21数据集目前,尚没有包含不同教学方面和情感倾向标签的教育评论公开数据集。为此,本研究从某线上高职教学平台采集过去 5 年的学生评论,并对数据集进行预处理。首先,数据集包含有关教师和课程的评论,保留前者丢弃后者。其后,使
15、用 OpenNLP 将段落分为多个句子。需要注意的是,同一句子可能包含对教师的不同角度评论,如“教师在考试时很公平,知识结构讲解很清晰”,该评论涉及教学评测和教学方法,所以要将此类句子做进一步分割。同时移除数据中的不相关符号(如标签、冒号、表情符号等),执行数据清洗以移除噪声。最后,使用 NLTK 语料库中的停用词表移除停用词6,由此得到 25542 条教学评论。先为每条评论添加一个内容分类标签,即教学方法、教学态度、教学知识、教学评测、教学经验或整体评价;再标注该评论的情感极性,即积极、消极和中性。将实验数据集按 7:1:2 分为训练集、验证集和测试集。表 1 是实验数据集统计结果。22评估
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Word2Vec Bi GRU 高职 线上 情感 分析 试探
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。