中文慕课评论情感识别语料库的构建与应用_魏晓聪.pdf
《中文慕课评论情感识别语料库的构建与应用_魏晓聪.pdf》由会员分享,可在线阅读,更多相关《中文慕课评论情感识别语料库的构建与应用_魏晓聪.pdf(8页珍藏版)》请在咨信网上搜索。
1、 ()年 第 卷 第 期 收稿日期:基金项目:辽宁省社会科学规划基金项目();大连外国语大学科研基金项目()作者简介:魏晓聪,女,博士,讲师,主要从事自然语言处理研究,-:。本文引用格式:魏晓聪,于澜 中文慕课评论情感识别语料库的构建与应用 重庆理工大学学报(自然科学),():,(),():()中文慕课评论情感识别语料库的构建与应用魏晓聪,于澜(大连外国语大学 软件学院,辽宁 大连 )摘要:中文在线教育评论情感识别在很大程度上受到有标注数据不足的限制,针对此问题,基于 门中国大学 以自动和人工相结合的方式构建中文慕课情感识别语料库,共计 条评论,其中褒义 条,贬义 条,保证了语料库的平衡性和学
2、科覆盖的广泛性。制定语料收集和预处理策略、标注规范、标注体系、一致性检测方法;提出了神经网络模型以及基于大规模预训练语言模型的情感识别方法;实现了情感识别结果面向教学管理部门、教师 种使用角色的应用。该语料库为面向在线教育评论的情感分析研究奠定数据基础,对赋能教学评价、助力智能教学系统具有重要意义。关键词:中文;慕课评论;情感识别;语料库;大规模预训练语言模型中图分类号:文献标识码:文章编号:()引言随着 年新冠肺炎疫情爆发,在线教育平台在“停课不停学”情况下,让人与人物理隔离,遏制疫情成为可能。截至 年 月,我国上线慕课数量超过 万门,选课人次近 亿。教师需格外关注在线学习者的情感,它反映了
3、学习者的心理健康状况,有助于教师判断学习者学习状态,对保障线上线下教学实质等效具有重要影响。对在线教育学习者情感进行识别,有助于教师及时发现学习者情感波动,调整教学策略、进行教学干预、优化教学内容;有助于向学习者提供学业预警、个性化推荐学习资源、预测学业成绩、理解学习表现,进而提高在线学习体验,降低辍学率 ;有助于教育管理部门从学习者情感体验和关注点的角度开展课程质量评价,弥补现有评价维度的不足。在教育人工智能背景下,在线学习平台或系统具备情感检测与监控能力已成为发展趋势 。在线教育课程评论区是学习者表达情感的主要渠道,包含了学习者对课程、学习问题、学习资源以及平台服务等方面的情感。然而,由于
4、巨大的师生比例和每日不断产生的且不计其数的讨论话题,完全依靠人工阅读来分析这些重要意见的情感是非常耗时的。这需要采用机器学习自动对其分析,目前机器学习在业界的应用和成功,主要由监督学习来推动,而这又是建立在已标注的数据集的基础上。与电商、微博等领域的评论情感分析不同,在线教育评论文本拥有区别于通用场景数据的特有属性,给在线教育领域情感识别研究、应用和发展带来了极大的挑战。例如:在表达方式上,学习者经常使用“受益匪浅”“生动有趣”“深入浅出”等词汇表达情感;经常通过描述与学习体验相关的客观事实隐晦地表达情绪,如“已经看了 章了,照着简略的读讲义,我也会读,学过的人当做复习资料还凑合”。在应用目的
5、上,对学习者发表的评论进行情感分析主要服务于教育管理部门评估课程、在线教师掌握学习者情感状态等。目前,文本情感分析领域提供了大量可用的数据资源和可借鉴的方法,但在教育评论上的相关工作相对较少。纵观国内外,对慕课论坛评论进行情感识别在很大程度上受到有标注数据不足的限制。目前在英文语料方面,国外已公开的慕课情感识别语料库有斯坦福慕课论坛评论语料。该语料库包含 门斯坦福大学在线公开课,共 条学生评论。每条评论的情感分值被人工标注为 分。在此语料上开展的情感识别工作通常将分值大于 分的评论作为褒义情感评论,将小于和等于 分的评论作为贬义情感评论 。等 构建了方面级慕课评论情感分类语料库,评论内容来自
6、门慕课课程,但语料尚未公开。国内相关工作中,王保华等 为提高教学质量提供科学依据,开展了挖掘学生教学评价情感倾向的研究。该项工作从美国教师评价网站()获取了 条学生对教师的评语,利用学生打分自动地标注评语情感倾向。值得一提的是,该工作还人工构建了学生在教学态度、教学内容、教学方法、教学效果个方面的评价词词典,并依据该词典标注评论所评价的教学。该工作细粒度地标注了学生评语。冯翔等 从腾讯课堂、网易云课堂等在线学习平台通过爬取学生反馈文本,人工标注了反馈文本的四类学业情绪(积极高唤醒、积极低唤醒、消极高唤醒、消极低唤醒),并在该数据集上开展基于长短期记忆网络的学业情绪预测。李慧 针对 名学生在语文
7、课 奥斯维辛没有什么新闻 的学习体验文本中,提出一种融合情感词典和机器学习的学习者情感分析模型。等 提出基于 -优化的特征选择方法识别慕课评论情感。该实验数据集包括 条评论,评论来源于网易公开课。上述国内学者的情感识别实验语料都来自尚未公开的自建语料。在中文语料方面,暂且没有公开的在线教育评论语料可供文本情感识别研究。因此,研究如何构建面向在线教育评论的中文情感识别语料库将为在线教育评论的情感分析研究奠定数据基础,对赋能教学评价、辅助教学决策、改进教学过程、助力智能教学系统具有重要意义。下面将从中文慕课评论情感识别语料库的构建、情感识别以及识别结果应用 个方面进行介绍。语料库构建本文语料库构建
8、流程包括语料收集与预处理、标注规范制定过程、标注体系、一致性检测、语料库统计。语料收集与预处理本语料库情感评论来源为中国大学 课程评论区。语料采集分为自动采集和人工采集两部分。自动采集即采用爬虫技术从中国大学 平台自动爬取,爬取的评论需进行去除英文评论、纯数字评论等预处理。由于自动爬取的评论存在一定比例重复含义的简短评论,如:“不错”,这些评论将影响语料库质量,其中最重要的工作是将评论中高频重复出现、意义相同的简短评论,如:“受益匪浅”“收获很多”“很棒的课程”“非常好”“很实用”“不错”仅保留一条,过滤掉其余重复评论。本文还组建了由 名本科生组成的中文慕课情感识别语料库构建小组,小组成员分别
9、来自德语专业、计算机专业、旅游管理专业。考虑到上述爬取的课程评论中,存在大量意义重复的简短评论,为提高语料库评论质量,小组成员人工收集了 条高质量的褒义评论。当判断一条评论是否作为高质量褒义评论被收集时,组员首先需对评论人工进行文档级的情感极性判别。当极性为褒义时,还需判断该条评论是否符合以下特点:长度不过于简短、表达方式及句式多样、用词丰富,尽可能避免重复含义表达。若上述条件同时满足,可作为高质量褒义评论录入语料库。魏晓聪,等:中文慕课评论情感识别语料库的构建与应用与电商等领域的评论相比,慕课中的贬义评论占比非常低。据统计,慕课评论区中贬义评论仅占全部评论的 。这可能是因为学生更倾向于尊重教
10、师劳动成果,很少在评论区中表达不满。即使是贬义评论,学生也多采用描述事实、委婉、隐晦的方式表达情感,如“有时播放的案例声音和讲解音量相差过大,对听力不好”。但是,慕课情感识别中贬义评论是需要重点关注的情感类别,它包含了学习者在课程学习中的问题、建议和期望,对教学管理部门和授课教师具有重要参考意义。另外,如果对褒贬比例严重失衡的语料库直接进行情感标注,还会降低后续标注效率。因此,本语料库的贬义评论由小组成员阅读 多条评论后人工收集。本文从中国 新课排行榜列出的新开课中收集贬义评论。这是因为与经过若干轮重复开课、不断完善的课程相比,新开课程的贬义评论相对更多。对新开课的贬义评论收集完毕后,再从非新
11、开课中继续收集,以上收集的课程都需避开自动爬取的课程。收集到的贬义评论主要有 种形式,一种为纯贬义评论,如“字幕与讲解不同步,让学生无所适从”;另一种为兼具褒义和贬义情感的评论,如“老师讲的很好,很引人入胜,但是总感觉每节课只是讲了一部分就没有了,听得我意犹未尽,也想知道是什么原因”。据统计,纯贬义评论占人工收集的全部贬义评论的 。由于贬义评论非常稀缺,本语料库将纯贬义评论直接收录语料库,将兼具褒贬情感评论中的贬义部分提取出来再纳入语料库。本语料库收集的评论覆盖了文史哲、心理学、计算机、经济管理、理学、工学几大领域的 门课程,这保证了语料库覆盖学科领域的广度,使得语料库更加全面客观。人工收集贬
12、义评论也保证了语料库的情感平衡。标注规范制定过程中文慕课评论情感识别语料库的标注规范细则是在语料库的建设初期经多轮迭代和讨论逐步形成的。第步,先少量选取门课程的 条评论进行标注。小组标注后经集体讨论,初步确定标注规范。这一阶段的主要任务是确定标注体系的可行性,制定初步规范。第 步,利用上述规范培训 名标注人员,培训后标注人员按照规范每人标注 条评论,结束后收集反馈意见。根据意见以及标注结果的一致性,进一步完善标注规范。第 步,利用修订后的规范再次培训所有标注人员,之后开展大规模语料标注。此过程依然继续收集标注反馈意见,组织人员讨论,不断在小范围内订正标注规范。标注体系中文慕课评论情感识别语料库
13、标注体系框架为:(,),各项标注含义为:慕课评论()、评论情感极性()、是否褒贬义混合评论()、贬义信息()、课程信息()。若一条评论不存在兼具褒义和贬义情感的情况,则 -值为 。在此情况下,具有褒义情感的评论,值为 ,具有贬义情感的评论,值为 。如果一条评论同时具有褒义和贬义情感,则 值为 。需要说明的是,只有 为 时,才有值,的值为原始评论的贬义文本部分。本语料库只保留其原始评论的 信息,此时 值为 。为该条评论出自的慕课课程名。中括号括起来的变量 是可选项,其余变量均为必选项,不能为空。一致性检测标注语料的过程离不开人的直觉分析,也会受到现有语言理论的影响。本语料库标注分为两部分:第一部
14、分是 名本科生标注自动爬取且预处理后的 条评论。其中每条评论被分配给 位不同的同学进行标注。每条评论的情感极性采取 位标注者的多数意见。第二部分,语料库小组的 位本科生标注人工收集的 条贬义情感评论以及 条高质量褒义情感评论。其中每条评论被分配给其中 位本科生,当 人标注结果一致时,则完成标注。若出现分歧,则请组内第 位同学进行标注,最终标注结果少数服从多数。当第 位同学与上述 人观点依然不一致时,全组 人共同讨论,最后投票决定,多数意见作为最后标注结果。由此,可以最大程度上保证标注的一致性和准确性。最后,本语料标注一致性达到 。标注工作结束后小组成员对语料库进行整理,人工筛查重复评论,整理评
15、论格式、纠正错别字、规范标点符号,隐去教师名、校名等隐私信息,过滤不带有感情色彩的中性评论。语料库统计本语料收录中文慕课情感评论共计 条,其中褒义评论 条,贬义评论 条。褒、贬情感极性对应的评论总字数和总词数,以及每条评论的平均字数和平均词数如表 所示。语料库中褒义评论和贬义评论示例如表 所示,褒、贬义评论词云图如图 、图 所示。表 语料库统计类别评论数字数词数平均字数评论平均词数评论褒义 贬义 合计 表 褒、贬义评论示例情感类别评论褒义写作与沟通是我们作为大学生非常需要学习和练习的技能,本课程让我获益良多,且授课内容新颖不古板,增加了很多写作技能技巧。贬义教学进度的设计和规划不够科学,考试时
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文 评论 情感 识别 语料库 构建 应用 魏晓聪
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。