藏文情感语料库的构建及自动标注方法研究.pdf
《藏文情感语料库的构建及自动标注方法研究.pdf》由会员分享,可在线阅读,更多相关《藏文情感语料库的构建及自动标注方法研究.pdf(5页珍藏版)》请在咨信网上搜索。
1、Computer Era No.12 20230 引言随着互联网与社交媒体的兴起和不断发展,移动平台已成为人们信息共享和传递的重要平台。越来越多的人喜欢在社交平台上发表个人观点及看法。在藏族地区,各种藏文网站及微信公众号,以及抖音、快手等成为藏文网民对社会热点关注和情感表达的平台,由此也就产生了大量的藏文情感信息,这些文本信息能充分反映用户的情感倾向。目前中英文的文本情感分类研究相对成熟,但对于起步较晚的藏语自然语言处理来说研究成果有限。由于藏文的适用范围小、藏文语料收集困难、目前还没有公开的藏文细粒度情感语料库供于情感分类研究,且大多是三极(积极、中性、消极)情感语料库,这些因素导致目前藏文
2、文本情感分析的基础薄弱。情感语料库数据需要标注,这也会耗费大量的人力物力资源,因此,构建藏文细粒度情感语料库和情感自动DOI:10.16644/33-1094/tp.2023.12.036藏文情感语料库的构建及自动标注方法研究*尖羊措1,2,3,安见才让1,2,3(1.青海民族大学计算机学院,青海 西宁 810007;2.省部共建藏语智能信息处理及应用国家重点实验室;3.青海省藏文信息处理与机器翻译重点实验室)摘要:针对藏文情感分析领域中缺乏相应的基础训练语料库、模型又需要大量的数据做支撑、传统的人工标注需要耗费大量的人力物力资源且普适性不高的情况,构建了细粒度的藏文情感语料库和情感词典。首先
3、由三人分别对每一个词进行情感强度标注,其次将语料和词典按规则进行匹配,最后以情感强度平均得分来表示文本的情感类别。本文所构建的细粒度情感语料资源,在一定程度上能够缩短海量标注语料库的开发周期,并降低语料标注的人工成本。关键词:藏文情感语料库;细粒度情感;情感强度;自动标注中图分类号:TP391.1;TP392文献标识码:A文章编号:1006-8228(2023)12-167-04Research on the construction and automatic annotationmethod of Tibetan sentiment corpusJian Yangcuo1,2,3,Anji
4、an Cairang1,2,3(1.School of Computer Science,Qinghai University for Nationalities,Xining,Qinghai 810007,China;2.State Key Laboratory of TibetanIntelligent Information Processing and Application;3.Qinghai Provincial Key Laboratory of Tibetan Information Processing and Machine translation)Abstract:In
5、the field of Tibetan sentiment analysis,there are problems such as a lack of corresponding basic training corpus,theneed for a large amount of data to support models,the consumption of a lot of human and material resources and low universalityfor traditional manual annotation.To this end,a fine-grai
6、ned Tibetan sentiment corpus and sentiment dictionary are constructed.Firstly,each word is annotated with sentiment intensity by three individuals.Then,the corpus and dictionary are matched accordingto the rules.Finally,the average score of sentiment intensity is used to represent the sentiment cate
7、gory of the text.The fine-grained sentiment corpus resources constructed in this paper can,to some extent,shorten the development cycle of massiveannotated corpus and reduce the labor cost of corpus annotation.Key words:Tibetan sentiment corpus;fine-grained sentiment;sentiment intensity;automatic an
8、notation收稿日期:2023-07-26*基金项目:省部共建藏语智能信息处理及应用国家重点实验室/青海省藏文信息处理与机器翻译重点实验室开放课题“多模态藏文情感分析技术研究”(2021-Z-001);青海民族大学计算机学院研究生创新项目“基于深度学习的藏文短文本细粒度情感分类研究”(09M2022004)作者简介:尖羊措(1997-),女,藏族,青海黄南人,硕士研究生,主要研究方向:藏文信息处理及应用。通讯作者:安见才让(1969-),男,藏族,青海西宁人,博士研究生,主要研究方向:人工智能,自然语言处理。167计算机时代 2023年 第12期标注方法研究是很有必要的。1 相关工作情感语
9、料库作为情感分析研究的前提,是极为重要的。目前,国内外在语料库构建工作方面已经很成熟。AlLaith Ali等1提出一种半监督自学习技术用于扩展阿拉伯语情感标注语料库,在一定程度上弥补了缺乏大型语料库的问题。Ban Kirigin Tajana等2通过整合基于语料库的句法和引入图传播方法有效解决了情感词典的稀疏性问题,丰富情感词典中词汇结构的情感评价。孟加拉语作为低资源语言,缺乏相应的基准语料库,所以Iqbal MD等3基于此问题构建了孟加拉情感语料库,用于开发孟加拉文本情感分类器。在构建大型语料库的过程中,大量的标注工作又成为一大难题。易寒冰等4采用PMI+SKEP模型对文本进行情感倾向分析
10、,该方法有效解决了缺少标注数据和人工标注难的问题。魏晓聪等5针对标注数据不足影响评论情感识别的问题构建了中文慕课情感识别语料库,该语料库在面向在线教育评论的情感分析方面具有重要意义。李学宁6借鉴SentiWordNet解决了现有词典中极性标注存在的问题,对于情感词标注具有一定的参考价值。杨欣等7基于藏文情感分析需要大量的情感数据作为支撑的现状,建立了结构化语料库、开发人工标注平台,有效的减轻了人工标注的工作量,为后续的情感分类工作提供了基础。单睿康8以词典资源匮乏限制藏文情感分析研究发展的问题,运用 SO-CPMI方法构建情感词典,来缓解藏文情感分析研究数据稀缺的问题。李多吉草9研究的藏语情感
11、类词汇和构建的情感词汇语义知识库,对解决藏语情感语料库以及情感词典语义知识库欠缺的问题有一定程度的帮助。然而在藏文的情感语料自动标注方面还有待深化研究。2 语料库构建2.1 数据收集和预处理本文语料库中收集的文本覆盖了文学、经济学、政治、艺术、娱乐服务等领域,覆盖学科领域的广度使得语料库更加全面。采集工作分为自动采集和人工采集两部分,自动采集即采用爬虫技术从微博、藏文网站、电影评论等平台自动爬取数据。人工采集即对现有的语料进行加工和扩充语料,满足情感语料库对数据的要求。由于自动爬取的数据存在一定比例重复、多余数量的内容,像#”的特殊字符和标点符号等无用信息。还有部分数据集内容无效或者跟本文情感
12、数据库的构建目标不相关内容都会影响语料库质量,所以需要对特殊字符、意义相同的藏文文本数据集进行清洗。除此之外,还需判断采集的文本是否包含丰富的情感信息,如果是,则把文本纳入语料库并保证语料库的分析、处理以及最后的使用。数据收集和预处理流程如图1所示。图1数据采集和预处理过程2.2 标注规范制定良好的标注体系是保障建设过程顺利进行的基础,更是保证语料库质量的关键10。本文参照大连理工大学中文情感词汇本体库里面的 7大类情感(乐()、好()、怒()、哀()、惧()、恶()、惊()),加上讽刺())共八类情感作为标注依据。采用人工标注的方式,首先对文本按八大类情感进行分类并标注情感标签,分别以1,2
13、,3,4,5,6,7,8表示。同时每个类别又划分为快乐、安心、尊敬、赞扬、相信、喜爱、祝愿、愤怒、悲伤、失望、疚、思、慌、恐惧、羞、烦闷、憎恶、贬责、妒忌、怀疑、惊奇等情感小类,每种情感小类都隶属于八大类别中的一种。如表1所示。情感和情绪信息是标注的重点,其中情感信息是发言人的内在情感表达而情绪信息是发言人呈现出来的外在情绪表达。由于每个人个体意识的差异,在面对同一条文本所感受到的情感和情绪是不一样的。因此本文的标注体系在注重选择合理的标注粒度的同时选择三到四人对文本进行标注,尽量平衡标注效率和标注一致性。2.3 一致性检测建立高质量的标注语料库不仅需要建立完整的标注规范和标注一致性方案,同时
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 藏文 情感 语料库 构建 自动 标注 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。