欢迎来到咨信网! | 成为共赢成为共赢 咨信网助力知识提升 | 自信网络旗下运营:咨信网 自信AI创作助手 自信AI导航
咨信网
全部分类
  • 包罗万象   教育专区 >
  • 品牌综合   考试专区 >
  • 管理财经   行业资料 >
  • 环境建筑   通信科技 >
  • 法律文献   文学艺术 >
  • 学术论文   百科休闲 >
  • 应用文书   研究报告 >
  • ImageVerifierCode 换一换
    首页 咨信网 > 资源分类 > PDF文档下载
    分享到微信 分享到微博 分享到QQ空间

    藏文情感语料库的构建及自动标注方法研究.pdf

    • 资源ID:866194       资源大小:2.21MB        全文页数:5页
    • 资源格式: PDF        下载积分:10金币
    微信登录下载
    验证码下载 游客一键下载
    账号登录下载
    三方登录下载: QQ登录
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    验证码: 获取验证码
    温馨提示:
    支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    VIP下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    声明    |    会员权益      获赠5币      写作写作
    1、填表:    下载求助     索取发票    退款申请
    2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
    6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    7、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

    藏文情感语料库的构建及自动标注方法研究.pdf

    1、Computer Era No.12 20230 引言随着互联网与社交媒体的兴起和不断发展,移动平台已成为人们信息共享和传递的重要平台。越来越多的人喜欢在社交平台上发表个人观点及看法。在藏族地区,各种藏文网站及微信公众号,以及抖音、快手等成为藏文网民对社会热点关注和情感表达的平台,由此也就产生了大量的藏文情感信息,这些文本信息能充分反映用户的情感倾向。目前中英文的文本情感分类研究相对成熟,但对于起步较晚的藏语自然语言处理来说研究成果有限。由于藏文的适用范围小、藏文语料收集困难、目前还没有公开的藏文细粒度情感语料库供于情感分类研究,且大多是三极(积极、中性、消极)情感语料库,这些因素导致目前藏文

    2、文本情感分析的基础薄弱。情感语料库数据需要标注,这也会耗费大量的人力物力资源,因此,构建藏文细粒度情感语料库和情感自动DOI:10.16644/33-1094/tp.2023.12.036藏文情感语料库的构建及自动标注方法研究*尖羊措1,2,3,安见才让1,2,3(1.青海民族大学计算机学院,青海 西宁 810007;2.省部共建藏语智能信息处理及应用国家重点实验室;3.青海省藏文信息处理与机器翻译重点实验室)摘要:针对藏文情感分析领域中缺乏相应的基础训练语料库、模型又需要大量的数据做支撑、传统的人工标注需要耗费大量的人力物力资源且普适性不高的情况,构建了细粒度的藏文情感语料库和情感词典。首先

    3、由三人分别对每一个词进行情感强度标注,其次将语料和词典按规则进行匹配,最后以情感强度平均得分来表示文本的情感类别。本文所构建的细粒度情感语料资源,在一定程度上能够缩短海量标注语料库的开发周期,并降低语料标注的人工成本。关键词:藏文情感语料库;细粒度情感;情感强度;自动标注中图分类号:TP391.1;TP392文献标识码:A文章编号:1006-8228(2023)12-167-04Research on the construction and automatic annotationmethod of Tibetan sentiment corpusJian Yangcuo1,2,3,Anji

    4、an Cairang1,2,3(1.School of Computer Science,Qinghai University for Nationalities,Xining,Qinghai 810007,China;2.State Key Laboratory of TibetanIntelligent Information Processing and Application;3.Qinghai Provincial Key Laboratory of Tibetan Information Processing and Machine translation)Abstract:In

    5、the field of Tibetan sentiment analysis,there are problems such as a lack of corresponding basic training corpus,theneed for a large amount of data to support models,the consumption of a lot of human and material resources and low universalityfor traditional manual annotation.To this end,a fine-grai

    6、ned Tibetan sentiment corpus and sentiment dictionary are constructed.Firstly,each word is annotated with sentiment intensity by three individuals.Then,the corpus and dictionary are matched accordingto the rules.Finally,the average score of sentiment intensity is used to represent the sentiment cate

    7、gory of the text.The fine-grained sentiment corpus resources constructed in this paper can,to some extent,shorten the development cycle of massiveannotated corpus and reduce the labor cost of corpus annotation.Key words:Tibetan sentiment corpus;fine-grained sentiment;sentiment intensity;automatic an

    8、notation收稿日期:2023-07-26*基金项目:省部共建藏语智能信息处理及应用国家重点实验室/青海省藏文信息处理与机器翻译重点实验室开放课题“多模态藏文情感分析技术研究”(2021-Z-001);青海民族大学计算机学院研究生创新项目“基于深度学习的藏文短文本细粒度情感分类研究”(09M2022004)作者简介:尖羊措(1997-),女,藏族,青海黄南人,硕士研究生,主要研究方向:藏文信息处理及应用。通讯作者:安见才让(1969-),男,藏族,青海西宁人,博士研究生,主要研究方向:人工智能,自然语言处理。167计算机时代 2023年 第12期标注方法研究是很有必要的。1 相关工作情感语

    9、料库作为情感分析研究的前提,是极为重要的。目前,国内外在语料库构建工作方面已经很成熟。AlLaith Ali等1提出一种半监督自学习技术用于扩展阿拉伯语情感标注语料库,在一定程度上弥补了缺乏大型语料库的问题。Ban Kirigin Tajana等2通过整合基于语料库的句法和引入图传播方法有效解决了情感词典的稀疏性问题,丰富情感词典中词汇结构的情感评价。孟加拉语作为低资源语言,缺乏相应的基准语料库,所以Iqbal MD等3基于此问题构建了孟加拉情感语料库,用于开发孟加拉文本情感分类器。在构建大型语料库的过程中,大量的标注工作又成为一大难题。易寒冰等4采用PMI+SKEP模型对文本进行情感倾向分析

    10、,该方法有效解决了缺少标注数据和人工标注难的问题。魏晓聪等5针对标注数据不足影响评论情感识别的问题构建了中文慕课情感识别语料库,该语料库在面向在线教育评论的情感分析方面具有重要意义。李学宁6借鉴SentiWordNet解决了现有词典中极性标注存在的问题,对于情感词标注具有一定的参考价值。杨欣等7基于藏文情感分析需要大量的情感数据作为支撑的现状,建立了结构化语料库、开发人工标注平台,有效的减轻了人工标注的工作量,为后续的情感分类工作提供了基础。单睿康8以词典资源匮乏限制藏文情感分析研究发展的问题,运用 SO-CPMI方法构建情感词典,来缓解藏文情感分析研究数据稀缺的问题。李多吉草9研究的藏语情感

    11、类词汇和构建的情感词汇语义知识库,对解决藏语情感语料库以及情感词典语义知识库欠缺的问题有一定程度的帮助。然而在藏文的情感语料自动标注方面还有待深化研究。2 语料库构建2.1 数据收集和预处理本文语料库中收集的文本覆盖了文学、经济学、政治、艺术、娱乐服务等领域,覆盖学科领域的广度使得语料库更加全面。采集工作分为自动采集和人工采集两部分,自动采集即采用爬虫技术从微博、藏文网站、电影评论等平台自动爬取数据。人工采集即对现有的语料进行加工和扩充语料,满足情感语料库对数据的要求。由于自动爬取的数据存在一定比例重复、多余数量的内容,像#”的特殊字符和标点符号等无用信息。还有部分数据集内容无效或者跟本文情感

    12、数据库的构建目标不相关内容都会影响语料库质量,所以需要对特殊字符、意义相同的藏文文本数据集进行清洗。除此之外,还需判断采集的文本是否包含丰富的情感信息,如果是,则把文本纳入语料库并保证语料库的分析、处理以及最后的使用。数据收集和预处理流程如图1所示。图1数据采集和预处理过程2.2 标注规范制定良好的标注体系是保障建设过程顺利进行的基础,更是保证语料库质量的关键10。本文参照大连理工大学中文情感词汇本体库里面的 7大类情感(乐()、好()、怒()、哀()、惧()、恶()、惊()),加上讽刺())共八类情感作为标注依据。采用人工标注的方式,首先对文本按八大类情感进行分类并标注情感标签,分别以1,2

    13、,3,4,5,6,7,8表示。同时每个类别又划分为快乐、安心、尊敬、赞扬、相信、喜爱、祝愿、愤怒、悲伤、失望、疚、思、慌、恐惧、羞、烦闷、憎恶、贬责、妒忌、怀疑、惊奇等情感小类,每种情感小类都隶属于八大类别中的一种。如表1所示。情感和情绪信息是标注的重点,其中情感信息是发言人的内在情感表达而情绪信息是发言人呈现出来的外在情绪表达。由于每个人个体意识的差异,在面对同一条文本所感受到的情感和情绪是不一样的。因此本文的标注体系在注重选择合理的标注粒度的同时选择三到四人对文本进行标注,尽量平衡标注效率和标注一致性。2.3 一致性检测建立高质量的标注语料库不仅需要建立完整的标注规范和标注一致性方案,同时

    14、也需要标注人员具有相关领域的知识储备,并对标注规范有较深层次的理解11。本文在语料库标注时,采用一人一组标注、三人168Computer Era No.12 2023合作互助的方法处理歧义。在标注过程中如果多位标注者给出了完全相同的标注结果,可以直接接受该结果;如果同一个标注任务出现多个完全不同的标注结果,则可以认为该标注任务存在歧义,需记录问题。对于不能达成一致的歧义数据,由三人小组讨论来决定其最终的情感,直到达到较高的一致性,由此,可以最大程度上保证标注的一致性和准确性。2.4 语料库统计语料库中收录的情感文本共计6200多条,大多来源于文学作品、微博、电影评论、娱乐服务,其中电影评论中的

    15、情感信息最为明显,其次是娱乐服务。语料库中每一类情感文本的占比分别是:749、892、770、780、702、843、681、783,如图2所示。图2语料库中每一类情感的占比数3 自动标注3.1 构建情感词典本文构建的情感词典以大连理工大学情感词汇本体库为基础,通过机器翻译得到最常见的情感词汇,另外从藏汉大辞典筛选出来的情感词汇加上现有的情感词典,经过人工校对构建了藏文细粒度情感词典。首先对所有情感词汇依照上文提到的八个情感大类(乐()、好()、怒()、哀()、惧()、恶()、惊())、讽刺())进行划分,其次通过三个读者对每个情感词按照 0、1、2、3四个等级标注情感的强度分数,强度值分别代

    16、表:无、弱、强、很强。具体如表2所示。表2中呈现的三位标注者根据八种情感类别对情感词进行强度标注,比如第一位标注者认为“”的强度应为3分,且已知是属于“乐()”情感,故在Reader1_下标注为3,其余的情感标为0;第二位标注者认为“”的强度应为 2 分,那么在Reader2_下标注为2,其余的情感标为0,以此类推。“讽刺()”性情感在文本中通常以前后矛盾或积极情感词和消极情感词搭配出现,例如:“”“敌人看见表1语料库情感标注数据来源电影评论电影评论微博文学作品文学作品文学作品文学作品文学作品文本 情感类别乐()好()怒()哀()惧()恶()惊()讽刺()所属情感小类快乐赞扬愤怒悲伤慌贬责惊奇

    17、-情感标签12345678所属类别乐()好()怒()哀()惧()恶()惊()讽刺()情感词-Reader1_3000000-Reader1_0003000-Reader2_2000000-Reader2_0003000-Reader3_3000000-Reader3_0003000-表2情感强度标注169计算机时代 2023年 第12期心里直打哆嗦,亲人看到心里喜滋滋的。”类型较为复杂,没有限定的标准。故在构建情感词典时对“讽刺()”没有单独划分所属的情感词类。最终构建的藏文细粒度情感词典一共包含2000个词条,其中程度词、否定词、转折词等搭配词组共计63个。情感词典的主体部分由形容词、程度词

    18、和动词构成,如表3所示。表3情感词典主体部分词种释义美丽惊讶尤其非常杀做不词性a(形容词)a(形容词)de(程度词)de(程度词)V(动词)v(动词)dd(否定词)所属情感类别好()惊()-恶()-3.2 标注思路根据词典匹配的方法,上述构建的语料库同细粒度情感词典进行匹配。如果情感词与文本匹配成功,那么去判断文本中是否有否定词和转折词,具有转折和否定意义的表达对情感倾向影响较大,通常会造成相反的情感倾向,所以否定词和转折词情感类别判断极为重要。判断完后,平均三个读者的得分,用强度得分来判别文本的情感类型。如果未匹配成功,那么去判断文本前后是否为矛盾关系或者乐和好的情感词是否与怒、哀、惧、恶、

    19、惊的情感词搭配存在,若是,则归类为讽刺。由于词典中没有为讽刺规定其所属的情感词类,于是文本与词典未匹配的情况下再去判断该文本是否为讽刺性情感,并且满足于上述条件后才判定此文本是含有讽刺性情感表达。情感自动标注流程如图3所示。图3文本情感自动标注流程图4 语料库标注结果分析最后匹配成功的csv文件如图4所示。图4中第一个分值列表依次表示标注者1(Reader1)、标注者2(Reader2)、标注者3(Reader3)的八种情感的强度值。第二个列表为三位标注者的情感强度平均分(以Reader_avg表示),也是文本最后的强度得分以及表示所属的情感类别。图4匹配成功的情感文本(部分)语料库标注结果中

    20、讽刺性文本分类错误率较高,主要原因在于标注规则有所欠缺。由于乐和好的情感词与怒、哀、惧、恶、惊的情感词搭配出现的文本直接判定为讽刺情感,从而导致匹配错误。如“”这段句式,虽然前后并未矛盾对立,但却是带有讽刺情感的句子。另外情感词汇不够完善,导致一些新词以及未录入的情感词与文本没有匹配成功。5 结束语藏文情感语料库和情感词典在藏文情感分析领域中是极为重要但又是较为稀缺性的资源。故本文构建了带有细粒度情感标注的藏文语料库和情感词(下转第174页)170计算机时代 2023年 第12期4 结束语本设计是一种基于树莓派的实时人脸表情识别系统,将深度学习框架应用于智能硬件树莓派上,最终实现了基于树莓派的

    21、七种人脸表情实时识别,包括高兴、生气、厌恶、害怕、伤心、惊奇、中性。与传统的人脸表情识别算法相比,采用深度学习框架的人脸表情识别能够达到更高的识别精度。此系统还有待提升之处,如厌恶表情识别不理想,原因在于厌恶表情数据量过少,要想提高其识别准确率还需进一步提高数据集的数据量。随着技术进一步成熟,基于树莓派的人脸表情识别系统在算法层面也需不断地优化和改进,提高系统的准确度、速度和性能。还可以探讨将基于树莓派的人脸表情识别系统与语音识别、动作捕捉和语义分析等技术结合在一起,实现多模态信息的融合,提高识别的准确性和应用广度,如公共安全、交通、医疗等,市场需求会不断增长,将促进行业和产品的发展。参考文献

    22、(References):1 Mpiperis I,Malassiotis S,Strintzis M G.Bilinear Models for3-DFaceandFacialExpressionRecognitionJ.IEEETransactionsonInformationForensicsandSecurity,2008,3(3):498-511.2 陈超,黄佳.基于深度学习的树莓派人脸与表情识别系统研究与设计J.网络安全技术与应用,2019(12):50-52.3 牛犇,滕运江.基于树莓派的实时人脸表情识别J.电子技术与软件工程,2021(1):135-136.4 郭钊汝,徐金,郭

    23、恒言,等.采用树莓派4B识别新疆苹果品种的人工智能案例J.计算机时代,2022(3):32-35.5 朱明旱,李树涛,叶华.基于稀疏表示的遮挡人脸表情识别方法J.模式识别与人工智能,2014,27(8):708-712.6 史浩.基于卷积神经网络的人脸表情识别研究D.南昌:南昌大学,2022.7 程村.微表情识别综述J.计算机时代,2020(9):17-19,23.典,后基于情感词典来实现文本的自动标注。由于构建的情感词典规模小、涵盖面不够广、自动标注规则待改进。下一步,将提高带有讽刺情感的复杂句式的判断能力并扩充情感词典,从而提高情感文本的标注准确率。参考文献(References):1 A

    24、lLaith Ali,Shahbaz Muhammad,Alaskar Hind F.,et al.AraSenCorpus:ASemi-SupervisedApproachforSentiment Annotation of a Large Arabic Text CorpusJ.Applied Sciences,2021,11(5).2 Ban Kirigin Tajana,Bujai Babi Sanda,Perak Benedikt.LexicalSenseLabelingandSentimentPotentialAnalysisUsingCorpus-BasedDependencyG

    25、raphJ.Mathematics,2021,9(12).3 Iqbal MD.Asif,Das Avishek,Sharif Omar,et al.BEmoC:ACorpus for Identifying Emotion in Bengali TextsJ.SNComputer Science,2022,3(2).4 易寒冰,刘倩.一种基于自动标注语料的热点事件情感分析方法及应用J.数据与计算发展前沿,2022,4(5):129-137.5 魏晓聪,于澜.中文慕课评论情感识别语料库的构建与应用J.重庆理工大学学报(自然科学),2023,37(4):174-181.6 李学宁.SentiWo

    26、rdNet情感词标注及其对我国语文词典的启示J.烟台大学学报(哲学社会科学版),2023,36(2):106-111.7 杨欣,群诺,郭龙银,等.藏文情感语料库的构建与分析J.计算机时代,2019,No.327(9):5-7,12.8 单睿康.面向短文本的藏文情感词典自动构建研究D.兰州:西北民族大学,2022.9 李多吉草.藏文情感词汇知识库构建研究D.兰州:西北民族大学,2022.10 徐琳宏,刘鑫,原伟,等.俄语多模态情感语料库的构建及应用J.计算机科学,2021,48(11):312-318.11 王瑞民,叶娅娟,张坤丽,等.面向时政新闻文本的事件标注语 料 库 构 建 J.郑 州 大 学 学 报(理 学 版),2023,55(2):25-32.(上接第170页)CECE174


    注意事项

    本文(藏文情感语料库的构建及自动标注方法研究.pdf)为本站上传会员【自信****多点】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表




    页脚通栏广告
    关于我们 - 网站声明 - 诚招英才 - 文档分销 - 便捷服务 - 联系我们 - 成长足迹

    Copyright ©2010-2024   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:4008-655-100    投诉/维权电话:4009-655-100   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   



    关注我们 :gzh.png  weibo.png  LOFTER.png