人工智能支持的英语图文推理及教学应用_曾立英.pdf
《人工智能支持的英语图文推理及教学应用_曾立英.pdf》由会员分享,可在线阅读,更多相关《人工智能支持的英语图文推理及教学应用_曾立英.pdf(7页珍藏版)》请在咨信网上搜索。
1、2023 年 3 月 西安外国语大学学报 Mar.2023第 31 卷 第1 期 Journal of Xian International Studies University Vol.31 No.1人工智能支持的英语图文推理及教学应用曾立英,金心怡,陈艺宣摘 要:推理任务在人工智能技术发展中逐渐受到重视,联合图像与英语文本前提的推理,是一项比较重要的多模态推理任务。文章在情绪 ABC 理论支持下,依托人工智能标注平台,针对欧美电影 2951 幅图片及其备选前提,人工选择符合图片的前提,撰写了 5902 条英文正反向推理句,构建了图文推理库。在此基础上结合推理前提的选择情况,分析推理句中关键
2、词的语义分类、句子的形式标记等特征,归纳出图文推理的类型与特点。其中的推理类型主要涵盖推理行为动作、认知心理活动、事件因果关系等几类。最后根据人工智能支持的标注任务,以促进信息技术与英语语言教育的融合发展。关键词:人工智能;推理;图片;前提;英语教学中图分类号:H030 文献标识码:A 文章编号:1673-9876(2023)01-0059-07Abstract:Inference process plays an important role in artificial intelligence.This paper completes a multimodal inference task
3、 which combined image with English text.It tries to build an English database of image-text inference from the perspective of ABC Theory of Emotion.The task is conducted on the annotation platform designed by artificial intelligence,and it generates 5902 true and false hypothetical actions for 2951
4、image-premise pairs.Images are taken from European and American movie screenshots,and alternative premises are automatically generated by computer.This paper sums up the types and features of image-text inferences by analyzing the selection of premises,the semantic classification of keywords and the
5、 formal marker of sentences.The types of inferences can be divided into four categories:the action of human behavior,the mental activity of cognition,the causality of events and others.It concludes by designing the application of inference tasks in English teaching,to promote the integration of info
6、rmation technology and English language education.Key words:artificial intelligence;inference;image;premise;English teaching1.引言 目前人工智能的发展,除了要求对图片进行直觉描述外,还可像人一样基于前提背景做出类人的认知推理,这也是评测机器是否具备人类语言能力的一个重要组成部分。因此,针对图文的推理是人工智能技术面临的一项有意义但也非常具有挑战性的任务。人类思维包括概念、判断和推理三种基本形式,“可解释的推理学习是人类最重要的能力之一”(王树徽等 2021:82)。从逻
7、辑上说,“推理就是根据一个或一些判断得出另一个判断的思维过程”(金岳霖 2006:138),主要通过演绎、归纳、类比和溯因等几种基本方式得以实现。面对同一图片或场景,基于特定的文本前提,不同的人可能会产生不同的理解和反应,从而做出不同的推理。这种推理涉及图片内容和语言的共同识解,是联合视觉图像与文本的多模态推理,也是根据图片做出对当前人物状态或下一步事件的推断,是对人类意图的挖掘和表达。人工智能技术的发展也在不断影响着语言教学的改革与发展,尤其是教学方法的改变,多种模态交互使用愈来愈成为外语教学的主流趋势。高校英语教师应紧跟科技的步伐,结合当今大学生的学习实际情况,充分利用人工智能技术,改变单
8、模态教学方法,提升英语教学的质量与效度,有效培养大学生的多元智力,从而促进其英语语言能力的发展。基于以上背景,我们与北京大学计算语言学研究所合作,完成了“基于前提的多模态推理(Premise-based Multimodal Reasoning)”任务。本项目通过人工智能识别出图片中各类实体信息,设计出标注平台。本着自愿标注的原则,公开招募国内不同高校英语专业以及通过CET 六级的语言相关专业大学生,经过培训和遴选,要求标注者结合图片和文本语境,用英语完成正向和反向推理任务,探究其多模态推理能力,以期为大学英语教学提供借鉴。本研究拟回答以下三个问题:1)在人工智能技术的支持下,如何同时实现基于
9、图片线索与文本前提的多模态推理?2)标注者推理的具体过程如何解析?针对前提与图片做出的推理都包含哪些类型?3)如何将依托 AI 的图文多模态推理应用于高校英语教学?95DOI:10.16362/61-1457/h.2023.01.0192.图文多模态推理的理论依据 本研究任务的设计受到美国心理学家 Ellis 创建的ABC 理论(Ellis 1995)的启发,该理论提出了一个关于人的情感和行为模式如何联系的框架,即当前遇到的激发事件 A(Activating Event),只是引发情绪和行为后果 C(Consequence)的间接原因,而引起后果 C 的直接原因则是个体对激发事件 A 的认知、
10、看法和评价而产生的信念 B(Belief)。简言之,就是人类情绪和由此产生的行为,并非直接来自事件,而是来自人对这些事件的解释。基于 ABC 理论,本文选择图像和文本两种模态进行研究,将一幅静态图片看作激发事件 A,添加的描述性文本,即前提(premise)看作信念 B,那么如果人得到了不同的信念,极有可能就会预测出不同的行为后果,实现超越图片自身信息的意义扩展。本文的图文推理是多模态(multimodality)的形式,Lemke(1998)认为意义的扩展需要不同模态的组合。Stckl(2004:9)强调所有模态形式与意义的相互关联,认为“多模态是指融入多种符号系统(模式)的交际产物与交际过
11、程”。因此,本研究中英语文本和图像式话语相互协同,相辅相成,通过显性或隐性的联系共同达成意义,实现推理建构。3.图文多模态推理设计与过程解析3.1 图文多模态推理设计不同于图像实体识别等表层的视觉任务,图文推理要求英语标注者进行更加细致的视觉感知,并结合前提背景进行合情的推理。本次基于 AI 平台的图文推理设计,主要分以下五个步骤进行:3.1.1 提供图片图片选自 Visual Commonsense Reasoning(VCR)网站的欧美电影剪辑片段,采用机器自动识别技术,标识出图片中的人物及其着装(如领带、帽子)、动植物、周边物体(如车辆、桌椅)等元素,这些元素将利于人类推理。标注者被要求
12、在进行推理的同时,需注明他们所参考的某个或某几个图片元素,并用“”表示,以便显示标注者关注的是哪部分图片信息,从而进行智能推理。3.1.2 生成前提由于图片呈现的信息是发散性的,限于篇幅,人们捕捉信息、表达观点时往往会聚焦于某个角度,因此本次图文推理任务专门设计并自动生成文本前提作为图片补充,同时也便于启发标注者形成推理路径。比如前提中会出现性格特征、心理活动以及人物关系等描述,如果单凭视觉元素,很难明晰地传递给读者,因此可借助文本前提明确地表征。标注平台会为每幅图片提供 6 条可选的前提,6 条前提对应 6 类信息,且每一类前提都包含数条自动生成的模板句式,均为陈述或描写的语句。这六类前提(
13、Dong et al.2022)分别是:1)描述前情(antecedent),表示某一事件在另一事件之前发生,并且可能影响它,如“There was a/an incident”;2)形容人物的性格特征(character),如“person1s personality is very adj”;3)形容周边环境(surroundings),包括自然环境或人文氛围,如“It is weather”,或“The atmosphere is emo-tion”;4)陈述身份(identity),描述人物的职业是什么,如“person1 is a job”;5)形容人物关系(relation-shi
14、p),如“person1 is person2s n”,以及描述人物关系的状态,如“The relationship between person1 and person2 is very adj”;6)形容某个人物的情绪(mood),如“person1 feels adj”。3.1.3 选择前提标注者需要从上述 6 条可选的文本前提中,选择最符合图片的一条,使前提内容与图片信息一致。3.1.4 撰写推理句标注者结合所选前提与图片信息,进行判断、分析和预测,运用图片中的关键要素,推理出可能产生的情节,并撰写英文推理句。推理句包含两条:一条为包含图片信息且满足文本前提的正向假设,另一条为与图片信
15、息相符,但与文本前提相矛盾的反向假设。两条推理句须控制在 20 个词以内,但须至少包含图片中的一个元素。3.1.5 检查推理句的质量标注者的网上标注结束后,经过培训的检查人员通过“线上平台统查+线下深度核查”相结合的方式,对图片的推理句进行查验与修正。3.2 图文多模态推理过程解析李燕、姜亚军(2022)提出多模态可以从生产和感知两个方面研究。多模态感知分析是以接收者为导向,强调用户如何接收多模态信息,主要涉及接收者的选择、关注和处理信息的能力(Holsanova 2014)。标注人员作为信息接收者,在阅读图片和文本的过程中,利用储存于记忆中的各种图式,例如对事物的观点、信念、态度、兴趣等认知
16、信息,对每组图片和前提做出联想、解释、评论、推断等,然后写出合情的推理句。下面以图 1 为例,解析标注者的推理过程。图 1.推理过程分析示例06曾立英,等 人工智能支持的英语图文推理及教学应用1)首先标注者需根据图片整体信息选择最恰当的前提,如实际标注者在 6 个前提中选取了person2 gives people a moody feeling,该前提属于对人物性格特征的描述。2)标注者提取图片中与推理相关的视觉元素。视觉元素包括两类:一类是 AI 能自动识别的实体元素,例如左侧的人物person2与右侧的物体chair1;另一类是 AI 目前尚未自动标注的描写动作(身势、手势)的动性元素,
17、例如person1和person2坐在椅子上的动作,以及呈现社交位置和距离的方位元素。3)结合图片与前提信息进行推测,产生正向假设(hypothetical action-true)和反向假设(hypothetical action-false)。例如,有标注者根据图 1 中人物的身体动作、手势、外貌、社交位置和距离等元素,假设二人是朋友关系,且正在“交谈”中,同时结合前提中的性格特征,推导出的正向假设为person2 often gets angry without any reason while talking with his friends on the chair,表达的是pers
18、on2时常会在与朋友们交谈时无缘无故生气的行为。反向假设要求利用图片元素,但与前提相反。在图1 的反向假设中,为了与前提的人物性格特征相反,标注者假设person2性格 easygoing(随和的),进而推导出其耐心聆听的行为,推理句为person2 is a very easy-going person.He is sitting on the chair and listening to his friend patiently。除了图 1 中的谈话(talk)、聆听(listen)等动作外,标注者基于其他图片中机器未识别的信息,推导出的具有代表性的动作元素,还包括与言说有关的诉说(tel
19、l)、呼叫(call),表达感知的观看(watch)、凝视(stare),描述身体动作和状态的追逐(run after)、推搡(push)、等待(wait)、停留(stay)等。正反向推理是一个非程序化、灵活的动态过程,同时也是一个复杂的认知心理过程。在分析所参考图片元素的过程中发现,不同类型的图片元素及其呈现方式会造成不同的推理难度。其中人物的身势、手势和周边环境元素是标注者考虑最多的两类,此外还包括社交位置和距离、各类物体、外貌着装、面部表情等等。动作要素多且场景清晰、元素丰富的图片更有利于激活标注者脑中的记忆图式,引发对事件的联想和推断。反之,如果人物动作要素过少,只能看出其微笑或哭泣的
20、表情,且所处环境模糊、元素单一的图片则会给推理带来一定的难度。4.图文推理结果分析 本研究公开招募到来自重点高校的 50 多名在校大学生,最终有 33 名学生按要求完成了 2951 幅图片的多模态推理任务,得到 5902 条英文正反向推理句,构建了基于欧美电影剪辑图片的英文推理库。针对图文推理的结果分析,主要从标注者对前提的选择、图文推理的类型与特征及错误推理产生的原因三方面展开。4.1 前提的选择标注者从平台为每幅图片提供的 6 类前提中,选择了 2951 条与图片相匹配的前提。我们检查了这些所选前提的类型,删除了因标注者任意修改导致无法匹配的前提 9 条,并提取出每条前提的关键词,最终归纳
21、出2942 条前提的类型选择情况。选择性格特征类的居多,共计 857 条,占 29%,主要通过一系列形容词如 industrious、enthusiastic、attentive等体现出来。其次选择较多的为情绪类、人物关系类,分别占 522 条和 519 条,均占 18%。前者大多呈现消极的情绪,关 键 词 有 somber、unhappy 等;后 者 多 涉 及friend、companion、sister 等名词,或 hurtful、serious、inti-mate 等描述人物关系状态的形容词。选择前情类、环境类和身份类的相对较少,平均在 350 条左右。前情类描述先前已经发生的事件,以
22、 got/lost somebody 这一短语结构为主,如person1 just got a new wife。环境类关键词有 peaceful、homey 等。身份类则用 teacher、detective等职业名词表示,或通过 university、hospital 等与职业相关的地点名词体现出来。4.2 图文推理的类型与特征4.2.1 图文推理类型检查人员通过线上线下平台完成了全部图片的推理质量查验工作,排除因机器识别问题导致的错误,发现有 267 幅图片对应的推理存在文文、图文不匹配的现象。本研究将对符合标准的 2674 幅图片,共计5348 条英文正向和反向推理句进行人工逐条分析。
23、对推理句的分析主要是从整句角度进行形式和语义的分析,提取出句中的推理关键词并进行统计,并尝试对推理进行归类。Zellers et al.(2019)针对视觉常识推理任务中的问题和回答,归纳了 7 种推理类型,第一类为解释性的“为什么”或“怎么样”的问题,第二类为询问正在进行的行为动作,第三类是关于时间的推理,即接下来可能会发生什么,此外还有对人物情绪、角色、所处环境等要素的推理。经过对本文正反向推理句的梳理,受 Zellers 推理类型的启发,我们将推理划分为 4 种类型,主要体现在推理人物的行为动作、心理活动、事件因果关系、人物角色等方面,并对每种类型的推理事件包含的关键动词等,进行词频和语
24、义类别的探讨。由于推理句考查的是对人类行为的推断能力,故本研究主要聚焦于推理事件中的动词和其语义分类。动词在推理事件中承载了语义中心,因此本文借助 Python工具逐一提取出这些推理句中的关键动词,如 talk(200)、ask(177)、tell(93)、leave(93)等。如该条推理句中不包含动词,则提取表达核心内容的形容词或名词。我们将这些关键词与 WordNet中的语义类别一一匹162023 年 西安外国语大学学报 第 1 期配,统计归纳出推理关键词所属语义类别的分布情况,将每类语义下的主要关键词列入表中,以便了解其所在推理句表达的具体事件(见表 1)。表 1.推理类型及关键词语义分
25、布推理类型推理条数主要推理关键词 WordNet 中的主要语义类别占比A.人物行为动作A1.正在进行的行为2132talk(131),ask(103),tell(64),discuss(31)(716)walk(40),come(28),leave(18),go(19)(347)look(53),listen(27),watch(27),find(20)(194)39.9%help(25),invite(24),try(20),work(19)(174)sit-1(15),put(12),hold(11)(164)wait(34),sit-2(12),stand(11)(111)A2.即将发生
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 支持 英语 图文 推理 教学 应用 曾立英
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。