分销赏收藏举报申诉 / 7

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 人工智能支持的英语图文推理及教学应用_曾立英.pdf

人工智能支持的英语图文推理及教学应用_曾立英.pdf

上传人：自信****多点

文档编号：457717

上传时间：2023-10-11

格式：PDF

页数：7

大小：1.77MB

《人工智能支持的英语图文推理及教学应用_曾立英.pdf》由会员分享，可在线阅读，更多相关《人工智能支持的英语图文推理及教学应用_曾立英.pdf（7页珍藏版）》请在咨信网上搜索。

1、2023 年 3 月西安外国语大学学报 Mar.2023第 31 卷第1 期 Journal of Xian International Studies University Vol.31 No.1人工智能支持的英语图文推理及教学应用曾立英,金心怡,陈艺宣摘要:推理任务在人工智能技术发展中逐渐受到重视,联合图像与英语文本前提的推理,是一项比较重要的多模态推理任务。文章在情绪 ABC 理论支持下,依托人工智能标注平台,针对欧美电影 2951 幅图片及其备选前提,人工选择符合图片的前提,撰写了 5902 条英文正反向推理句,构建了图文推理库。在此基础上结合推理前提的选择情况,分析推理句中关键

2、词的语义分类、句子的形式标记等特征,归纳出图文推理的类型与特点。其中的推理类型主要涵盖推理行为动作、认知心理活动、事件因果关系等几类。最后根据人工智能支持的标注任务,以促进信息技术与英语语言教育的融合发展。关键词:人工智能;推理;图片;前提;英语教学中图分类号:H030 文献标识码:A 文章编号:1673-9876(2023)01-0059-07Abstract:Inference process plays an important role in artificial intelligence.This paper completes a multimodal inference task

3、 which combined image with English text.It tries to build an English database of image-text inference from the perspective of ABC Theory of Emotion.The task is conducted on the annotation platform designed by artificial intelligence,and it generates 5902 true and false hypothetical actions for 2951

4、image-premise pairs.Images are taken from European and American movie screenshots,and alternative premises are automatically generated by computer.This paper sums up the types and features of image-text inferences by analyzing the selection of premises,the semantic classification of keywords and the

5、 formal marker of sentences.The types of inferences can be divided into four categories:the action of human behavior,the mental activity of cognition,the causality of events and others.It concludes by designing the application of inference tasks in English teaching,to promote the integration of info

6、rmation technology and English language education.Key words:artificial intelligence;inference;image;premise;English teaching1.引言目前人工智能的发展,除了要求对图片进行直觉描述外,还可像人一样基于前提背景做出类人的认知推理,这也是评测机器是否具备人类语言能力的一个重要组成部分。因此,针对图文的推理是人工智能技术面临的一项有意义但也非常具有挑战性的任务。人类思维包括概念、判断和推理三种基本形式,“可解释的推理学习是人类最重要的能力之一”(王树徽等 2021:82)。从逻

7、辑上说,“推理就是根据一个或一些判断得出另一个判断的思维过程”(金岳霖 2006:138),主要通过演绎、归纳、类比和溯因等几种基本方式得以实现。面对同一图片或场景,基于特定的文本前提,不同的人可能会产生不同的理解和反应,从而做出不同的推理。这种推理涉及图片内容和语言的共同识解,是联合视觉图像与文本的多模态推理,也是根据图片做出对当前人物状态或下一步事件的推断,是对人类意图的挖掘和表达。人工智能技术的发展也在不断影响着语言教学的改革与发展,尤其是教学方法的改变,多种模态交互使用愈来愈成为外语教学的主流趋势。高校英语教师应紧跟科技的步伐,结合当今大学生的学习实际情况,充分利用人工智能技术,改变单

8、模态教学方法,提升英语教学的质量与效度,有效培养大学生的多元智力,从而促进其英语语言能力的发展。基于以上背景,我们与北京大学计算语言学研究所合作,完成了“基于前提的多模态推理(Premise-based Multimodal Reasoning)”任务。本项目通过人工智能识别出图片中各类实体信息,设计出标注平台。本着自愿标注的原则,公开招募国内不同高校英语专业以及通过CET 六级的语言相关专业大学生,经过培训和遴选,要求标注者结合图片和文本语境,用英语完成正向和反向推理任务,探究其多模态推理能力,以期为大学英语教学提供借鉴。本研究拟回答以下三个问题:1)在人工智能技术的支持下,如何同时实现基于

9、图片线索与文本前提的多模态推理?2)标注者推理的具体过程如何解析?针对前提与图片做出的推理都包含哪些类型?3)如何将依托 AI 的图文多模态推理应用于高校英语教学?95DOI:10.16362/61-1457/h.2023.01.0192.图文多模态推理的理论依据本研究任务的设计受到美国心理学家 Ellis 创建的ABC 理论(Ellis 1995)的启发,该理论提出了一个关于人的情感和行为模式如何联系的框架,即当前遇到的激发事件 A(Activating Event),只是引发情绪和行为后果 C(Consequence)的间接原因,而引起后果 C 的直接原因则是个体对激发事件 A 的认知、

10、看法和评价而产生的信念 B(Belief)。简言之,就是人类情绪和由此产生的行为,并非直接来自事件,而是来自人对这些事件的解释。基于 ABC 理论,本文选择图像和文本两种模态进行研究,将一幅静态图片看作激发事件 A,添加的描述性文本,即前提(premise)看作信念 B,那么如果人得到了不同的信念,极有可能就会预测出不同的行为后果,实现超越图片自身信息的意义扩展。本文的图文推理是多模态(multimodality)的形式,Lemke(1998)认为意义的扩展需要不同模态的组合。Stckl(2004:9)强调所有模态形式与意义的相互关联,认为“多模态是指融入多种符号系统(模式)的交际产物与交际过

11、程”。因此,本研究中英语文本和图像式话语相互协同,相辅相成,通过显性或隐性的联系共同达成意义,实现推理建构。3.图文多模态推理设计与过程解析3.1 图文多模态推理设计不同于图像实体识别等表层的视觉任务,图文推理要求英语标注者进行更加细致的视觉感知,并结合前提背景进行合情的推理。本次基于 AI 平台的图文推理设计,主要分以下五个步骤进行:3.1.1 提供图片图片选自 Visual Commonsense Reasoning(VCR)网站的欧美电影剪辑片段,采用机器自动识别技术,标识出图片中的人物及其着装(如领带、帽子)、动植物、周边物体(如车辆、桌椅)等元素,这些元素将利于人类推理。标注者被要求

12、在进行推理的同时,需注明他们所参考的某个或某几个图片元素,并用“”表示,以便显示标注者关注的是哪部分图片信息,从而进行智能推理。3.1.2 生成前提由于图片呈现的信息是发散性的,限于篇幅,人们捕捉信息、表达观点时往往会聚焦于某个角度,因此本次图文推理任务专门设计并自动生成文本前提作为图片补充,同时也便于启发标注者形成推理路径。比如前提中会出现性格特征、心理活动以及人物关系等描述,如果单凭视觉元素,很难明晰地传递给读者,因此可借助文本前提明确地表征。标注平台会为每幅图片提供 6 条可选的前提,6 条前提对应 6 类信息,且每一类前提都包含数条自动生成的模板句式,均为陈述或描写的语句。这六类前提(

13、Dong et al.2022)分别是:1)描述前情(antecedent),表示某一事件在另一事件之前发生,并且可能影响它,如“There was a/an incident”;2)形容人物的性格特征(character),如“person1s personality is very adj”;3)形容周边环境(surroundings),包括自然环境或人文氛围,如“It is weather”,或“The atmosphere is emo-tion”;4)陈述身份(identity),描述人物的职业是什么,如“person1 is a job”;5)形容人物关系(relation-shi

14、p),如“person1 is person2s n”,以及描述人物关系的状态,如“The relationship between person1 and person2 is very adj”;6)形容某个人物的情绪(mood),如“person1 feels adj”。3.1.3 选择前提标注者需要从上述 6 条可选的文本前提中,选择最符合图片的一条,使前提内容与图片信息一致。3.1.4 撰写推理句标注者结合所选前提与图片信息,进行判断、分析和预测,运用图片中的关键要素,推理出可能产生的情节,并撰写英文推理句。推理句包含两条:一条为包含图片信息且满足文本前提的正向假设,另一条为与图片信

15、息相符,但与文本前提相矛盾的反向假设。两条推理句须控制在 20 个词以内,但须至少包含图片中的一个元素。3.1.5 检查推理句的质量标注者的网上标注结束后,经过培训的检查人员通过“线上平台统查+线下深度核查”相结合的方式,对图片的推理句进行查验与修正。3.2 图文多模态推理过程解析李燕、姜亚军(2022)提出多模态可以从生产和感知两个方面研究。多模态感知分析是以接收者为导向,强调用户如何接收多模态信息,主要涉及接收者的选择、关注和处理信息的能力(Holsanova 2014)。标注人员作为信息接收者,在阅读图片和文本的过程中,利用储存于记忆中的各种图式,例如对事物的观点、信念、态度、兴趣等认知

16、信息,对每组图片和前提做出联想、解释、评论、推断等,然后写出合情的推理句。下面以图 1 为例,解析标注者的推理过程。图 1.推理过程分析示例06曾立英,等人工智能支持的英语图文推理及教学应用1)首先标注者需根据图片整体信息选择最恰当的前提,如实际标注者在 6 个前提中选取了person2 gives people a moody feeling,该前提属于对人物性格特征的描述。2)标注者提取图片中与推理相关的视觉元素。视觉元素包括两类:一类是 AI 能自动识别的实体元素,例如左侧的人物person2与右侧的物体chair1;另一类是 AI 目前尚未自动标注的描写动作(身势、手势)的动性元素,

17、例如person1和person2坐在椅子上的动作,以及呈现社交位置和距离的方位元素。3)结合图片与前提信息进行推测,产生正向假设(hypothetical action-true)和反向假设(hypothetical action-false)。例如,有标注者根据图 1 中人物的身体动作、手势、外貌、社交位置和距离等元素,假设二人是朋友关系,且正在“交谈”中,同时结合前提中的性格特征,推导出的正向假设为person2 often gets angry without any reason while talking with his friends on the chair,表达的是pers

18、on2时常会在与朋友们交谈时无缘无故生气的行为。反向假设要求利用图片元素,但与前提相反。在图1 的反向假设中,为了与前提的人物性格特征相反,标注者假设person2性格 easygoing(随和的),进而推导出其耐心聆听的行为,推理句为person2 is a very easy-going person.He is sitting on the chair and listening to his friend patiently。除了图 1 中的谈话(talk)、聆听(listen)等动作外,标注者基于其他图片中机器未识别的信息,推导出的具有代表性的动作元素,还包括与言说有关的诉说(tel

19、l)、呼叫(call),表达感知的观看(watch)、凝视(stare),描述身体动作和状态的追逐(run after)、推搡(push)、等待(wait)、停留(stay)等。正反向推理是一个非程序化、灵活的动态过程,同时也是一个复杂的认知心理过程。在分析所参考图片元素的过程中发现,不同类型的图片元素及其呈现方式会造成不同的推理难度。其中人物的身势、手势和周边环境元素是标注者考虑最多的两类,此外还包括社交位置和距离、各类物体、外貌着装、面部表情等等。动作要素多且场景清晰、元素丰富的图片更有利于激活标注者脑中的记忆图式,引发对事件的联想和推断。反之,如果人物动作要素过少,只能看出其微笑或哭泣的

20、表情,且所处环境模糊、元素单一的图片则会给推理带来一定的难度。4.图文推理结果分析本研究公开招募到来自重点高校的 50 多名在校大学生,最终有 33 名学生按要求完成了 2951 幅图片的多模态推理任务,得到 5902 条英文正反向推理句,构建了基于欧美电影剪辑图片的英文推理库。针对图文推理的结果分析,主要从标注者对前提的选择、图文推理的类型与特征及错误推理产生的原因三方面展开。4.1 前提的选择标注者从平台为每幅图片提供的 6 类前提中,选择了 2951 条与图片相匹配的前提。我们检查了这些所选前提的类型,删除了因标注者任意修改导致无法匹配的前提 9 条,并提取出每条前提的关键词,最终归纳

21、出2942 条前提的类型选择情况。选择性格特征类的居多,共计 857 条,占 29%,主要通过一系列形容词如 industrious、enthusiastic、attentive等体现出来。其次选择较多的为情绪类、人物关系类,分别占 522 条和 519 条,均占 18%。前者大多呈现消极的情绪,关键词有 somber、unhappy 等;后者多涉及friend、companion、sister 等名词,或 hurtful、serious、inti-mate 等描述人物关系状态的形容词。选择前情类、环境类和身份类的相对较少,平均在 350 条左右。前情类描述先前已经发生的事件,以

22、 got/lost somebody 这一短语结构为主,如person1 just got a new wife。环境类关键词有 peaceful、homey 等。身份类则用 teacher、detective等职业名词表示,或通过 university、hospital 等与职业相关的地点名词体现出来。4.2 图文推理的类型与特征4.2.1 图文推理类型检查人员通过线上线下平台完成了全部图片的推理质量查验工作,排除因机器识别问题导致的错误,发现有 267 幅图片对应的推理存在文文、图文不匹配的现象。本研究将对符合标准的 2674 幅图片,共计5348 条英文正向和反向推理句进行人工逐条分析。

23、对推理句的分析主要是从整句角度进行形式和语义的分析,提取出句中的推理关键词并进行统计,并尝试对推理进行归类。Zellers et al.(2019)针对视觉常识推理任务中的问题和回答,归纳了 7 种推理类型,第一类为解释性的“为什么”或“怎么样”的问题,第二类为询问正在进行的行为动作,第三类是关于时间的推理,即接下来可能会发生什么,此外还有对人物情绪、角色、所处环境等要素的推理。经过对本文正反向推理句的梳理,受 Zellers 推理类型的启发,我们将推理划分为 4 种类型,主要体现在推理人物的行为动作、心理活动、事件因果关系、人物角色等方面,并对每种类型的推理事件包含的关键动词等,进行词频和语

24、义类别的探讨。由于推理句考查的是对人类行为的推断能力,故本研究主要聚焦于推理事件中的动词和其语义分类。动词在推理事件中承载了语义中心,因此本文借助 Python工具逐一提取出这些推理句中的关键动词,如 talk(200)、ask(177)、tell(93)、leave(93)等。如该条推理句中不包含动词,则提取表达核心内容的形容词或名词。我们将这些关键词与 WordNet中的语义类别一一匹162023 年西安外国语大学学报第 1 期配,统计归纳出推理关键词所属语义类别的分布情况,将每类语义下的主要关键词列入表中,以便了解其所在推理句表达的具体事件(见表 1)。表 1.推理类型及关键词语义分

25、布推理类型推理条数主要推理关键词 WordNet 中的主要语义类别占比A.人物行为动作A1.正在进行的行为2132talk(131),ask(103),tell(64),discuss(31)(716)walk(40),come(28),leave(18),go(19)(347)look(53),listen(27),watch(27),find(20)(194)39.9%help(25),invite(24),try(20),work(19)(174)sit-1(15),put(12),hold(11)(164)wait(34),sit-2(12),stand(11)(111)A2.即将发生

26、的行为2067leave(75),go(41),take(30),walk(27)(456)ask(74),talk(68),tell(28),say(17)(426)hug(34),kiss(21),put(20),sit-1(16)(291)38.6%help(40),invite(26),play(12)(179)buy(29),give(27),steal(11)(141)A3.经常性行为46help(2),work(2)(11)0.9%tell(1),talk(1)(9)B.认知心理活动362feel(53),want(40),like(20)(161)think(54),know(

27、22),decide(17)(115)6.8%angry(14),sad(5)(81)C.因果关系659because(329),so(112),because of(55),for(40),in order to(35),so that(32)/12.2%D.其他(人物角色、人物状态、物体等)82stranger(6),husband(3)(26)single(1),exhausted(1)(17)1.6%car(2),umbrella(1)(15)合计5348100%表 1 的 ABCD 四种推理类型中,针对人物行为动作的推理比重最大,即表中的 A 类,共计 4245 条,约占80%。B、

28、C、D 三类为推理人物行为动作以外的认知心理活动、事件的因果关系以及人物角色等方面,共计1103 条,约占 20%。表 1 主要推理关键词根据词频由高到低选取,关键词后括号的数字代表出现的频次,如 A1 类的 talk(131)就表示关键词 talk 出现了 131 次,所属的语义类别为沟通类动词,该语义类是通过 talk、ask、tell、discuss 等高频动词体现的,A1 类中共出现沟通类动词 716 次。我们将 WordNet 语义类别中关键词出现次数总和靠前的几类与推理类型对应,由高到低在表中排列。表1 中推理关键词所属语义类别最多的四类分别是:沟通动词、运动动词、接触动词和社交动

29、词。其中沟通类动词分布于 A1(716)、A2(426)、A3(9)中,共出现 1151次,主要通过 talk、ask、tell 等动词体现。运动、接触、社交类动词分别出现 803 次、455 次和 364 次,运动动词有leave、walk 等,社交动词有 help、invite 等,接触动词有hug、put 等。由于 C 类主要提取的是表原因、目的的连词和短语,而 WordNet 只表征动词、形容词和名词的实体类别,因此没有标注其中的任何语义类别。4.2.2 图文推理特征接下来,对表 1 中的 A(A1、A2、A3)、B、C、D 等 4 种推理类型,对照图片,结合前提,进行推理形式和语义特

30、征的归纳。1)A1 类的推理多为推理图片中正在进行的行为,共计 2132 条。该类推理虽然表达人物当下的状态,但具体内容未在图片中直观显现出来,需要经过相关的联想和推断。句子时态以“现在进行时”或“一般现在时”为主,推理关键词的语义类别多见于沟通、运动和感知类动词,在整句中常伴随人物行为动作正在进行的方式(如 without having a look)、状态(如 happily)、场所(如outside the door)、对象或内容(如 the film clips on the screen)、目的(如 make person1 happy)等,例如图 2:图 2.类型 A1 的图文推理

31、示例图 2 中可以看出person1和person2面对面坐在一起,推理时有标注者根据前提person1 s job is an educator,做出了person1 is talking with person2 at a table in depth about the topic of how to plan the future life 26曾立英,等人工智能支持的英语图文推理及教学应用well 的正向假设。推理关键词为 talk,属于 WordNet 中的沟通动词。这一推理结论中谈话的内容(如何做好人生规划)阐释了前提中人类对于该职业(教育工作者)性质的一般性理解,近似于“解释

32、前提的推理”,即演绎推理(蔡曙山 2021:53),是由反映一般性知识的前提得出有关个别性知识的结论的一种推理。在 A1 类推理中包含关键词 talk 的推理句共有 131条,其中 87 条出现在正向推理中,44 条为反向推理句。正反向推理句的前提大多表达性格特征如 outgoing、talk-ative,其次陈述人物关系及其状态如 friend、mature,描述人物情绪如 embarrassed、unhappy 以及提示周边环境特征如 peaceful、horrible 等。2)A2 类推断的是即将发生的行为,共计 2067 条。该类型以“will/would/may/might/be a

33、bout to/be going to/plan to/prepare to/be ready to.+verb”结构作为标志,推理关键词主要有 leave、ask、hug、help、buy 等,语义类别分属于运动、沟通、接触、社交和占有类动词,例如图 3:图 3.类型 A2 的图文推理示例图 3 中 person1 张开双臂的动作,与前提person1 is person3s mother 相结合,有标注者做出person1 is opening her arms and will hug and kiss person3的正向假设,该假设根据母子关系的一般性知识推导出图中具

34、体人物发生拥抱、亲吻等亲密行为的个别性知识。其推理关键词为 hug 和 kiss,属于 WordNet中的接触动词。查询图文推理库,发现包含 hug 的其他8 条正向推理前提有一半是跟情绪有关的,关键词有gratified、panicked 等。再以推理事件中的高频关键动词 leave 为例,来发掘其前提选择与语义搭配情况,从而探讨推理事件产生的规律。其正向推理前提主要为消极的情绪,关键词有depressed、unhappy 等。反向推理中环境与情绪、性格特征类前提持平,关键词依次为 stormy、relaxed、bossy 等。这些推理事件的表达多以“离开+人物/方式(如 without s

35、aying a word、with the hat)/情绪状态(如 lonely、angri-ly)/场所(如 farm、bathroom)/物体(如 dining table、chair)/目的(如 to clean church)”等语义结构为主。3)A3 类则是对习惯性动作或状态的推导,共计 46条。这一类句子的形式标记为“often/always/every time/usually/as usual”等副词或短语,推理关键词主要有help、work、tell、talk 等,属于 WordNet 中的社交类和沟通类动词。例如前文图 1 的正向推理句,就是对person2可能具有“oft

36、en gets angry”这一经常性情绪表现的推测。在图文推理库中,人物经常性行为的推理以性格特征类前提为主,关键词有 sincere、moody 等。4)表 1 中 B 类推理人物的认知心理活动,共计 362条。该类推理事件以认知心理动词 think、know、feel、want、like,表意愿的短语 would rather、be willing to 和情绪类形容词 angry、sad 等作为整句的形式标记,关键词语义类别多分布于情感和认知类动词中,例如图 4:图 4.类型 B 的图文推理示例标注者根据图 4 中person2和person3的社交位置、面部表情,结合前提 becau

37、se of person2 s behav-ior,person3 feels very hopeless,推导出正向假设per-son3 is standing in front of person2 without a word and may decide not to talk to person2 anymore,其中的认知动词 decide 可以视作整句的关键词。在图文推理库中,认知动词 decide 的正向推理前提主要以表示情绪的 bleak、detached 等关键词为主,搭配的事件分别为 rush out of barrier、leave person2 behind and

38、 escape on his own。Decide 也可出现在反向推理中,其前提关键词也多为表达情绪的 morose、scared 等,搭配事件为 give a surprise、steal some sheep,从而与前提中郁闷或恐惧的情绪相悖。标注者除了推导出表 1 中的关键词外,还包括一些其他的心理活动,如描述情绪的 get bored/excited、worry,表达态度、看法的 cannot forgive/bear、ignore、insist、a-gree,以及与个人喜好有关的 love 等,这些都是根据图片和前提去预测人物的心理状态。5)类型 C 是推理事件的因果关系,是较为特殊

39、的一类,共计 659 条。推理关键词为 because、so、because of、for、in order to、so that 等表原因和目的的连词或短语,这一类型是在溯因推理的基础上,又增加了基于原因的进一步推测。溯因推理是“根据事物因果联系的认识,从作为结果的已知事物推断其原因的一种推理,是创造性思维的一种表现形式”(蒋景阳 2006:21)。例如图 5:362023 年西安外国语大学学报第 1 期图 5.类型 C 的图文推理示例图 5 中已知事物为人物的着装、追逐的动作等视觉信息,结合前提person1 is not a good guy 的人物特征设定,标注者推断出事件起因是

40、 because person1 steals something,并进一步预测出person2 and person3 will send person1 to prison 的结局。因果关系类推理中的原因,多为根据图片已知信息推断出的一些负面情绪或事件,并对下一步情节的预测产生影响。如因 look sad进一步推理出 comfort sb 等行为,因 do not like the way of talking 推导出 be angry 等态度,因 break someone s car window 推导出 take money for compensation 等事件后果,这些都是符合

41、因果关系的推论。罗仁地(2021)认为“交际的关键机制是溯因推理法,是对交际的本质以及语言的作用和本质的一种新理解”。类型 C 的推理形式反映在语言交际中可以推测对方做出某种交际行为的目的,以便对自身的言语行为做出调整,达到更加理想的交际效果。6)其余 82 条推理涉及人物角色、人物状态、物体、自然现象、事件、团体等相关内容,我们将其统一归纳为D 类。该类推理关键词以名词和形容词为主,如描述人物角色的 stranger、husband,呈现人物状态的 single、ex-hausted 以及将其作为主要对象展开推理的 car、umbrella等物体。4.2.3 错误推理分析通过严格的人工质量检

42、查,我们对前文所述的 267组文文、图文不匹配推理,逐一进行错误分析,将其不匹配的原因划分为以下两类:第一类错误源于推理结论与所选前提不一致,即文文不匹配。前者如标注人员选择的前提为 Because of what happened before,they have an affectionate relation-ship now,却做出person2 will stand up from the chair and walk away 的正向假设,person2“起身离开”的行为明显与前提中人物“亲热(affectionate)”的关系不符。此类问题共出现 194 组,大约占到所有错误的

43、70%。第二类错误主要体现为标注者对图片信息的不恰当解读,从而做出失败的推断,即图文不匹配,该类错误共有73 组。例如前文图 3,标注者的反向假设为person1 is in a nightgown and will kneel down to propose to person3,其中person1对person3“求婚”的行为与图片中人物外貌特征体现出的年龄明显不符。5.AI 图文推理于英语教学中的应用在语言学习的过程中,我们获取信息的途径是多样化的,人类往往在一个多模态的场景中理解语言,这需要学习者具有联合不同模态信息的能力。同时,针对当下外语教学“重浅层学习、轻深度学习”的现象,罗慧

44、芳(2021)提出教会学生从掌握语言知识、技能到用语言做事是外语学习的核心目标之一。因此本文依托人工智能技术,设计了英语图文推理的教学流程,主要包括推理设计、推理过程和推理评价三大模块。5.1 推理设计该模块主要为教学的开展设计推理任务,教师可参照“图片+前提行为”的推理框架,利用本研究中的图像与文本资源,要求学生完成相应的推理任务。5.2 推理过程这一模块分为三步。5.2.1 整合多模态教学资源徐锦芬(2019)提出信息化外语教学向着“创造性”“互动性”“泛在式”等方向发展,主要产生了三种创新教学类型,其中就包括以多模态语料库作为技术资源之一的“语料及数据驱动外语教学”。因此,可以通过建立符

45、合英语教学用的推理图片素材库和前提文本库,利用网络智能化任务生成平台,实现图文多模态资源的有效整合,为学生提供多渠道、多样化的学习资源。筛选场景清晰、人物动作元素鲜明的电影剪辑图片作为教学图片,重点选取展现人物性格特征、情绪状态以及人物关系的前提,提示学生注重这三类前提与人物行为的相关性。5.2.2 利用语境推理教师可通过引导学生根据 AI 智能识别的图片语境,以及选择与图片相匹配的文本语境,展开联想,启发学生借助上述语境形成推理路径,进行合情的推理。5.2.3 提供可供参考的推理模板相较于单一图片的描述任务,推理任务涉及较高认知水平的语言运用能力,具有更大的难度。AI 在经过大规模数据训练后

46、,可以生成多种推理模板(包含事件关键词及其相关搭配、各类句式等),协同教师的人工选择与调整,帮助学生快速适应任务难易度,进行有效推理。5.3 推理评价推理评价主要关注思维层级的纠错,目前广泛使用的人工智能技术可用于对学习者文本拼写和语法错误的自动纠错,但尚不能对思维的逻辑性进行评价。教师可借助本项目构建的英文图文推理库,设计评价维度,对学生实际推理中与图文语境不相匹配、不符合逻辑的错误进行引导性纠正。图文推理教学的评价机制能从思维等认知高度促进学生语言的深度表达,达到“以言行事”的效果。由于同一图片与前提在不同学习者身上唤起的知46曾立英,等人工智能支持的英语图文推理及教学应用识与情感深度,

47、以及在头脑中产生联想的认知广度不同,纯粹依赖 AI 生成的模板和评价可能会有不当之处,需要教师进行创造性地人工引领,激发学生联想、推断等高阶思维能力,关注语境的作用,通过机器生成的结果与人类实际推理的比对,发掘学生个性化的图文推理结果,提倡不同于机器的独创式推理,进而提升学生“关键性思考”的能力。6.结语目前依托 AI 的图片识别任务尚不能进行复杂的推理,此次开展的图文多模态推理任务,基于电影剪辑图片的实体识别与设计的前提,扩充了信息来源,将图像和文本语言互为补充,引导学生进行多模态思考,并展示了图文推理的设计和过程,构建了图文推理知识库,为今后人工智能的深度推理提供借鉴和帮助。与此同时,图

48、文模态推理研究分析了标注者对前提的选用,根据推理关键词的语义分类、句子的形式标记,归纳了图文推理的类型与特征,展示了人类推理的路径。此外,基于人工智能的图文推理对高校英语教学也具有重要的启示作用,鼓励学生用英语进行多元思维,促进信息技术与英语语言教育的融合发展。注释:视觉常识推理 VCR(Visual Commonsense Reasoning)作为多模态理解核心任务之一,由华盛顿大学等研究机构于 2018 年发起。ht-tps:/ WordNet(Miller et al.1995)是由普林斯顿大学开发,采用语义网络作为词汇本体表达基本方式的英语词汇数据库。它将动词划分为沟通动词(commu

49、nication)、运动动词(motion)、情感动词(emo-tion)、社交动词(social)等 15 个语义类别。Wordnet3.1 在线数据库:http:/wordnetweb.princeton.edu/perl/webwn参考文献1 Dong,Q.X,Qin,Z.W.,Xia,H.M.,et al.Premise-based Multi-modal Reasoning:Conditional Inference on Joint Textual and Visual CluesDB/OL.(2021-05-16)2022-0317.https:/arxiv.org/pdf/20

50、15.07122v-3.pdf.2 Ellis,A.Changing rational-emotive therapy(RET)to rational emo-tive behavior therapy(REBT)J.Journal of Rational-Emotive and Cognitive-Behavior Therapy,1995(2):85-89.3 Holsanova,J.Reception of multimodality:Applying eye tracking methodology in multimodal researchA.In C.Jewitt(ed).The

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 人工智能支持英语图文推理教学应用曾立英

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。