ChatGPT命题潜力的实证研究.pdf
《ChatGPT命题潜力的实证研究.pdf》由会员分享,可在线阅读,更多相关《ChatGPT命题潜力的实证研究.pdf(11页珍藏版)》请在咨信网上搜索。
1、003ChatGPT命题潜力的实证研究ChatGPT命题潜力的实证研究杨志明徐庆树祁长生摘要ChatGPT是一种功能十分强大的自然语言处理工具,若能利用它协助命题,则对考试工作和作业设计有重大意义。根据现代教育测量理论的命题要求,探讨了ChatGPT的命题潜力,发现在命题素材完备、任务指令明确且具体等条件下,用户通过连续追问等方式,可以诱导ChatGPT撰写出质量不错的试题,或提供一些富有创意的命题情境。不过,ChatGPT撰写的客观题存在着没有答案或多个答案并存等风险,其撰写的主观题难度往往难以控制。因此,ChatGPT撰写的题目必须通过高水平专家团队的系统审查,最好能对ChatGPT撰写的
2、试题做先导测试,以确保题目的质量和难度要求。这些发现对作业设计和低利害考试的命题工作具有较大价值。关键词ChatGPT;考试命题;中国英语能力等级量表;高考评价体系中图分类号G40-058.1 文献标识码A DOI编码10.16518/ki.emae.2023.04.001 ChatGPT是一款生成式人工智能(artificialintelligence,AI)对话系统,它的产生和发展引起了全社会的高度关注。一方面,大众对这款AI系统解决问题的能力充满期待,认为它会给教育等许多领域带来革命性的影响,如学生的学习方式将走向个性化、考试和评价方式将走向自动化等。据说,在美国律师资格模拟考试中,Ch
3、atGPT的成绩排名在前 10%左右;在美国高考SAT阅读考试中,其成绩排名在前 7%左右;在SAT数学考试中,其成绩排名在前 11%左右;在美国研究生入学考试(GRE)的verbalreasoning部分,其成绩排名更是冲到了前 1%。1不过,也有研究表明,ChatGPT作答批判性思维测验的正确率不足五成,在一些批判性思维技能方面,其正确率只有 25%。2另一方面,人们十分担心ChatGPT的不断升级会造成很多负面影响,如许多工作将被ChatGPT所取代、学生可能会用ChatGPT代做作业或协助考试作弊等。因此,部分高校出台了禁止学生使用ChatGPT做作业等规定。3-4显然,正确认识Cha
4、tGPT的价值和可能的负面影响,对于用好ChatGPT意义重大。特别地,对于考试行业来说,命题工作不仅十分重要,而且成本高昂。若能利用ChatGPT帮助命题,则会带来重大价值。因此,笔者基于现代教育本文为中国教育发展战略学会教育考试专业委员会 20212022年度教育考试专项课题“智能化自适应学业水平考试系统的研发”(jyks2022021)阶段性成果。杨志明/湖南师范大学测评研究中心主任、外国语学院教授,博士生导师,香港中文大学博士。(长沙 410081)徐庆树/湖南师范大学外国语学院博士生。祁长生/深圳市卓帆技术有限公司董事长。004教育测量与评价/测评新视点/20234测量理论,以新概念
5、英语第 2 册第 1 课“APrivateConversation”为素材,通过连续提问的方式,让ChatGPT撰写了一些试题,得到了一些有价值的信息,对于教师的作业设计和考试命题很有启发意义。一、ChatGPT概述1.ChatGPT的产生和发展ChatGPT是OpenAI公司推出的一种自然语言处理(naturallanguageprocessing,NLP)模型。其中,Chat是对话的意思,GPT是generativepre-trainedtransformer(生成式预训练变换模型)的缩写。其工作机理是通过预先学习(pre-trained)大量现成文本和对话集合,对用户输入的文本通过生成(
6、generative)方式做出各种智能回答(chat)。其智能水平也随着ChatGPT的升级换代而不断提高。根据OpenAI公司发布的信息,ChatGPT的升级主要体现在其所用模型的参数量和用于预训练的数据量的增长方面。其中,2019 年 2 月升级的GPT-2 的参数量为 15 亿,预训练数据量为 40GB。2020 年 5 月升级的GPT-3 的参数量为1750 亿,预训练数据量为 45TB。2021 年升级的GPT-3.5(参数量和预训练数据未知)可以回答任何文本问题,并完成多轮对话。2023 年 3 月升级的GPT-4(参数量和预训练数据未知),在图像、音频等处理方面具有更好的表现,其
7、智能水平超过了 90%的美国高考SAT-I考生。2.ChatGPT的核心技术与功能ChatGPT的核心技术5主要有 5 项。(1)transformer(编码与解码转换)技术,一种基于自注意力机制的深度神经网络。这种网络包括编码器(encoder)和解码器(decoder)两个部分,其中编码器包括自注意力子层(self-attention)和全连接前馈神经网络子层。编码器子层的作用是计算输入序列中不同位置之间的依赖关系结构并进行特征表示,对新生成的特征表示进行处理,并生成最终的表征向量。解码器的基本结构与编码器类似,但针对编码器的输出,增加了新的多头注意力层(multi-headattenti
8、on),加入了参数归一化设定(add&norm),以防止解码过程中后继位置信息泄露(residualconnection)。(2)基于transformer的网络结构。GPT的信息转换器由很多层编码器和解码器组成,其最终构成一个十分庞大的神经网络。该网络运用自回归方式,实现了通过给定上文预测下文,或通过给定下文推测上文的功能,并解决了不同格式文本语料之间的转换问题。(3)RLHF技术。即基于人类反馈的强化学习(reinforcementlearningfromhumanfeedback,RLHF)。这种强化表现为 3 种方式:其一,监督式微调,即利用符合人类预期的少量标注数据对预训练模型参数进
9、行调整,初步优化文本生成模型;其二,构建奖励模型,目标是通过对监督式微调生成的多个结果进行人工排序标记,训练奖励函数模型,用于强化学习模型输出结果的自动化评价;其三,使用近端策略优化算法(proximalpolicyoptimization,PPO),即结合奖励模型对文本生成模型的结果进行自动评估,并采用强化方式对文本生成模型进行优化,使其最终具备生成符合人类预期的文本的能力。(4)指令微调技术(instructiontuning)。即通过将预设的指令描述与生成文本相结合,构建训练数据,从而微调文本生成模型的参数。其核心思想是将自然语言处理相关任务转化为基于指令描述的文本生成问题。GPT可以基
10、于指令描述,促使模型理解指令任务,进而生成预期文本。005ChatGPT命题潜力的实证研究(5)思维链技术(chainsofthought)。即有针对性地设计模型的指令输入,促使模型将单步骤推理任务拆解为包含多个中间步骤的任务。其中,每一个中间步骤由一个相对简单的指令输入作为引导,从而构成一个有逻辑的多步骤过程。这种技术可以引导文本类内容的生成,辅助模型生成和解决复杂逻辑推理任务。与过去的AI系统相比,ChatGPT的最大特点是使用了生成式而不是基于规则的连续提问对答方式,其主要功能表现为以下 4 个方面。(1)创造性地生成新内容:可以根据文本中的上下文信息,产生具有创意的答案。(2)捕捉用户
11、的意图:可以通过多轮对话捕捉用户的意图,不断修改自己的答案。(3)执行序列任务:可以通过多轮对话方式,执行用户提出的序列任务。(4)编写程序:可以根据需要编写计算机程序。53.ChatGPT对教育的影响在教育领域,ChatGPT对教、学、评 3 个方面都有着重大影响。在教学方面,教师可以借助ChatGPT的创意文本生成功能、RLHF技术和可执行序列任务的功能,通过不断提问、缩小问题范围等方式,让ChatGPT生成教学素材、设计教学方案、模拟教学过程等。在学习方面,学生可以利用ChatGPT的互动式人机对话功能,搜寻知识、解答疑点、概括要点和探究未知等。在教学评价方面,教师可以利用ChatGPT
12、编写试题、设计试卷、编写作业、诊断学情、撰写报告等。许多学者认为,ChatGPT可以促进教学模式转变,适应教育数字化、数字教育的转型,从传统“师生”二元结构转向“师生机”三元结构;可以加速现行考核体系转变,逐步从知识测评转向“知识+素养”测评;可以推进现有智能教育应用生态的转变,从孤立、专用的教育应用转变为连接、共享、智能的教育平台;可以促进教育理念的转变,实现跨班级、跨学科、跨学校、跨时空的个性化学习方式等。6不过,也有不少学者十分担忧ChatGPT可能引发教育诚信危机等问题。7比如,学生可能用它代写作业或论文,研究人员还可能用它代写研究报告或论文,这就会干扰正常教学,突破学术伦理底线等。同
13、时,由于ChatGPT生成的文本格式非常规范,用户不太容易察觉其可能存在的错误或误导。笔者在探究ChatGPT功能的过程中,就遇到过它编造虚假参考文献,回答问题模式化、套路化等方面的问题。这就要求教师在传授知识的同时,还要着力加强学生分析性思维和批判性思维能力的训练,培养学生识别信息真伪的习惯和能力。此外,ChatGPT还可能导致新的隐私保护问题,引发公众对个人隐私、数据安全及伦理问题的担忧。不过,上述研究大都属于理性分析,实证研究并不太多。为了用好ChatGPT,克服其缺点,发挥它在考试行业的价值,很有必要通过实证的方式系统考察其命题水平。二、基于现代教育测量理论的ChatGPT命题设计利用
14、ChatGPT命题,必须先给它设计一系列工作指令。按照现代教育测量学的要求,要命制优良试题,就要预先设定考试蓝图、明确命题的具体要求、提供完整的命题素材等,这些要求都需要反映在给ChatGPT的指令当中。1.考试蓝图要求在设计英语试题或作业时,首要任务是要设计考试蓝图,界定试题或作业所要覆盖的必备知识、英语能力和学科素养。根据 中国英语能力等级量表(简称CSE),英语知识主要包括语法知识、篇章知识、功能知识和社会语言知识 4006教育测量与评价/测评新视点/20234表 1基于CSE和学科核心素养的英语考试蓝图设计样例统计量语言能力文化意识思维品质学习能力总分语言理解能力语言表达能力语用能力翻
15、译能力语言使用策略英语知识语法知识7720244531篇章知识5320244424功能知识3320244422社会语言知识3420244423合计1817808161617100注:表格中的数字可以是分数比例或题目数量。个模块,英语能力包括语言理解能力(听力和阅读)、语言表达能力(口语和写作)、语用能力、翻译能力和语言使用策略 5 个维度8;根据课程标准,英语学科核心素养包括语言能力、文化意识、思维品质和学习能力 4 个方面9-10。表 111是基于CSE和学科核心素养设计的英语考试蓝图。根据表 1,本研究要求ChatGPT分别创设一些能够考查英语语法知识、篇章知识、功能知识和社会语言知识的题
16、目,同时要求这些题目能覆盖课程标准所要求的语言能力、文化意识、思维品质和学习能力等 4 种学科核心素养。2.考查要求高考评价体系提出了基础性、综合性、应用性和创新性的考查要求。12因此,命题人员在给ChatGPT发出指令时,可以明确要求它分别命制一些基础性的、综合性的、应用性的、创新性的试题。13基础性命题主要考查学生对英语学科主干知识的掌握程度,包括对语法知识、篇章知识、功能知识和社会语言知识的掌握程度;综合性命题考查的是学生对所学知识的融会贯通程度,以及综合运用听、说、读、写等多种英语能力的水平;应用性命题主要体现在真实或模拟的语言情境中运用所学英语知识的水平,包括学生使用英语从事日常交际
17、、学习和思辨活动,达到交际目的和解决实际问题的能力;创新性命题强调创新意识和创新思维,要求合理呈现试题情境,设置新颖的试题呈现方式和设问方式,考查学生完成开放性或探究性任务的能力,鼓励学生创造性地思考问题和解决问题,包括引导考生积极参与跨文化交流、学习和思辨活动,积累中外文化知识,掌握多种思维方式,在跨文化的互动与融合中形成一定的创新意识和能力。3.命题素材要求为了方便,本次命题的素材选择了 新概念英语 第 2 册第 1 课的内容,设计了 3 种水平的素材信息。水平 1:只要求ChatGPT以新概念英语第 2 册第 1 课的内容为命题素材;水平 2:给ChatGPT提供课文全文;水平 3:给C
18、hatGPT提供课文全文以及相关词汇的解读。三、基于现代教育测量理论的ChatGPT命题表现参照CSE和高考评价体系,利用ChatGPT命题的英语试题内容主要包括语法知识、篇章知识、功能知识和社会语言知识,考试命题主要从基础性、综合性、应用性或创新性方面进行设计。以下分别针对客观题(4 选 1 题型)和主观题的命题设计及其效果进行讨论。007ChatGPT命题潜力的实证研究1.ChatGPT命制客观题的表现(1)若用户给ChatGPT的指令比较抽象,且所用命题素材信息为水平 1,则ChatGPT的命题表现不够理想。在这种命题情境下,它撰写的题目不仅难度不够,而且可能存在错误,并与用户给定的命题
19、素材基本无关。比如,仅仅要求ChatGPT针对新概念英语第 2 册第 1 课的素材,从语法知识、篇章知识、功能知识和社会语言知识 4 个方面分别命制 2 题,它给出了如下 8 题(题 1题 8)。题 1(语法题/基础性命题):Whichsentenceisgrammaticallycorrect?A.Iplaysfootballeveryday.B.Sheplayfootballeveryday.C.Heplaysfootballeveryday.D.Theyplayfootballeveryday.题 2(语法题/基础性命题):Choosethecorrectformoftheverbtoc
20、ompletethesentence:Weourhomeworkyesterday.A.do.B.did.C.does.D.done.题 3(篇章题/综合性命题):Whatisthemaintopicofthepassage?A.Sports.B.Travel.C.Food.D.Education.题 4(篇章题/综合性命题):Whatistheauthorspurposeinwritingthispassage?A.Toentertainreaders.B.Topersuadereaders.C.Toinformreaders.D.Tocriticizesomething.题 5(功能题/应
21、用性命题):Inwhichsitua-tionwoulditbeappropriatetosay“Nicetomeetyou”?A.Whensayinggoodbyetoafriend.B.Whenintroducingyourselftosomeonenew.C.Whenaskingfordirections.D.Whenorderingfoodatarestaurant.题 6(功能题/应用性命题):WhatwouldyousaytoexpressgratitudeinEnglish?A Sorry.B.Please.C.Thankyou.D.Excuseme.题 7(社会语言题/应用性命
22、题):WhichofthefollowingphrasesiscommonlyusedtoapologizeinEnglish?A.Howareyou?B.Seeyoulater!C.Imsorry.D.Goodmorning.题 8(社会语言题/应用性命题):Whichgreetingisappropriateinaformalbusinesssetting?A Hi!B.Hey,whatsup?C.Goodmorning.D.Yo!【题目点评】题 1 和题 2 考查的是语法知识,分别考查动词的形态与时态如何与主语保持一致的问题,但第 1 题的选项中有两个答案(C和D),第 2 题答案为B。
23、这两道题目质量不太好,而且与命题素材无关。题 3 和题 4 考查的是篇章知识,分别考查阅读材料的“主旨”和作者的“意图”,但题 3 没有正确答案,题 4 答案为D。这种题目似乎是一种套路。题 5 和题 6 考查的是功能知识,要求考生选择恰当的“问候”和“致谢”短语,答案分别为B和C。这两道题目也很简单,而且与命题素材没有关系。题 7 和题 8 考查的是社会语言知识,分别考查的是“道歉”和“问好”的使用水平,答案都为C。其中,题 7 太过简单,题 8 的答案有些勉强,题目内容与命题素材无关。008教育测量与评价/测评新视点/20234(2)若用户给ChatGPT的指令比较明确和具体,所用命题素材
24、信息为水平 2,则ChatGPT的命题水平会有所提升,但质量仍然不尽如人意,而且题目内容与用户给定的命题素材无关。例如,给ChatGPT提供新概念英语第 2 册第 1 课的原文素材,并要求它从语法知识、篇章知识、功能知识和社会语言知识 4 个方面分别命制 2 题,它给出了如下 8 题(题 9题 16)。题 9(语法题/基础性命题):Choosethecorrectformoftheverbtocompletethesentence:Ianewbookyesterday.A.buyB.buysC.boughtD.buying题 10(语法题/基础性命题):Whichsentenceisgramm
25、aticallycorrect?A.Shedontlikepizza.B.Hedoesntlikespizza.C.Theydoesntlikepizza.D.Wedontlikepizza.题 11(篇章题/综合性命题):Whatisthemaintopicofthepassage?A.Dailyroutines.B.Sportsactivities.C.Famouslandmarks.D.Foodpreferences.题 12(篇章题/综合性命题):Whatistheauthorspurposeinwritingthispassage?A.Toentertainreaders.B.Top
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ChatGPT 命题 潜力 实证 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。