考试评价在教学诊断中的应用探索——以北京高考评价为例.pdf
《考试评价在教学诊断中的应用探索——以北京高考评价为例.pdf》由会员分享,可在线阅读,更多相关《考试评价在教学诊断中的应用探索——以北京高考评价为例.pdf(9页珍藏版)》请在咨信网上搜索。
1、2023 年第 5 期(总第 100 期)考试研究EXAMINATIONSRESEARCHNo.5,2023General No.100考试评价在教学诊断中的应用探索以北京高考评价为例丁秀涛摘要“加强考试评价研究,挖掘考试数据中蕴藏的教育教学信息”是实现高考引导基础教育教学的一个重要途径。实践中,模型简单、浅显易懂的经典测量理论在群体教学诊断方面具有明显优势。基于常模对高考各学科试卷进行知识、能力、素养等多维度的结构分析,通过分层分类分析法对考试数据进行深入挖掘,用考试数据进行区域教学诊断,能够发现不同区域、不同考生群体的学科优势与不足,引导教师更加关注学生的学科知识掌握情况、能力发展情况、素
2、养形成情况,有利于破除唯分数、唯升学的弊端。未来需要进一步加强对考试数据挖掘分析方法的研究;进行“无锚”等值技术和方法的研究;将结果性考试数据与学校过程性考试数据相结合,进行教学综合诊断。关键词高考;考试数据分析;考试评价;教学诊断中图分类号G424.74文献标识码A文章编号16731654(2023)05041009有什么样的评价指挥棒,就有什么样的办学导向。为深入贯彻落实习近平总书记关于教育的重要论述和全国教育大会精神,2020年10月,中共中央、国务院印发 深化新时代教育评价改革总体方案,提出“坚持科学有效,改进结果评价,强化过程评价,探索增值评价,健全综合评价”。旨在破除“唯分数、唯升
3、学、唯文凭、唯论文、唯帽子”的痼疾,扭转不科学的教育评价导向1。高考是连接基础教育和高等教育的重要枢纽,对基础教育发挥着“指挥棒”作用。中国高考评价体系 将高考的核心功能确定为“立德树人、服务选才、引导教学”2。可见,正在推进实施的新一轮高考改革特别注重高考对基础教育教学的引导。如何让考试正确引导教育教学?一个重要途径就是加强考试评价研究,通过分析考试数据,挖掘考试数据中蕴藏的教育教学信息,反馈指导教育教学,充分发挥考试数据在教学评价与诊断中的作用。有研究者基于中国知网20102019年的文献,对近10年来普通高考考试数据的研究现状进行了计量分析,发现:高考数据在使用量方面极其有限,基于高考考
4、试数据研究的期刊论文数量偏少,只占高考研究文献的1%;而且研究中所挖掘的数据量有限,很多文献仅是基于当年某个学校或某个地区的数据进行挖掘,数据样本很小,基于全国、全省级行政区的高考数据分析十分有限3。作为大规模教育考试,高考不仅能够完成公平作者简介 丁秀涛,研究员,北京教育考试院。北京,100083。基金项目 北京市教育科学“十三五”规划2019年度优先关注课题“高考综合改革背景下的考试评价研究与实践”(CDEA19057)。41考试研究 2023年第5期(总第100期)评价、选拔新生的任务,而且其考试数据中蕴藏着丰富的教育教学信息,如果只将高考作为高校录取的工具,是一种巨大的资源浪费。应当以
5、问题为导向,以改进教学为目的,充分挖掘、分析考试数据,发挥考试数据诊断、引导教学的功能。本着在我国现阶段可操作、可推广的原则,本文提出一些能够运用于反馈、诊断实际教学的考试数据分析方法,以期为挖掘、利用考试数据,促进教、学、考、招协同共进提供借鉴与参考。一、研究方法(一)测量理论的选择从利用考试数据反馈、诊断、指导教育教学的角度而言,考试评价研究的客体是教育教学情况,媒介是各学科试卷(测试工具)与考试数据,考试评价研究的最终目的是改进教育教学。2019年6月,国务院办公厅印发 关于新时代推进普通高中育人方式改革的指导意见(以下简称 意见),提出:减少高中统考统测和日常考试,加强考试数据分析,认
6、真做好反馈,引导改进教学4。文件明确了对于考试及考试数据分析利用的要求。减少考试与统测次数,就需要更加充分地分析利用考试数据,更加充分地发挥每一次考试的功能,利用考试数据诊断教学效果,利用考试数据反馈、改进教学。在 教 育 考 试 评 价 领 域 里,经 典 测 量 理 论(Classical Testing Theory,CTT)与 项 目 反 应 理 论(Item Response Theory,IRT)是目前被广泛使用的两种测验理论,二者各有优势5。近年来,项目反应理论得到业内的广泛重视,这对考试评价领域来说是一大进步。项目反应理论在测验等值、题库建设、量表开发等方面明显优于经典测量理论
7、,但项目反应理论却不能替代经典测量理论,尤其在我国现阶段,对于广大一线教育工作者来说,项目反应理论专业性较强,需要一定的专业背景方能理解与使用,在短时间内很难大范围运用于分析、诊断教学。从广泛理解与接受度来说,模型简单、浅显易懂的经典测量理论具有明显优势。因此,选用更容易被普遍理解和接受的经典测量理论与方法展开相关研究。(二)研究假设基于考试数据进行教学诊断的前提是各学科试题能够考查出考生的真实水平,达到应有的信度、效度、区分度等测量学指标。为验证这一点,北京市每年在高考各学科考后都会第一时间召开各区教研员、教师代表参加的考后座谈会;进行试卷质量的无记名问卷调查;出成绩后进行相应测量学指标的检
8、验。多年来,无论是定性调研还是定量检验,都证明北京市各学科高考试题达到了包括信度、效度、区分度等在内的相关测量学要求。因此,提出以下三点假设作为研究的前提:(1)考生的各学科考试成绩能够反映考生各学科知识、能力的水平;(2)考生群体的各学科成绩能够反映相应考生群体的学科知识、能力的水平;(3)不同考生群体的学科知识、能力水平可以反映一个区域的教育教学情况。(三)评价依据一直以来,普通高中课程标准 和 高考考试大纲 是课程教学和高考命题的依据,也是考试评价的依据。2018年1月,教育部发布 普通高中课程方案和课程标准(2017年版),首次基于学科本质凝练了各学科的核心素养,研制了各学科的学业质量
9、标准,明确了学生完成各学科学习任务后,学科核心素养应达到的水平,应达成的正确价值观念、必备品格和关键能力、关键表现。明确要求“校内评价或考试、学业水平考试、普通高等学校招生全国统一考试均应以本课程方案、课程标准和国家相关教学文件为依据”6。同时,国务院办公厅在 意见 中也明确提出:学业水平选择性考试与高等学校招生全国统一考试命题要以普通高中课程标准和高校人才选拔要求为依据,实施普通高中新课程的省份不再制定考试大纲4。因此,在高考综合改革背景下,普通高中课程方案和课程标准 既是课程教学的依据,也是考试命题的依据,更是考试评价的标准与尺度。在考试评价研究中,遵循 普通高中课程方案和课程标准,是保证
10、评价结果科学性的前提与基础。(四)在定量分析的基础上进行质性研究20世纪80年代,以库巴(Egong Guba)和林肯(Y.S.Lincoln)等为代表创立了“第四代教育评价理论”。第四代评价理论在实证的基础上,引进了质性研究 42考试评价在教学诊断中的应用探索以北京高考评价为例方法,注意了评价过程中评价双方的互动作用及动态分析。他们提倡在评价中充分听取不同方面的意见,并把评价看作是一个由评价者不断协调各种价值标准间的分歧、缩短不同意见间的距离、最后形成公认的一致看法的过程。这是在将基于考试数据的考试评价应用于诊断、指导教育教学中可以借鉴的。为此,北京高考考试评价将定量分析与质性研究相结合,在
11、对考试数据量化研究的基础上进一步采用质性评价方法。量化评价使用测量手段,用统计分析方法和数学量来评价教育现象;质性评价通过观察和实践,用定性的分析辩证地认识教育现象。质性评价既是量化评价的基础,也使量化数据分析得以深入,对问题间的交互影响和因果关系的分析具有独到的优势。把统计数据和评价者的经验、对教学现状的把握结合在一起,在评价中与中学教师互动,就是力求将学生的学习过程和教学过程体现在评价中。二、基于诊断教学的考试数据分析方法(一)分层分类分析法我国幅员辽阔,各省市基础教育发展存在较大差异,而对于一个省市来说,不同地区基础教育发展也不均衡。这种差异、不均衡与当地的经济发展、生源、师资、学校软硬
12、件、学生家庭背景等条件密切相关。如果忽视这些不同条件,只用一个标准来衡量不同区域、不同学校学生的学业水平是不科学的。因此,在利用考试数据分析、诊断教育教学时,有必要对各地区、各学校进行分层和分类,不同区域、不同类别学校用更适合各自的尺度来衡量,这样才能够准确诊断不同区域、不同学校的教育教学情况。与全国多数省市相比,北京市总体基础教育规模较小且相对均衡,即便如此,就北京市基础教育内部来说,仍然存在发展不均衡问题。例如,城区与郊区基础教育之间存在较大差异,加上初中升高中,使郊区优质生源向城区的流动、优秀教师从郊区向城区的流动,进一步加大了城郊之间高中教育的差距。同样,在一个区的不同学校之间,也存在
13、相似情况。因此,必须进行分层分类分析。同时,为了避免片面的唯高考成绩论英雄评价各个学校,与各区约定:不进行单个学校考试数据分析,请各区根据本区教育教学实际情况将高中学校分为三至四类(同一类别学校的基本情况大致相同或相近)。根据各区划分的学校类别,对各区高考数据进行多层次分析,形成各区的高考数据分析报告。各区的数据报告包括北京市整体、城区、郊区、本区整体、本区各类别学校5个层次。(二)常模参照、相对比较法高考的高利害性使得基于锚人、锚题等测验等值的测量技术难以实现。这就使得直接利用高考数据进行教学诊断分析带有局限性。为此,提出常模参照、相对比较法。常模是一种供比较的标准量数,由标准化样本测试结果
14、计算而来,即某一标准化样本的平均数和标准差,它是用于比较和解释测验结果时的参照分数标准。可细分为组间常模、组内常模。北京采取的是全样本分析,首先将市整体、城区、郊区的全样本作为三个组间常模群体。为了便于各区优势类别学校找到合适的参照目标,另从原来的市级示范校与区级示范校中分别抽取10所学校,形成示范校一、示范校二作为示范校抽样的组间常模。为了更精准地分析一个群体内不同层次考生的特点及其相应的教育教学情况,进一步按照各考生群体的学科总分从低到高平均分成10个学科能力水平组,形成该考生群体的10个组内常模群体G1G10。这样,提供给各区用于诊断教学的高考数据,除了该区考试数据,还有北京市整体、城区
15、、郊区、示范校一、示范校二5个组间常模数据,各区数据与各组间常模数据又都包括10个组内常模数据,供各区对区整体以及各类学校、各能力水平组学生进行学习情况的对比研究和分析。三、多维度挖掘,让考试数据发挥独有价值考试数据中蕴藏着丰富的教育教学信息,只有结合学科特点,依据学科课程标准,进行多维度深入分析,才能发现考试数据独有的价值。(一)维度划分北京在高考评价中,对每一类别的考生群体数据进行了分学科、多维度的挖掘分析。以某年度高考语文学科为例,分析维度包括:总分分析、题型分析、各内容组块分析、各能力组块分析、各专题分析以及各 43考试研究 2023年第5期(总第100期)大题、各小题、各选项分析,等
16、等。其中内容组块包括:多文本阅读、文言文阅读、古代诗歌阅读、文学作品阅读、微写作与大作文;能力组块包括:识记、理解、运用、分析综合、鉴赏评价与综合表达;专题分析包括:文言文文本内容的理解、文言文文本内容的归纳概括、古典诗歌内容的理解和作者情感的体察、古诗文名句名篇的识记理解和运用、现代文中信息的筛选整合、现代文作者思想感情观点态度的理解分析等。(二)客观、科学解读,赋予考试数据实践价值经过对各学科的每一个能够对教学诊断作为证据的维度进行统计分析,完成各学科的考试数据分析报告,只是完成了对各学科考试数据的定量研究,更加重要的是对这些数据报告进行客观、科学的解读,对考试数据进行质性分析,赋予考试数
17、据实践价值。这时,需要各学科的评价专家在听取各区教师、教研员对各学科试卷的意见以及一线教师与考生反馈的基础上,对照 普通高中课程方案和课程标准,运用自己的教学经验和对教学现状的客观把握,分析数据统计结果、考生的学科知识掌握情况、学科能力发展水平以及学科素养形成情况,研究所映射出的学科教育教学情况,探究影响教学的各种因素,进行归因分析,提出教学改进建议。(三)案例分析从 某年度北京市高考语文学科考生水平评价及教学建议 中选取一个案例,介绍高考评价在教学诊断中的具体应用方法。评价研究组将当年语文学科试卷按照考查内容分为多文本阅读、文言文阅读、古代诗歌阅读、文学作品阅读、微写作、大作文6个组块。全市
18、考生在各组块的整体表现如表1所示:表1某年度高考语文试卷内容组块总体分析表题目多文本阅读文言文阅读古代诗歌阅读文学作品阅读微写作作文满分值222620221050平均值18.0713.111.4513.276.2935.14标准差2.64.444.413.131.154.52差异系数0.140.340.390.240.180.13得分率0.820.500.570.600.630.70从表1可以看出,各内容组块考生得分率由高到低依次为多文本阅读、作文、微写作、文学作品阅读、古代诗歌阅读、文言文阅读,考生得分率最低的是古诗文阅读。结合标准差和差异系数看,考生成绩在古代诗歌阅读和文言文阅读两个组块离
19、散程度最大。为了解不同能力水平学生的特点,将考生按照语文学科总分从低到高平均分为 10 组(G1G10),根据各组考生在各知识组块的得分率做出该年度高考语文各内容组块分组得分率曲线图。图1某年度高考语文各内容组块分组得分率曲线图 44考试评价在教学诊断中的应用探索以北京高考评价为例从图1可以明显看出,各内容组块高分组与低分组水平差距由大到小依次为古代诗歌阅读、文言文阅读、文学作品阅读、多文本阅读、作文、微写作。可以说,古诗文阅读是拉开考生差距的关键组块。对于古代诗歌阅读,全市前20%的优秀学生得分率能够达到0.7以上,而后20%的学生得分率低于0.4。对于文言文阅读,无论哪个层次的考生,表现都
20、不令人满意,全市前10%的优秀学生得分率也未能达到0.8,全市中等生(G3G7)得分率在0.5左右,而后20%的学生得分率仅在0.3左右。这固然有命题难度的原因,但也暴露出学生在古诗文阅读方面的薄弱之处7。进一步从当年古诗文阅读组块中选取第 12题进行分析。第 12 题考查了传统文化经典 论语 的阅读。其中,第12_1题需要考生在理解文意的基础上把握孔子的思想,第12_2题则要求考生能够准确解说不同学者对同一句子的解读,既考查独立阅读文言文的能力,又考查对孔子思想的把握。表2第12题总体分析表题目12_112_212满分值347平均值1.211.682.88标准差0.841.391.86差异系
21、数0.690.830.65难度0.400.420.41鉴别指数0.350.490.43图2第12题分组得分率统计图结合表2相关数据及图2可知,第12题得分率为0.41,考生整体表现不理想。G10组考生优势较明显,平均得分率为 0.72,G1G3组得分率均在 0.30之下,其中G1组得分率只有0.14。评价专家认为,客观地说,在本届学生的教学过程中,广大一线教师对 论语 的阅读非常重视,在内容整合、专题教学、策略优化等方面付出了许多努力,但从第 12 题考生的表现看,成效还有待提升。文化经典论著教学面临着诸多挑战:阅读时有较大的文字障碍,基础薄弱的学生读懂尤其困难;内涵丰厚,博大精深,对学生的认
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 考试 评价 在教 诊断 中的 应用 探索 北京 高考
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。