不同基准年级下锚题难度范围与年级离散程度对垂直量尺化的影响.pdf
《不同基准年级下锚题难度范围与年级离散程度对垂直量尺化的影响.pdf》由会员分享,可在线阅读,更多相关《不同基准年级下锚题难度范围与年级离散程度对垂直量尺化的影响.pdf(9页珍藏版)》请在咨信网上搜索。
1、心理学探新2 0 2 3,Vol.43,No.1,68-76PSYCHOLOGICALEXPLORATION不同基准年级下锚题难度范围与年级离散程度对垂直量尺化的影响黎光明张晓婷(华南师范大学心理学院,心理应用研究中心,广州510 6 31)摘要:使用3PLM和蒙特卡洛法生成数据,基于非等组锚题设计,考察不同基准年级下锚题难度范围与年级离散程度对垂直量尺化的影响。结果发现:(1)基准年级的选择会影响垂直量尺化的精度。(2)锚题设计下垂直量尺化的转换不宜超过两个年级。(3)不同基准年级下,年级离散程度越小,估计精度越好。(4)不同基准年级下,对锚题难度范围的选择应有所不同。(5)年级离散程度与锚
2、题难度范围之间存在交互效应。关键词:垂直量尺化;基准年级;锚题难度范围;年级离散程度;测验等值中图分类号:B841.21引言垂直量尺化(vertical scaling),又名垂直量表化、垂直等值(verticalequating),是指在某个特质领域内,在纵向发展的不同水平(如年龄、年级)群体之间,建立关于群体或者个体特质水平发展状况的评价参照体系的过程(漆书青,戴海崎,19 9 2)。垂直量尺化广泛应用于TIMSS、PI SA 等国际大型测验(罗照盛,2 0 12;Kolen&Brennan,2013)。当不同测验之间的难度水平相差较大且受测者的能力水平存在一定差距时,不再满足测验等值(t
3、esting equating)中的水平等值(horizontal equating)条件,宜使用垂直量尺化,其能够有效评价和预估个体或群体动态发展水平和趋势,进而为教育发展与评估提供相关建议。垂直量尺化主要是用来描述某一群体的纵向发展水平,而水平等值需要建立各个平行测验之间的确切关系,相较而言,垂直量尺化的流程无需进行最后的测验等值步骤,却需将非平行测验转换到同一量尺(叶昶成,2 0 15)。对于能力不同层次的测验群体,比如小学14年级学生,必须选定一个年级作为分数转化的基准,将其他年级的分数转化到该年级上形成一个统一分数量尺,一般称为垂直量尺(v e r t i c a l s c a l
4、 e)或发展性量尺(developmental scale)。由于分数转化的算法是一个逐步叠加的过程,比如文献标识码:A文章编号:10 0 3-518 4(2 0 2 3)0 1-0 0 6 8-0 9从3年级转化到2 年级再转化到作为基准的1年级,所以当前年级距离基准年级越远,转化的次数越多,受到等值方法误差的影响可能就越大,垂直量尺化精度可能就越低(郭小军,2 0 14;梁正妍,2 0 17)。因此,在实践中通常选用处于中间的年级作为基准来减少误差。在构建垂直量尺的最初阶段,需要选定相应模型拟合被试的真实作答情况,针对二级计分的测验,通常会选择逻辑斯蒂克模型(Petersenetal.,1
5、9 8 9)。郭小军(2 0 14)采用两参数logistic模型(2 PLM)进行数据模拟,发现基准年级的选取和年级离散程度对垂直量尺化效果产生较大影响。梁正妍(2 0 17)同样采用2 PLM,探究年级离散程度与锚题比例对于垂直量尺化的影响,发现两者存在交互作用。近年来,国内外对于垂直量尺化的研究不断深,尝试从多角度、多方面来研究影响垂直量尺化精度的诸多因素,如基于不同模型、不同等值设计、不同题型种类、不同题目难度、是否包含题组、不同测验规模大小、不同被试群体差异、不同参数估计方法等(陈丽,2 0 14;Sari&Kelecioglu,2016;Carlson,2017)。在垂直量尺化设计
6、中,锚题设计因其实际可操作性而应用最为广泛(王烨晖,边玉芳,2 0 10)。基于这种设计,有学者探讨了基准年级、年级离散程度对垂直量尺化的影响,发现基准年级的合理选取*基金项目:广东省自然科学基金面上项目(2 0 2 1A1515012516),广东省普通高校特色创新类项目(哲学社会科学)(粤教科函2 0 2 1 7号,2 0 2 1WTSCX020)。通讯作者:黎光明,E-mail:Lg m2 0 0 410 0 s i n a.c o m。第43卷第1期可以有效降低垂直量尺化的误差,同时,其与年级离散程度存在密切关系(郭小军,2 0 14)。梁正妍(2 0 17)对垂直量尺化中不同年级离散
7、程度下锚题比例的选取进行了深入研究,发现锚题比例与年级离散程度有显著的交互作用。锚题的代表性对测验等值的影响一直以来受到众多研究者关注,其中典型的有锚题难度范围的代表性(叶萌,辛涛,2 0 15)。叶萌和辛涛(2 0 15)对垂直量尺化中锚题代表性问题进行了详细的阐述,提出了锚题难度范围的设定会影响垂直量尺化的精度,其将垂直量尺化中锚题难度范围设置为三种水平,结果发现不同锚题难度范围对垂直量尺化性能和参数返真都有影响,但其没有在不同年级离散程度的群体中进行探讨,未能发现年级离散程度和基准年级的设置对锚题难度范围选取的影响。在锚题设计中,如何选取难度合适的题目构成锚题是实践中的关键问题和难点。由
8、于锚题处于低年级测验的结尾和高年级测验的开始位置,如果锚题选取不当,则会出现项目参数漂移(itemparameterdrift),即同样的题目在两个位置发挥不同的作用,从而降低垂直量尺化的精度(Wellsetal.,2 0 0 2)。过往的研究和实践中锚题是从低年级测验中随机抽取的,不能保证难度的代表性。对于如何设置锚题难度范围这一问题,Sinharay和Holland(2006,2007)研究发现,在题目难度和测验特征的关系中没有表明微型锚测验(锚题与总测验难度范围相匹配)是理想的锚测验,其设置了三种难度范围的锚测验,分别是微型锚测验、midi锚测验(在内容上对总测验具有代表性,但只包括中等
9、难度的题目)以及半midi测验(难度范围小于微型测验,但大于midi测验),结果显示midi锚测验和总测验的相关稳定性高于微型锚测验和总测验的相关稳定性,midi锚的性能和微型锚的性能一样,后续的研究也验证了这一结论(Liu etal.,2 0 11)。C h in 等(2 0 0 6)在垂直量尺化中将锚题难度范围设定为小中大三个等级,结果发现不同锚题难度范围对垂直量尺化性能和参数返真都有影响,难度范围扩大会使这两种分析结果更准确。可见,在实际应用中设置锚题难度范围的标准是十分重要的。前人对于垂直量尺化影响因素的研究较为深人,分别从被试数量、题目数量、年级数量、基准年级、年级离散程度、锚题比例
10、、难度范围等方面对垂直量尺化的影响进行了较为深入的探讨。但是,前黎光明等不同基准年级下锚题难度范围与年级离散程度对垂直量尺化的影响69人的相关研究仍然存在以下问题:一是多采用两参数logistic模型(2 PLM)来估计项目参数和能力参数,未能估计猜测参数c,实际上,相比2 PLM,三参数logistic模型(3PLM)更加适用于可猜测作答的选择题等客观题型(戴海琦,张峰,2 0 18),使用范围增大,可能将提高垂直量尺化的精确性;二是对于锚题的代表性研究,未能同时关注“锚题难度范围”和“基准年级选取”,缺乏探讨对于不同基准年级下锚题难度范围与年级离散程度对垂直量尺化的影响,这对于锚题设计下的
11、垂直量尺化研究来说,是可以深人分析的方向。基于此,本文对锚题的选取提出了更高的要求,以不同锚题难度范围和不同基准年级“联合作用”为突破点,使用3PLM,探讨不同基准年级下锚题难度范围与年级离散程度对垂直量尺化的影响。2方法2.1研究设计采用2 33三因素随机实验设计,自变量1为基准年级(边缘年级,中间年级);自变量2 为锚题难度范围(较小low,igh、中等low-,high+、较大1ow-2g,high+2);自变量3为年级离散程度(相邻年级间效应ES大小:0.5、1.0、1.5)。因变量为等值精度指标Bias和RMSE(Brigs&Peck,2015;Briggs&Dadey,2015)。
12、(1)基准年级。对于基准年级的选择一般有两种,即边缘年级(低年级或高年级)和中间年级。本文设定了四个年级,对于基准年级,边缘年级为1年级,中间年级为2 年级。采用非等组锚题设计,锚题为相邻年级共用的题目。(2)锚题难度范围。依据Chin等(2 0 0 6)选取标准,分别选取锚题难度范围较小(两个相邻年级能力均值之间),锚题难度范围中等(低于低年级群体能力均值一个标准差和高于高年级群体能力均值一个标准差之间),锚题难度范围较大(低于低年级群体能力均值两个标准差和高于高年级群体能力均值两个标准差之间),作为锚题难度范围的指标。(3)年级离散程度。垂直量尺化的结果一般从三个角度进行评价,即跨年级增长
13、(grade一tograde growth)、跨年级变异(grade t o g r a d e v a r i a-bility),以及年级间的离散程度(separationof gradedistribution)。其中,年级间的离散程度应用最为广泛,是指两个相邻年级的量尺分数分布的重叠程度,俗称为“年级离散程度”。多数研究使用效应大小70(Ef f e c t Si z e,ES)这一统计量来表示年级离散程度(Ye n,19 8 6),其计算公式为:i(Y)m-i()oaES=一()o()2在公式(1)中,i(Y))(Y)m表示高年级能力水平的均值和方差,i(Y)i o me r v o
14、 2(Y)i o e r 表示低年级能力水平的均值和方差。随着ES的上升,年级间的增长趋势增大。对年级离散程度的选择包含年级离散程度较小(ES=0.5),年级离散程度中等(ES=1.0),年级离散程度较大(ES=1.5)。(4)固定变量。蔡艳等(2 0 0 9)通过固定被试数和测验长度,得出当测验长度为10 0 时锚题比例最低可达14.2 9%。熊建华等(2 0 10)提出当测验长度为6 0 0、30 0、2 0 0、10 0 题时,相应比例可以降低到1/15、1/12、1/10、1/5。参考前人研究,本文锚题比例固定为2 0%。题目数固定为10 0,年级人数固定为1000。2.2模拟流程分别
15、以低年级和中间年级作为参照基准,使用自编R3.0程序,基于蒙特卡洛模拟法,采用三参数logistic模型获得四个不同年级组被试在本年级上的作答矩阵。模拟四个年级上各10 0 道题目的项目参数以及各年级10 0 0 名被试的能力参数。使用BILOGM G 软件进行同时估计(Yildirim,2014),计算不同锚题难度范围以及不同年级离散程度下4个年级的偏差Bias和返真性参数RMSE。以低年级为基准年级为例,具体模拟过程见图1。2.3评价指标常用的垂直量尺化评价指标为Bias和RMSE。(1)Bias,即平均偏差,是考察真值与估计值之间偏差的一个指标,其主要用于检测研究中是否含有系统误差,以及
16、偏差的方向性问题。Bias值为正,代表低估,Bias值为负,代表高估。Bias=nxR(2)R M SE,即均方根误差(RootMeanSquareError),是真值与观测值偏差的平方和观测次数n比值的平方根。均方根误差对一组测量中的特大或特小误差反映非常敏感,所以能够很好地反映出估计的精度。RMSE是对一组测量数据可靠性的估计。RMSE越小,测量的可靠性越大,估计精度就越高。心理学探新设定基准年级1的能力u,-0,8,-1,其余年级被试能力8-1,通过效应大小公式,计算能力均值u2、u 3、u 4。(1)模拟生成等值系数,分别记为A12与B12、A 2 3与B23、A 34与B34。将年级
17、2、年级3、年级4的能力值都转换到各自年级水平量尺上。模拟年级1的10 0 道题,其中2 0 个符合锚题难度范围条件的题,组成年级1与年级2 的锚题。模拟年级2 的8 0 道题,其中后2 0 道题为符合锚题难度范围条件的题,组成年级2 与年级3的锚题。模拟年级3的8 0 道题,其中后2 0 个符合锚题难度范围条件的题,组成年级3与年级4的锚题。模拟年级4的8 0 道题。对模拟的作答矩阵,用BILOG-MG进行同时估计。估计获得的各年级项目和能力参数的值,与模拟的真值进行比较。图1基准年级为低年级时模拟流程图+Z./Z.(-,)(3)RMSE=在公式(2)和公式(3)中,i表示试题,j表示被试,
18、n表示试题数量,R表示模拟次数,表示估计值,T表示真值。3结果3.1各条件下Bias 结果图2 和图3为各条件下项目参数、被试能力参数Bias折线图。由图2 a图2 d可知,基准年级为低年级时,对于各年级项目参数而言,会出现普遍高估的情况,对于被试能力参数来说,会出现普遍低估的情况。随着与基准年级距离的逐渐增大,各参数的估计精度也逐渐下降,且在年级4上的表现尤为明显。究其因,是由于锚题设计下垂直量尺化通过等值公式进行累加转换,离基准年级越远,转换的次数就越多,其估计的误差就越大。由此可知,锚题设计下垂直量尺化的转换不宜超过两个年级,此结果与郭小军(2014)的研究结果相似。由图3a图3d可知,
19、基准年级为中间年级时,(2)对于区分度参数a和被试能力参数而言,其Bias值时正时负,说明对参数的估计会出现忽高忽低的情况。对于难度参数b 和猜测度参数c则倾向于高估,这种情况可能与基准年级的改变有关。与此同时,以中间年级为基准年级时,除区分度参数外,对其他参数的估计,年级1产生的Bias值始终大于年级3。这两个年级的锚题均从年级2 上选取,在垂直量尺化过程中的转换次数也相同,唯一区别在于:对于年级1来说,其锚题是从比自身高的年级上选2023年第43卷第1期取的,对于年级3来说,其锚题是从比自身低的年级上选取的。因此,根据Bias结果,这表明在垂直量0.1500a3¥a40.10000.050
20、00.00000.05000.10000.15000.20000.06000.04000.02000.0000-0.0200图2基准年级为低年级时不同条件下各年级项目与能力参数Bias值折线图a1a2a3¥a40.15000.10000.05000.0000-0.0500-0.1000-0.1500-0.20000.04000.03000.02000.01000.0000-0.0100图3基准年级为中间年级时不同条件下各年级项目与能力参数Bias值折线图黎光明等不同基准年级下锚题难度范围与年级离散程度对垂直量尺化的影响a20.5-10.5-2a.区分度参数Bias值C1C2amdec3¥c4c
21、.猜测度参数Bias值a.区分度参数Bias值C1C2C3一c4、c.猜测度参数Bias值71尺化中,从高年级选取锚题会比从低年级选取锚题产生更大误差。一b1e 20.80000.60000.5-30.40000.20000.0000-0.2000818283¥840.10000.05000.0000-0.0500-0.1000-0.1500b1b2b3¥b40.80000.60000.40000.20000.0000-0.2000810293¥一8 40.30000.20000.10000.0000-0.1000-0.2000?一b4b.难度参数Bias值d.能力参数Bias值b.难度参数B
22、ias值d.能力参数Bias值三72综合图2 和图3,对比发现,基准年级为中间年级时,各参数的Bias的绝对值明显小于基准年级为低年级时,说明以中间年级为基准进行的垂直量尺化,将会产生更小的估计误差。a1a2a3a40.25002.00000.20001.50000.15001.00000.10000.05000:00000.06000.05000.04000.03000.02:000.01000.00001.3-1图4基准年级为低年级时不同条件下各年级项目与能力参数RMSE值折线图基准年级为低年级时,对于区分度参数a(图4a),年级离散程度为0.5和1.0 时参数估计精度差别不大,且均好于年
23、级离散程度为1.5。对于猜测度参数c(图4c),三种年级离散程度下的参数估计精度相差不大。然而,对于难度参数b(图4b)和被试能力参数e(图4d),均当离散程度为0.5时,估计精度最好;年级离散程度为1.0 和1.5时,在个别情况下均存在较大误差。因此,综合看来,在基准年级为低年级时,对于所有参数,年级离散程度为0.5时估计精度最好,年级离散程度为1.0 时次之,年级离散程度为1.5时最差。在基准年级为低年级时,对于区分度参数a(图4a),中等或较大锚题难度范围下的估计精度较好,较小难度范围下估计精度最差。对于难度参数b(图4b),较大锚题难度范围下的估计精度较好,中等范围次之,较小难度范围下
24、估计精度最差。对于猜测度参数c(图4c),较小或较大难度范围下的估计精度较好,中等范围次之,但总体来说三种锚题难度范围下的猜测度参数估计结果相差不大。对于被试能力参数(图4d),中等或较大难度范围下的估计精度较好,较小范围次之。因此,综合看来,在基准年级为低年级时,较大难度范围下的参数估计精心理学探新3.2各条件下RMSE结果图4和图5为各条件下项目参数、被试能力参数RMSE折线图。0.50000.0000一三.0-2a.区分度参数RMSE值一一1.5-21.3.3c.猜测度参数RMSE值2023年.5-2.3-3b.难度参数RMSE值01028341.20001.00000.80000.60
25、000.40000.20000.0000.0-1.0-2.0-10.5-21.3-1d.能力参数RMSE值度最佳,参数返真性最好,中等范围次之,较小范围最差。在基准年级为低年级时,对于区分度参数a(图4a),年级离散程度为0.5时,对于年级1、2,较大锚题难度范围下的结果最佳,对于年级3,中等范围最好,对于年级4,较小范围最好。年级离散程度为1.0时,对于年级1、2、3,中等锚题难度范围下的效果最好,对年级4较大范围最好。年级离散程度为1.5时,只有较小锚题难度范围下的结果收敛。对于难度参数b(图4b),年级离散程度为0.5时,在各年级上,三种锚题难度范围下的结果差别不大。年级离散程度为1.0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 不同 基准 年级 下锚题 难度 范围 离散 程度 垂直 量尺化 影响
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。