第三章__测量的误差及其检验.ppt

上传人：xrp****65

文档编号：13045874

上传时间：2026-01-10

格式：PPT

页数：172

大小：2.17MB

下载积分：10 金币

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档保存到电脑，查找使用更方便

10 金币

下载 开通VIP

还剩页未读，继续阅读

举报
申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：
如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

特殊限制：
部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。

关键词：
第三 __ 测量误差及其检验

资源描述：

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第三章测量的误差及其检验,第一节测量的误差,第二节测量的信度,第三节测量的效度,教学目的与要求,（,1,）了解测量误差的种类与来源,（,2,）掌握信度的定义、意义及其估计方法,（,3,）掌握效度的定义、意义及其估计方法,第一节测量的误差,一、误差的定义和种类,二、误差的来源,三、真分数,一、误差的定义和种类,（一）误差的定义,误差是在测量中与目的无关的因素所产生的,不准确,的或,不一致,的结果。,有二层含义：,、误差是由与测量目的无关的因素引起的；,、误差是不准确或不一致的测量结果。,（二）误差的种类,1,、随机误差：与测量目的无关的偶然因素引起的变化无规律的误差，这种误差的大小和方向是随机的。既影响测量的准确性又影响一致性。,2,、系统误差：与测量目的无关的因素引起的恒定的有规律的误差，它稳定地存在于每一次测量中。只影响测量的准确性。,二、误差的来源,在心理测量中，常见的误差来源于三个方面：,测验自身；,施测过程；,受测者本身。,（一）测验自身引起的误差,主要来源于测验的编制过程，其中项目取样影响最大。,测验题目少或样本缺乏代表性,测验复本不等值,题目用词模棱两可,反应步骤说明不清,题目过难引起猜测,时间短促仓促作答等,（二）施测过程引起的误差,1,、测试环境,2,、测试时间,3,、主试因素,4,、意外干扰,5,、评分记分,(,评的客观，记得准确）,小资料：,对于论文题、问答题要多少人评分，平均分数才能相对稳定和客观呢？国外有人做过专门研究，结果如下：哲学论文人，作文人，物理人，数学人。,（三）被试引起的误差,既使一个测验经过精心编制，题目取样具有代表性，又有标准化的施测和记分程序，由于受测者本身的变化，仍然会给测验分数带来误差，这种误差是最难控制的。,1,、应试动机,被试对测验的动机不同，会影响其作答态度，注意力、持久性、反应速度等，从而影响测验成绩。,2,、测验焦虑,测验焦虑是指受测者在应试前和测试中出现的一种紧张的、不愉快的情绪体验。,中等程度的焦虑最有利于被试的发挥,测验焦虑影响因素,1,能力,高的人，测验焦虑一般较低，而对自己能力没有把握的人，测验焦虑较高,2,抱负水平,过高，求胜心切的人，测验焦虑较高；,3,，具有某种,人格特点,，如缺乏自信、患得患失、情绪不稳定的人易产生测验焦虑；,4,测验成绩与被试的,关系,重大，或被试受到的压力过大，容易使其产生测验焦虑；,5,经常接受测验的人焦虑较低，而对测验程序不,熟悉,，尤其是测验中采取了新的,题目,形式或实施程序会增加测验焦虑,。,6,，被试不了解测验目的，指导语不清会增加被试的焦虑。,3,、测验经验,任何一种新的项目形式，由于被试比较陌生，就可能使测验成绩受到影响。,如果提供足够的演示和练习，测验成绩就会提高。相反，有些被试测验经验较多，掌握了答题技巧，成为了,“,测验油子,”,。,4,、练习效应,任何一个测验在重复使用时，都会有练习效应而使成绩提高。,练习效应,教育背景较差、经验较少或智力较高者，其受练习效应的影响较大,着重速度的测验练习效应较为明显,重复实施相同的测验，受练习效应影响的程度要大于复本的测验,两次测验时距越大，练习效应越小，三个月以上可以忽略,一般的练习效应，约在,1/5,标准差以下,5,、反应倾向（反应定势）,反应定势是指独立于测验内容的反应倾向。即由于每个人回答问题的习惯不同，而使能力相同的被试得到不同的测验分数。,6,、生理变因,指生病、疲劳、失眠等生理因素以及在智力、情绪、体力等方面的生物节律也会影响测验成绩而带来误差。,常见的反应定势,求“快”与求“精确”的反应定势,喜好正面叙述的反应定势,喜好特殊位置的反应定势,喜好较长选项的反应定势,猜测的反应定势,三、真分数,（一）含义,理论定义：是指测量没有误差时所得到的真值。,真分数是一个在理论上构想出来的抽象概念。,操作定义：是无数次测量结果的平均值。,（二）数学模型及其假设,、经典测量理论的基本思想,把任何一个人在一个测验上的成绩都看作是真分数和测量误差的和，这是经典测量理论的基本思想。即：,X=T+E,X,：实得分数或观测分数,T,：假设的真分数,E,：测量误差,注意：,测量误差,E,指的是引起测量,不一致的变因所产生的效应，,即指,随机误差,，不包括系统误差。系统误差不引起分数的改变，因此包含在真值中。,关于测量误差,E,有以下假设：,（）如果对一个人测量无数次或同一测验施测于无限大的人群，其平均误差为，即；,（）真分数和测量误差是相互独立的即；,（）误差分数和实得分数的相关为，即。,2,、引申：,（,1,）对于一个团体来说，实得分数的变异数等于其真分数的变异数与误差变异数之和。,S,X,2,=S,T,2,+S,E,2,（,2,）真分数的变异数可以分成两部分：与测量目的有关的变异,S,V,2,（有效变异）和与测量目的无关的但却稳定的变异,S,I,2,，即：,S,T,2,=S,V,2,+S,I,2,（,3,）一次测验中，一个团体的实得分数的变异性是由与测量目的有关的变异数,S,V,2,、稳定的但出自无关来源的变异数,S,I,2,和随机误差的变异数,S,E,2,所决定的。,即：,S,X,2,=S,V,2,+S,I,2,+S,E,2,S,V,2,S,I,2,S,E,2,S,X,2,S,T,2,第二节信度,一、什么是信度,二、信度的类型及估计方法,三、信度的应用,四、影响信度的因素,一、什么是信度,定义：指的是测量结果的稳定性程度（或叫可靠性、一致性）。,思考：信度受随机误差的影响还是受系统误差的影响？,在测量学中，信度被定义为：一组测量分数的真分数变异数（方差）与总变异数（总方差、实得分数的方差）的比率，或者是真实分数方差占总方差的百分比。,计算公式：,r,xx,=S,T,2,/S,X,2,r,xx,也被称为信度系数。,该定义有两点要注意：,、信度指的是一组测验分数或一列测量的特性，而不是个人分数的特性。,、信度是一个理论上构想的概念，只能根据一组实得分数作出估计。,信度系数,r,xx,实际是真正分数与实得分数之间的决定系数。可以解释为在实得分数的变异数中有多少比例是由真分数的变异决定的。,例如：当,r,xx,0.9,时，怎么解释？,r,xx,？,r,xx,0,？,对信度系数也要注意三点：,1),在不同情况下，对不同样本，采用不同方法会得到不同的信度系数，因此一个测验可能不止一个信度系数。,2),信度系数只是对测量分数不一致性程度的估计，并没有指出不一致的原因。,3),获得较高的信度系数并不是心理测量追求的最终目的，它只是迈向目标的第一步，是使测验有效的一个必要条件。,二、信度的类型及估计方法,信度是个理论上构想的概念，在实际应用时，通常以同一样本所得的两组资料的相关，作为测量一致性的指标。由于测验分数的误差来源不同，估计信度的方法也不同，故每一种信度系数只能说明信度的不同方面，因而具有不同的意义。,（一）重测信度（再测信度）,（二）复本信度,（三）分半信度,（四）同质性信度,（五）评分者信度,（一）重测信度（再测信度）,1,、含义与计算,用同一个测验，在,同样条件下,对同一组被试前后两次施测，求两次得分间的相关系数。它反映的是两次测验的结果有无变化，也就是测验分数的稳定程度，所以又称,稳定性系数,。计算公式为：,例题：假设有一份主观幸福感调查表，先后两次施测于,10,名学生，时间间隔为半年，结果如表所示，求该测验的重测信度。,（为了便于理解和计算，本章估计信度的例子都是小样组，实际应用时应采用大样组。）,表,1,某幸福感调查表的两次测试结果,被试,测验,1,2,3,4,5,6,7,8,9,10,X,1,16,15,13,13,11,10,10,9,8,7,X,2,16,16,14,12,11,9,11,8,6,7,解：用计算器算出,:,S,1,=2.82 S,2,3.38,把以上数据代入公式,2,、使用的前提条件,（,1,）所测量的心理特性必须是稳定的。,（,2,）遗忘和练习的效果基本上相互抵消。,（,3,）在时间间隔中没有学习另外的与测验有关的东西，或者说每人学习其他东西的程度都一样。,3,、使用时的注意要点,（,1,）两次测验的时间间隔要适当。,（,2,）再测法适用于速度测验和人格测验。,（,3,）应注意提高被试的积极性。,提问：重测法的误差主要是来源于什么？,4,、优缺点,缺点：,（,1,）易受练习和记忆的影响。,（,2,）如果两次施测时间间隔较长，由于在此期间受到被试学习、成熟的影响，都会使两次测验结果不相同。,（,3,）同一被试对一个测验先后两次作答，对测验的兴趣不同、身心状况的变化，影响测验结果。,（,4,）两次施测的条件不同，也是产生测量误差的因素。,优点：,（,1,）能提供有关测验结果是否随着时间而变异的资料，可作为预测受测者将来行为表现的依据；,（,2,）首测和再测只需要一套测验题目，省时、省力；,（,3,）同一套题目无论施测几次，所测的属性是完全相同的。,（二）复本信度,1,、含义与计算,含义：根据一组被试在两个平行（等值）测验上的得分计算的相关系数即为复本信度。,其计算方法与再测法相同。,例题：假设用,A,、,B,两型创造力复本测验对初中一年级,10,个学生施测,计算该测验的复本信度。结果见表,2,。,被试,测验,1,2,3,4,5,6,7,8,9,10,X,1,20,19,19,18,17,16,14,13,12,10,X,2,20,20,18,16,15,17,12,11,13,9,表,2,某创造力复本测验测试结果,解：先用计算器计算得出以下值：,把以上数据代入公式,2,、使用的前提条件：,（,1,）要两份或两份以上,真正,等值的测验，必须是真正的复本，否则所得的信度就成了歪曲的估计。,（,2,）被试要有条件接受两个测验。主要取决于时间、经费等几方面。,3,、连续施测和间隔施测,（,1,）连续施测,同时施测的复本信度叫,等值性系数,。,提问：同时施测的复本信度的误差主要来源于什么？,（,2,）间隔施测,相距一段时间分两次施测得到的信度叫做,稳定性与等值性系数,。,提问：间隔施测的复本信度的误差主要来源于什么？,4,、复本信度局限性,如果测量的行为易受练习的影响，则复本信度只能减少而不能完全消除这种影响；,由于第二个测验只改变了题目的内容，已经掌握的解题原则，可以很容易地迁移到同类问题。,对于许多测验来说，建立复本是十分困难的。,（三）分半信度,1,、含义,含义：按正常的程序实施测验，然后将全部项目分成相等的两半，根据各人在这两半测验的分数计算其相关系数。,由于只需对一个测验进行一次施测，考察的是两半题目之间的一致性，所以这种信度系数有时也被称为,内部一致性系数,。,2,、计算,提问：怎样对测验进行分半？,进行奇偶分半时，要注意的问题是,:,怎样安排互相有牵连的题目。在这种情况下整个一组的题目应放到同一半。,（,1,）两半测验分数的变异数相等（方差齐性）,先计算两半测验的积差相关系数，再进行斯皮尔曼布朗公式校正：,r,hh,为两半分数的相关系数；,r,xx,为测验在原长度时的信度估计,提问：为什么求得的分半信度要用斯皮尔曼布朗公式校正？,（,2,）两半测验分数的变异数不等（方差不齐）,当两半测验不等值时，可采用下列公式的两种之一，直接求得测验的信度系数：,弗朗那根公式：,S,a,2,和,S,b,2,表示两半测验分数的变异数,S,X,2,表示测验总分的变异数,卢伦公式：,S,d,2,为两半测验分数之差的变异数；,S,x,2,为测验总分的变异数；,r,为信度值。,提问：怎样理解卢伦公式？,例：有一个由,100,题构成的量表施测于,10,个高三学生。测验一次后，应试者即毕业离校。现在怎样评价测验结果的信度？,被试,测验,1,2,3,4,5,6,7,8,9,10,X,1,38,37,38,41,40,36,38,39,40,35,X,2,37,37,36,39,39,34,38,39,39,36,解：因不能再次测验，只能求分半信度。,步骤：（,1,）计算出每个应试者的奇数题总分（,X,1,）和偶数题总分（,X,2,），见表：,解：用计算器求得（也可以用计算机做）：,（,1,）斯皮尔曼布朗公式（平均数和标准差差异显著性检验略）,（,2,）弗朗那根公式,：,（,3,）卢伦公式：,3,、使用的前提条件及范围,（,1,）分半信度通常是只能施测一次或没有复本的情况下使用。,（,2,）由于将一个测验分成两半的方法很多，所以，同一测验通常会有多个分半信度值。,（,3,）当试卷中有任选题时不宜用分半法，速度测验也不宜用分半法。,（四）同质性信度,1,、含义,同质性也指内部一致性，指测验内部,所有题目间,的一致性。,题目的一致性有两层含义：,其一是指所有题目都测的是同一种心理特质；,其二是指所有题目之间都具有较高的正相关。,总之，,同质性信度就是一个测验所测内容或特质的相同程度。,2,、测量同质性的基本公式：,K:,构成测验的题目数,:,项目间相关系数的平均数,:,同质性性度值,提问：这个公式说明什么？,3,、库德,-,理查逊公式：适用于客观性试题（,0,、,1,记分）,K-R,20,公式：,K,：构成测验的题目数,P,i,：通过第,i,题的人数比例,q,i,：未通过第,i,题的人数比例,S,x,2,：测验总分的变异数,K-R,21,公式：适用于各项目难度相近的情况,K:,构成测验的题目数,:,测验总分的平均数,S,x,2,:,测验总分的变异数,4,、克伦巴赫系数：适用于多重记分测验,K,：构成测验的题目数,S,i,2,：某一题目分数的变异数,S,x,2,：测验总分的变异数,题号,被试,S,i,2,A,B,C,D,E,1,7,11,8,11,11,3.04,2,6,9,7,8,9,1.36,3,6,10,6,8,9,2.56,4,8,11,6,8,3,6.96,5,7,11,8,11,11,3.04,6,7,11,8,11,11,3.04,40,62,41,54,52,例：有一种包含,6,个论文式题目的测验，对,5,个应试者施行，得分见下表，试求该测验的信度。,解：（,1,）求每题各被试得分的方差,S,i,2,、方差和,（,2,）求测验总分的变异数即各被试得分的方差（即求,40,、,62,、,41,、,54,、,52,的方差），,S,x,2,68.96,（,3,）代入公式求信度系数,4,、注意：,用库德,-,理查逊公式和克伦巴赫系数所求得的信度通常比分半信度低。,上面这些公式不适用于速度性测验。,提问：同质性信度的误差主要来源于什么？,（五）评分者信度,1,、含义,指的是多个评分者给同一批人的答卷进行评分的一致性程度。是用于测量不同评分者之间所产生的误差。,2,、方法与计算,方法：随机抽取相当份数的试卷，由两个或多个评分者按评分标准打分，然后求其间的相关。,(1),两个评分者,采用皮尔逊积差相关或等级相关。,一般要求经过训练的成对评分者之间的一致性程度达到,0.90,以上，才认为评分是标准客观的。,(2),多个评分者评多个对象，并用等级法计分时，可以用,肯德尔和谐系数,：,W:,和谐系数,K:,评分者的人数,N:,被评对象数,R,i,:,每一对象被评的等级总和。,论文,专家,1,2,3,4,5,6,A,2,4,1,5,6,3,B,3,4,1,5,6,2,C,3,5,1,4,6,2,R,i,8,13,3,14,18,7,例：假设有三位专家给六篇论文评等级，结果如表所示，试计算此次评分者的评分者信度。,提问：,评分者信度的误差主要来源于什么？,以上介绍的各种信度估计方法都是对测验的一致性进行估计，但由于误差来源不同，它们的研究侧面各不相同，说明的是信度的不同方面。这些方法具有不同的意义，每一种信度系数不能代替其他信度系数。,估计信度的方法与测验复本的数目以及施测次数的关系,所需要,施测的次数,所需要复本的数目,一,二,一,分半信度,同质性信度,评分者信度,复本信度,（连续施测）,二,再测信度,复本信度,（间隔施测）,各种信度系数相应误差变异的来源,信度系数的类型,误差变异的来源,再测信度,复本信度（连续施测）,复本信度（间隔施测）,分半信度,同质性信度,评分者信度,时间取样,内容取样,时间与内容取样,内容取样,内容的异质性,评分者间的差异,提问：,在理论上，哪种方法得到的信度系数最高？哪种最低？,实际上，有多少种误差来源，便有多少种估计信度的方法。一个测验哪种误差大，便应该用哪种误差估计。有时一个测验需要几种信度系数，这样我们就能把总分数的变异数分成不同的分支。,假设对,100,个六年级学生以两个月的时间间隔先后施测一个创造力测验的,A,、,B,复本，所得到的等值性与稳定性系数为,0.70,。,我们还根据被试对每个复本的反应计算出分半信度为,0.80(,先计算每个复本的分半相关系数,将二者平均后用斯皮尔曼,-,布朗公式校正,),。,同时，我们让另一个评分者随机抽取,50,份卷另外评分，得到的评分者信度为,0.92,。,那么，这个测量的总误差变异是多少？真实的变异是多少？,一个假想测验的误差变异来源分析,信度类型,误差变异量,误差变异来源,复本信度（间隔施测,),1-0.70=0.30,时间与内容取样,分半信度,1-0.80=0.20,内容取样,上述二者差异,0.30-0.20=0.10,时间取样,评分者信度,1-0.92=0.08,评分者差异,误差变异总和,0.20+0.10+0.08=0.38,真实变异,1-0.38=0.62,一个假想测验的误差变异来源分析,真实变异,误差变异,时间上的稳定性，复本之间的一致性，评分者之间的一致性,内容取样误差,时间取样误差,评分者间差异,62%,20%,10%,8%,注意：,信度虽然是测验的特性，但不能笼统地说某个测验的信度有多高。只能说在特定的条件下，用于特定的团体，采用特定的方法所得到的某个测验的信度系数是多少。,总之，信度总是与特定的情境有关的。,三、信度的应用,（一）评价测验,（二）解释分数,（一）评价测验,一般能力与成就测验的信度系数在,0.90,以上，有的可以达,0.95,，性格、兴趣、价值观等人格测验的信度系数，通常在,0.80,到,0.85,或更高些。,（二）解释分数,、个人测验分数的误差,用一组被试两次施测的结果来估计测量误差的变异数。此时，,个人在两次测验中的分数差异就是测量误差，,由此可制成误差分数的分布。这个分布的标准差就是测量的,标准误,，是表示测量误差大小的指标。,提问：测量的标准误与信度间有什么关系？,测量的标准误实际上是在一组测量分数中误差分布的标准差，可以像其它标准差一样地解释。,我们可以根据标准误从每个人的实得分数估计出真分数的可能范围，即确定出在不同或然率水准上真分数的置信区间。人们一般采用,95,的或然率水准，其置信区间为：,(X-1.96SE)T(X+1.96SE),例题：在一次测验中有些学生得,80,分，如果再测一次他们的分数将改变多少,?,已知该次测验的标准差为,5,，信度系数为,0.84,。,注意：,（,1,）,SE,对真分数做的是区间估计，不可能由此得到一个确切的点。,（,2,）置信水平确定后，估计的精度主要取决于,SE,，,SE,越小，范围越小，估计就越精确。,（,3,）真分数不能等同于真正能力或心理特质，当系统误差对施测分数产生影响时，用此方法估计出的真分数并非代表被试的真正能力或特质，因此我们应该选择效度较高的量表，减小系统误差。,、两种测验分数的比较,为了说明个人在两种测验上表现的优劣，我们可用,“,差异的标准误,”,来检验其差异的显著性，常用的公式如下：,如果两种分数的差异达到或超过,.05,的显著水平，始能认为二者真有差异。,例题：某被试在韦氏成人智力测验中言语智商为,102,，操作智商为,108,。已知两个分数都是以,100,为平均数，,15,为标准差的标准分数。假设言语测验和操作测验的分半信度分别为,0.97,和,0.93,。问其操作智商是否显著高于言语智商呢？,四、标准参照测验的信度估计,思考题：,为什么以上介绍的估计信度的方法不适用于标准参照测验？,1,、对相关法信度系数进行校正,利文斯顿公式：,2,、用决策的一致性作为信度指标,林德曼与梅伦达的一致性公式：,C,为一致性，,n,为在两次施测中均未达标的人数，,b,为在两次施测中均已达标的人数，,f,为只在第一次施测中达标的人数，,s,为只在第二次施测中达标的人数，,v,为,f,或,s,中较小的值。,五、影响信度的因素,（一）被试的样本,当一个测验用于比常模团体更为同质的团体时，要重新确定测量的信度：,例题：一个测验应用于全体小学生团体的样本（常模团体），其分数的标准差为,10,，信度系数为,0.90,，假如将此测验应用于小学五年级，其分数标准差为,5,。其信度系数应为多少？,（二）测验的长度,测验的长度也是影响信度系数的一个因素。这是因为：,1,、测验越长，测验的测题取样或内容取样越有代表性，可以更好地反映被试的真实水平。,2,、测验的项目越多，在每个项目上的随机误差就可以相互抵消。,增加测验长度的效果可以用,斯皮尔曼,-,布朗公式,的通式来计算：,例题,1,：假设有一个包括,10,个题目的测验，信度为,0.50,，若把测验增加到,50,个题目，其信度将增加到多少？,例题,2,：一个包含,50,个题目的测验信度是,0.75,，欲将信度提高到,0.90,，需要增加多少题目？,注意：,只有当新题目与原题目选自同一总体，即与原题目具有同质性时，增长测验才能改进信度。,（三）测验的难度,难度对信度的影响只存在于某些测验中，如智力测验、成就测验、能力倾向测验等。,提问：从理论上讲，测验处于什么难度时，所得的信度系数最大？为什么？,当测验过难而且,题目允许猜测时,，被试会对许多题目作随机反应,瞎猜，这样我们就无法对其分数置信。,洛德,提出了在学绩测验中，为了保证其可靠性，各类选择题的理想平均难度为：,五选题,:0.70,四选题,:0.74,三选题,:0.77,是非题,:0.85,第三节测量的效度,一、什么是效度,二、效度和信度的关系,三、效度的类型及评估方法,四、标准参照测验的效度,五、影响效度的因素,六、对各种效度系数的要求,一、什么是效度,定义：效度指的是测量的有效性和正确性，即一个测验能够测量出其所要测量的东西的程度。,效度和信度一样，也是一个相对的概念。这种相对性表现在两个方面：,效度是相对于一定的测量目的而言的。,效度只有程度上的差异。,在测量学中，效度被定义为：,在一组测量中，与测量目的有关的变异（或称有效变异）与实得变异数（总变异）的比率。即：,一个测验的效度表明：在一组测验分数中，有多大比例的变异数是由测验所要测量的变因引起的。,该定义有两点要注意：,、,和信度一样，效度也是,指的是一组测验分数或一列测量的特性，而不是个人分数的特性。,、,由于有效变异是一个理论值，无法测量，所以效度和信度一样,是一个理论上构想的概念，,S,V,2,S,I,2,S,E,2,S,X,2,S,T,2,二、效度和信度的关系,思考：,效度受随机误差的影响还是受系统误差的影响？,（一）信度是效度的必要而非充分条件。,（二）效度是受信度制约的。,三、效度的类型及评估方法,（一）内容效度,（二）构想效度,（三）效标效度,（一）内容效度,1,、定义：,指项目对欲测的,内容或行为范围,取样的适当程度。,一个测验要具备较好的内容效度必须满足的条件：,（,1,）要确定好内容范围，并使测验的全部项目均在此范围内。,（,2,）测验题目应是所界定的内容范围的代表性取样。,代表性取样，就是选出的项目能包含所测的内容范围的主要方面，并且使各部分项目所占比例适当。,2,、内容效度的评估方法,（,1,）专家判断法,请有关专家对测验题目与原定内容范围的符合性做出判断。,这是一种定性分析的方法。,步骤：,定义好内容总体。,划分细纲目，并根据重要性规定好各纲目的比例，对内容范围作尽可能详尽的描述。,确定每个题目所测的内容与技能，并与测验编制者所列的双向细目表对照，逐题地将自己的分类与编制者的分类作比较。,制定评定量表，对测验作出总的评定。,（,2,）复本法,克伦巴赫认为，内容效度可由一组被试在取自同样内容范围的两个测验复本上得分的相关来作数量上的估计。,（,3,）再测法,先将测验施测于某个团体，该团体对测验所包括的内容仅具有最少量的知识，因而得分很低。然后，让这个团体参与者有关材料的学习和训练，结束后将测验再测一次。,（,4,）经验法,检查不同年级的学生在测验上的得分和在每个题目上的反应情况。测验总分和题目通过率随着年级而增高，就是测验具有内容效度的证据。,3,、内容效度的局限,思考：内容效度的主要缺点是什么？,内容效度缺乏可靠的数量指标，因而妨碍了各测验间的相互比较。,4,、内容效度的应用,（,1,）是编制任何测验应加以考虑的基本方面。,（,2,）对标准参照测验更为重要。,（,3,）内容效度也适用于某些对员工选拔和分类的职业测验。,（,4,）内容效度对于能力倾向测验和人格测验一般是不适用的。,（,5,）在实际应用中，注意内容效度容易和表面效度混淆。,表面效度就是外行人从表面看这个测验是否有效。,表面效度不是效度的客观指标，它虽然不能保证测量的正确性，但能对被试的动机产生影响，因而也会影响到效度。,（二）构想效度,1,、定义,构想,心理学理论所涉及的抽象而属假设性的概念或特质，它们往往用某种操作来定义并用测验来测量。,构想效度,测验对某一理论或特质测量的程度，也叫结构效度或构思效度。,2,、确定构想效度的基本步骤,（,1,）从某一理论出发，提出关于某一心理特质的假设。,（,2,）根据假设设计和编制测验并进行施测。,（,3,）对测验的结果采用相关或因素分析等方法进行分析，验证与理论假设的相符程度。,注意：构想效度是由累积的证据来评价的，因而不可能有单一的效度指标。,3,、确定构想效度的方法,有关构想效度的资料可以用很多方法从不同来源去搜集，归纳起来有以下几种：,测验内法,测验间法,效标关联法,实验操作法,（,1,）测验内法,这类方法主要是研究测验内部构造，如测验内容、对题目作反应的过程、以及测验的同质性等等来分析测验的构想效度。,确定测验的内容效度,测验的内容效度有时可以作为测验的构想效度的证据。对测验所取样的内容或行为范围确定后，就可利用这些资料来定义测验所要测的构想的性质。,分析被试对题目做反应的过程,通过观察被试的操作，询问他如何处理题目，以及必要的统计分析，可发现哪些变量影响了反应，因而可确定测验是否测量了所要测的特质。,考察测验的同质性,这种方法是以测验的内在一致性系数（如,K,R,20,，,K,R,21,，以及,系数等）为指标，判断测验测的是单一特质还是多种特质，从而确定测验构想效度的高低。,从测验的一致性可以为构想效度提供证据。,（,2,）测验间法,通过研究几个测验间的相互关系，找出它们的共同特点，进而推断出所测的共同特质是什么，便可确定这些测验是否有构想效度。,相容效度,计算被试在新测验上的分数与另一个效度已知的同类测验上的分数之间的相关。假如相关高，说明这两个测验测的是相同特质。,由于相关系数的平方代表两组测验分数所共有的变异数比例，所以这种方法所确定的效度称为,相容效度,。,区分效度,一个有效的测验不仅应与其他测量同一构想的测验有较高的相关，而且还应与测量不同构想的测验具有低相关。用这种方法确定的效度叫做,区分效度,。,因素效度,通过对一组测验进行因素分析，可以找到影响测验分数的共同因素。每个测验与各因素的相关，称做是测验的,因素效度,。而在测验分数的总变异数中来自有关因素的比例，便可作为构想效度的指标。,（,3,）效标关联法,通过考察一个测验的,效标效度,来了解该测验的构想效度。,第一种方法：我们可以根据效标选取不同的被试，组成对照组，然后比较两组被试的测验成绩，看测验分数能否把他们区分开来，如果能把他们区分开来，就说明这个测验测量的是所要测的构想。,第二种方法：我们可以根据测验分数把被试分成高分组和低分组，然后比较两组被试的行为特点。如果这些特征与定义的构想相符，就说明该测验具有构想效度。,（,4,）实验操作法,通过实验操作控制某些条件，观察其对测验分数的影响，也可以获得构想效度的信息。,如：我们假设将,“,考试焦虑,”,定义为,“,当考试结果对个体有重大意义时的一种害怕失败的紧张情绪,”,，,这是一个构想。现在有一个焦虑测验，我们想考察一下这个测验对测量考试焦虑是否有构想效度，为此可以设计以下几种实验情境：,第一种：在一场决定前途命运的重要考试之前施测焦虑测验，将其分数与平时接受焦虑测验的分数比较。,第二种：举行两种考试，使被试相信一场考试关系重大，一场考试无关紧要，然后将考试结果与焦虑测验分数比较。,第三种：搜集被试在经历一场重大考试时的生理心理参数（如脉搏、血压等）作为焦虑的指标，将其与焦虑测验分数比较。,4,、对构想效度的评价,（,1,）缺点,有些构想概念模糊，没有一致的定义。,确定效度时没有明确的操作步骤和程序。,没有单一的数量指标来描述有效的程度。,（,2,）优点,构想效度促使研究者把着眼点放在提出假设上、检验假设上，使得测验成为理论研究的重要工具，而不再只是实际决策的辅助工具，从而使测验有了更广阔的发展情景。,（三）效标效度,1,、定义,被预测的行为是衡量测验是否有效的参照标准，就是效标。,效标效度就是考查测验分数（预测源）与效标的关系，看测验对我们感兴趣的行为预测得如何。因为效标效度需要有实际证据，所以又叫,实证效度。,2,、分类,同时效度，即测验分数与效标资料同时获得。这种效度通常与心理特征的评估及诊断有关。,预测效度，效标资料需过一段时间才可以搜集到。这种效度对人员的选拔和安置工作非常重要。,“,某人成功了吗？,”,“,某人得精神病了吗？,”,“,某人会成功吗？,”,“,某人会得精神病吗？,”,3,、效标和效标测量,（,1,）效标,衡量测验有效性的参照标准，指的是可以直接而且独立测量的我们感兴趣的行为,就是要预测的行为。,（,2,）常用的效标,学业成就,等级评定,临床诊断,特殊训练的成绩,实际工作表现,对团体的区分,（,3,）效标测量,效标可以分为两个层次：,其一是理论水平的,观念效标,；,其二是操作定义水平的,效标测量,。,观念效标是一个概念，效标测量是对观念效标的数量化。,效标测量必须具备以下几个条件：,有效性,效标测量必须要能真正反映观念效标，即效标测量本身必须有效。,可靠性,效标测量还必须稳定可靠，也就是具有较高的信度。,客观性,当效标测量是主观评定时，可能受到评定者主观印象和成见的影响而引起偏差。因此，采用判断性的效标测量，必须控制偏见，尽量使评定过程客观。,效标污染，是指个人的效标成绩由于评定者知道其测验分数而受到影响的情况。,实用性,在保证有效性的前提下，最佳的效标测量应该是用法简单、省时、花费少，也就是经济实用。,4,、效标效度的估计方法,效标效度是通过考察测验分数与效标的经验关系确定的，一般都可以通过统计分析得到一个数量指标，因此有人又叫它统计效度。,具体有以下几种估计方法：,（,1,）相关法,（,2,）分组法,（,3,）预期表法,（,4,）命中率法,（,5,）功利率法,（,1,）相关法,确定效标效度最常用的方法是计算测验分数与效标测量的相关，所得到的数量指标叫做,效度系数。,积差相关,当测验分数和效标分数都是正态连续变量，且两种存在线性相关时。,被试,1,2,3 4,5,6,7,8,9,10,测验分数,X,销售数,Y,30,34,32 47,20,24,27,25,22,16,2.5 3.8,3,4,0.7,1,2.2,3.5,2.8,1.2,例题：,假如有,10,名男性经职业兴趣测验而被选定作为推销员，其测验分数见下表，而第二行是经过若干年后他们某段时间内销售金额总量（以万元为单位）。试求该测验的预测效度。,二列相关,当测验分数和效标的总体分布均为正态，测验分数为连续变量，效标测量被人为地分成两类。,例题：,352,名被试参加一项智力测验，其中重点中学学生,66,名，,IQ,平均数为,114,；一般中学学生,286,名，,IQ,平均数为,96,。全体被试的,IQ,标准差为,14.53,。试求该智力测验的效标效度。,点二列相关,测验分数是正态变量，且是连续变量，效标测量是二分名义变量（以是否达到某一标准表示）。,多系列相关,多系列相关适用的情况是，测验分数和效标的总体分布均为正态，测验分数为连续变量，效标测量被人为地分成多种类别。若效标测量被分成三类，就称为三列相关，若被人为地分成四类，就称为四列相关。,例：对某班学生进行学习能力测验，并让班主任对学生进行成绩评定，以此为学习能力测验的效标。学习能力测验分数的标准差为,10,分，教师评定情况如下，,D,等,20,人，,C,等,30,人，,B,等,30,人，,A,等,20,人。其中,D,等学生的学习能力测验平均分数为,30,分，,C,等学生的学习能力测验平均分数为,45,分，,B,等学生的学习能力测验平均分数为,55,分，,A,等学生的学习能力测验平均分数为,70,分。试分析该能力测验的效度。,求这类相关可用贾斯朋（,jaspen,）多系列相关公式计算,:,P,i,为效标属于不同等级的人数占总人数的百分比，,X,i,为与不同等级对应的测验分数的平均数，,S,t,为测验分数的标准差，,y,i,为效标的每一个等级所对应的下限的正态曲线的高度，,y,k,为上限所对应的正态曲线的高度。,相关法的优点：,提供了一个统计指标以总结预测源和效标间的关系；,可利用回归方程来预测每个人的效标分数。,缺点：,假如预测源和效标的关系不是直线性的，则必须采用特殊的相关方法；,测验结果不能提供有关取舍正确性的指标。,（,2,）分组法,是检验测验分数能否有效地区分由效标测量所定义的团体。,和为成功组与不成功组的平均测验分数；,S,s,和,S,u,为两组测验分数的标准差；,N,s,和,N,u,为两组的人数。,注意：组间平均数差异在统计上的显著性取决于团体的大小。,为避免这一缺点，还要计算这两个分布的重叠量。重叠量可用两个指标来表示：,每一组内得分超过或低于另一组平均数的人次百分比；,两组分数分布共同区的百分比。,重叠量越大，说明两组差异越小。,（,3,）预期表法,预期表法是将测验源分数和效标分数制成双维图，并将每个变量按水平分成若干个档次，然后列出每个档次上的人数百分比。,（,4,）命中率法,是当测验用来做取舍的依据时，其有效性的指标就是正确决定的比例。,失败（,-,）,成功（,+,）,成功（,+,）,A,（失误）,B,（命中）,失败（,-,）,C,（命中）,D,（失误）,效,标,成,绩,测,验,预,测,命中表,命中率的计算有两种方法,:,一是计算总命中率，另一种是计算正命中率：,例,:,假设用某种测验选拔员工,100,人，经过一段时间的工作检验，得到以下四组数据：正确接受为,42,人，正确拒绝为,34,人，错误接受为,10,人，错误拒绝为,14,人。请算出该次选拔的总命中率和正命中率。,思考题：请你评价命中率法。,（,5,）功利率法,为了确定测验的功效，人们对使用测验所花掉的费用与得到的利益进行比较，看是否利大于弊，此种效度指标叫功利率。,U,代表功利率；,B,代表录用一个成功的工人所产生的平均利润；,C,代表录用一个不合格的工人所造成的损失；,N,s,和,N,u,分别代表所录用的人中成功和不成功的人数；,S,代表整个选人程序的费用。,当费用与收益可以转换成确切的价值时，功利率的好处是将效度变成了对决策者有意义的信息。,思考：,功利率法给我们编制测验带来什么样的启发？,5,、效标分数的预测和预测误差,（,1,）效标分数的预测,知道了一个人的测验分数和测量的效度系数，就可以预测他的期待效标分数。,如果,x,和,y,两变量呈直线关系，只要确定出二者之间的回归方程，就可以从一个变量推估出

展开阅读全文

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，个别因单元格分列造成显示页码不一将协商解决，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时联系平台进行协调解决，联系【微信客服】、【QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”，意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：0574-28810668；投诉电话：18658249818。

关于本文

本文标题：第三章__测量的误差及其检验.ppt
链接地址：https://www.zixin.com.cn/doc/13045874.html

xrp****65

内容提供者实名认证

平台协调中心【客服】

相似文档自信AI助手

全静脉输液.ppt
高考数学圆锥曲线的极坐标方程知识梳理与题型归类课件.ppt
溶液的酸碱性与PH.ppt
新版人教版二年级数学上册全册课件.pptx
化工热力学-第7章相平(自学考试参考).ppt
第三节河流.ppt
呼吸系统监测.ppt
第二节环境问题的产生及其危害.ppt
功能材料透明陶瓷.ppt

搜索标签自信AI导航

第三 __ 测量误差及其检验