第四章调查数据的推断分析a.doc
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 调查 数据 推断 分析
- 资源描述:
-
第四章 调查数据的推断分析 调查数据往往是来自总体的一个随机样本,通过对样本数据的处理,可以获得样本的数据特征。然而,调查研究的目的是要揭示总体的数量特征和变化规律,所以,就存在一个如何用样本信息去推断总体数量特征的问题.调查数据的推断分析是调查数据分析中的一项经常性内容,也是一项十分重要的数据分析工作。本章主要介绍调查数据推断分析的基本方法,内容包括参数估计、假设检验和方差分析. 第一节 参数估计 一、参数估计的一般问题 (一)统计量与参数 所谓参数估计,就是用样本统计量推算总体分布中的参数。参数是描述总体特征的概括性数字度量。因总体是确定的且通常未知,所以参数通常也是未知的,是一个需要估计的常数.推断问题中人们所关心的参数通常有:均值()、方差()、成数(P)。统计量是根据样本数据计算出的概括性数字度量,是样本的函数,它反映着样本的信息;样本的随机性决定统计量是随机变量。与所需要认识的参数相对应,推断问题中,最常用的统计量有: 样本均值: (用来估计总体均值) 样本成数: (用来估计总体成数) 样本方差:或 (用来估计总体方差) 估计问题中,统计量又称为估计量。 (二)统计量的抽样分布 统计量是一个随机变量,称它的概率分布为抽样分布。由于概率分布能很好地描述一个随机变量的性质,故用抽样分布来描述统计量的性质。知道概率分布,便可计算任一随机事件发生的概率;反映在估计问题中,知道抽样分布,意味着不仅可以计算估计误差这一随机事件发生的概率,而且可以控制估计误差.所以,抽样分布理论是统计推断的基础,是学习的重点。 考虑到实际问题中,因客观条件的不同或研究目的的不同,在一些情况下,我们只可能获得较少的数据,即样本容量不可能很大,当<30时,这类问题称为小样本问题;在另一些情况下,却可以进行大量重复试验,从而取得容量很大的样本,当≥30时,这类问题称为大样本问题.对大样本问题,由中心极限定理很容易确定出统计量的抽样分布。但对小样本问题,则要在正态分布总体的前提条件下,用统计量的精确分布来进行推断. 常用的抽样分布有:样本均值的抽样分布,样本方差的抽样分布和样本成数的抽样分布。 1.样本均值的抽样分布 (1)一个正态总体。设总体的均值为,方差为,为 来自的一个随机样本.样本均值为,样本方差为。 则有: E (从无限总体抽样) (从有限总体不放回抽样) 上式中,称为有限总体的校正系数,一般情况下,当很大时,-1≈,校正系数可简化为,样本方差可简化为: 从而: ~ (从无限总体抽样) ~ (从有限总体不放回抽样) 当总体~,但未知且小样本状态下,总体均值的区间估计需引入统计量, 统计量的抽样分布为:~ (-1),即: ~(-1) (2)两个正态总体。这是对两个总体的均值进行比较分析时所需了解的抽样分布。 设总体和总体的均值与方差分别为()和(),为来自的容量为的样本均值,为来自的容量为的样本均值。则有: ~ 当总体和总体的方差、均未知但相等,小样本状态下,对()的估计仍需引入统计量, ~ 上式中:,为总体方差的联合无偏估计量。 (3)非正态总体(大样本)。在大多数实际问题中,不能假定总体服从或近似服从正态分布。但是,根据中心极限定理,只要样本容量足够大,样本均值的抽样分布就近似服从正态分布.于是有: ~(0,1) 式中的总体方差()根据历史资料或经验得到,也可以用样本方差()代替. 统计推断中,样本均值的抽样分布常用于总体均值的估计和检验。 2.样本方差的抽样分布 (1)一个正态总体。设总体的均值为,方差为,且~(),为来自的一个容量为的随机样本,则有: ~ (2)两个正态总体。这是对两个总体的方差进行比较分析时所用到的抽样分布. 设、分别为来自总体~()和~()的样本方差,来自的样本容量为,来自的样本容量为,则统计量 ~ 统计推断中,样本方差的抽样分布常用于总体方差的估计和检验。 3.样本成数的抽样分布(大样本情形) 样本成数是样本中具有某种特征的单位数所占比重,记为,样本成数的均值和方差分别为: (从无限总体抽样) 或 (从有限总体不放回抽样) 其中:为总体成数。 对样本成数而言,小样本下,服从二项分布;大样本情况下,由中心极限定理易知,近似服从正态分布,故大样本情况下,有: ~() (从无限总体抽样) 或 ~()(从有限总体不放回抽样) 统计推断中,样本成数的抽样分布常用于总体成数的估计和检验。 (三)估计方法 按估计参数时是否考虑估计误差的大小及发生的概率,估计方法分为点估计和区间估计。 二、参数的点估计 设为总体的一个未知参数。为一个统计量,它与的取值范围相同。如果用去估计的真值,则称的一个点估计量。当给定样本值时,的值称为的估计值。也就是说,参数的点估计就是用样本估计量的值作为未知参数的估计值。例如,样本均值为500元,我们就说总体均值为500元。因样本估计量是随机变量,得到样本估计量的方法有多种;对总体分布中的同一未知参数进行点估计时,不同估计方法得到不同的估计量,人们总是希望得到“好”的估计量。如此,参数点估计的任务有两个: 第一,寻找获得估计量的方法; 第二,建立判断估计量“好坏”的标准。 对第一个任务,常用的点估计方法有矩法、极大似然函数法和最小二乘法等。 对第二个任务,人们从不同的角度分别提出了一些判断标准,这些标准有:无偏性,有效性和一致性,并称同时满足这三个标准的估计量为优良估计量,判断标准为优良标准。 三、参数的区间估计 点估计的优点就是方便,其做法本身也相当直观,但缺点是没有提供关于估计精度的任何信息。要给出估计的精度,较自然的想法,就是指出它的变异程度。这种直观的想法导致区间估计方法的产生。 设总体分布中含有一个未知参数,由样本确定的两个估计量及,对于给定值(0〈〈1),满足: ≥1- 则称随机区间()为参数的置信度,为(1-)的置信区间,即有(1—)的把握说明随机区间()包含参数.、分别称为置信下限和置信上限,称为置信水平.可见,总体分布中未知参数的区间估计就是在一定概率意义下计算的变化范围。 如同点估计中有估计量的“好坏"评价问题,区间估计中也有两个基本要求: (1)置信度:表明估计结果的可靠程度,自然希望随机区间()包含参数的概率越大越好,即随机区间()的平均长度E()越长越好; (2)精确度:表明估计结果的误差大小,自然希望包含参数的随机区间()的平均长度E()越短越好。 在样本容量一定的条件下,上述两个基本要求是相互矛盾的,解决矛盾的原则为J。Neyman原则,即在保证置信度的前提下,尽可能提高精确度. (一)总体均值()的区间估计 1.一个正态总体 【例4。1】 人寿保险公司调查得到由36个投保个人组成的随机样本,样本观测值如表4-1所示: 表4-1 36个投保个人年龄数据 23 35 39 27 44 36 42 46 43 33 24 42 53 45 54 34 28 39 36 40 39 49 38 34 50 34 39 45 48 32 要求确定投保人平均年龄90%的置信区间。 解:这是未知总体分布但大样本情况下,对总体均值作区间估计的问题。因未知总体单位数,视样本为从无限总体中抽出。已知, n =36,为大样本,由中心极限定理知: ~N(0,1) 总体方差用样本方差代替,由1-=90%,查表得,=1.645。 对表4—1计算均值和标准差,得:, 故投保人平均年龄90%的置信区间为: 即(37。37, 41.63)。 【例4。2】 某时装专卖店的管理人员想估计其顾客的平均年龄,随机抽取了16位顾客进行调查,得到样本均值=32岁,样本标准差=8岁,假定顾客的年龄近似服从正态分布,试求该店全部顾客平均年龄置信度为95%的置信区间。 解:因为总体X近似服从正态分布,即~(。 ),未知且=16为小样本,对进行区间估计须构造t统计量, ~ 故总体均值的95%的置信区间为: 也即有95%的把握估计全部顾客平均年龄在27.737~36.263岁之间。 【例4.3】 某厂负责人想估计6000包某种材料的平均质量.随机抽取350包组成一个样本,样本的均值和标准差分别为32公斤和7公斤。试求总体均值的置信度为95%的置信区间。 解:我们不知道总体是否服从正态分布,方差也未知,且由于抽样比例,校正系数不能忽略,故的95%的置信区间为: 也即有95%的把握估计平均重量在31.29~32.71公斤之间。 2.两个正态总体 【例4.4】 为调查甲、乙两家银行的户均存款额,从两家银行各抽选一个由25个储蓄户组成的随机样本。两个样本均值分别为4500元和3250元,两个总体标准差分别为920元和960元。根据经验,知道两个总体均服从正态分布,试求的置信度为90%的置信区间。 解:两个总体均服从正态分布,总体方差都已知,故的90%的置信区间为: 也即有90%的把握估计甲、乙两家银行户均存款额之差在811~1689元之间. 【例4。5】 某厂有两台生产金属棒的机器。一个随机样本由机器甲生产的11根金属棒组成,另一个随机样本由机器乙生产的21根金属棒组成。两个样本的数据如下: 。假定两个总体均近似服从正态分布,且总体方差相等,试求的95%的置信区间。 解:已知总体服从正态分布,未知总体方差且为小样本,故选统计量对进行估计。 也即有95%的把握估计在0.274~0.366厘米之间。 (二)总体方差()的区间估计 1.一个正态总体 【例4.6】 假定A品牌25公斤袋装大米的重量服从正态公布。现随机抽取13袋大米,测得重量分别为24.0、24。2、24。4、24.6、24。7、24。8、25.0、25.1、25。1、25。2、25。3、25。4、25。6公斤,试以95%的置信度估计该品牌袋装大米重量的标准差. 解: 由于=~,故选卡方统计量对总体方差作区间估计。 =12, 查分布表得:,。则有: 由原始数据可计算得到,代入上式便有: 0.118〈〈0.62 即以95%的置信度估计该品牌袋装大米重量的标准差在0.34公斤和0。79公斤之间。 2.两个正态总体 【例4。7】 在例4.6中,我们已知A品牌袋装大米样本重量的方差。若假定同样标有25公斤的B品牌袋装大米的重量也服从正态分布,随机抽取16袋,测得其方差是0.15,试给出两个总体方差之比的90%的置信区间. 解:设A、B袋装大米的重量分别为第一、第二个正态总体,则两个总体方差之比的置信区间为: 已知,查分子自由度为12、分母自由度为15的分布表,得: 将数据代入上式得到方差之比的90%的置信区间为: 即两个总体方差之比的90%的置信区间在0.62与4。02之间. (三)总体成数()的区间估计 【例4。8】 一所大学的保健医生想了解学生戴眼镜的成数,随机抽选100名学生,调查发现其中31名戴眼镜。试求全校学生戴眼镜成数的置信度为90%的置信区间。 解:=100,为大样本,由中心极限定理知: ~() 总体方差未知,用样本方差代替,则有: 即有90%的把握估计全校学生戴眼镜的成数在23。4%~38.6%之间。 根据上述例子,区间估计的步骤可归纳为: (1)依题意确定待估参数. (2)依题设条件构造与待估参数相对应的统计量。 (3)确定统计量的抽样分布。 (4)依统计量的抽样分布,由给定的置信度计算待估参数的置信区间。 四、样本容量的确定 (一)问题的提出 作为一项调查研究活动,统计推断总是在一定成本的约束下进行。该项成本主要表现在抽取样本及对抽出的样本进行调查上。直观地看,样本容量大,样本对总体的代表性则高,从而抽样误差小;反之,样本容量过小,则难以保证样本对总体的代表性,从而导致抽样误差增大。从推断来看,要达到估计所要求的精确程度,自然要求样本容量越大越好;但从抽样来看,增大样本容量,势必增加人力、物力,从而导致调查成本增大,这无疑是不经济的做法.故在抽样推断中,要在推断目标实现的满意程度与调查成本这一对矛盾间进行权衡。 (二)处理问题的原则 抽样的目的在于为推断提供具有充分代表性的样本信息。除了抽样组织形式和抽样方法以外,影响样本代表性的主要因素便是样本容量。故从抽样角度来看,处理推断目标实现的满意程度与调查成本间矛盾的原则是:在保证达到推断目标的要求下,尽量使调查成本最低。 推断的目的在于用样本提供的信息,按归纳推理的逻辑思想认识总体。影响这一认识满意程度的因素是误差。若捌开非抽样误差不谈,主要因素是抽样误差,具体表现在推断统计量的估计方差上.样本对推断总体的代表性越高,推断统计量的估计方差越小,这无疑能保证推断目标实现的满意程度。故从推断角度来看,处理推断目标实现的满意程度与调查成本间矛盾的原则是:在调查成本一定的情况形下,尽量使推断目标实现的效果好,即估计的精度更高。 抽样是为推断服务的,是推断的基础.故抽样设计中样本容量的确定通常按推断原则处理。 (三)简单随机抽样下,调查成本既定时样本容量的确定方法 1.估计总体均值时 对给定的置信水平,总体均值的区间估计要求是: ≤)=1- (4。1) 其中:为标准正态分布的双侧分位数。 对抽样误差,限于人们对客观事物的主观认识程度,不可能做到百分百的精确,有一个极限值,记最大允许的误差为Δ,则有: ≤ (4.2) 比较4.1式与4.2式,不难得到: ≥ (4.3) 因为的函数,将和分别代入4.3式并对求解,得 (4.4) (4.5) 4。4式与4.5式分别为简单随机抽样下,放回抽样和不放回抽样的最佳样本容量确定公式.式中未知时可由样本资料估计得到。只要给定了及,便可按此要求用4.4式或4。5式确定最小的值。 【例4.9】 一家塑料公司想估计其产品的平均抗拉强度,要求以95%的置信度使估计值在真值附近1公斤/平方厘米的范围内。该公司应抽多少个样品?经验表明的估计值可取12。25。 解: 也即该公司至少应抽取48个样品作试验。 2.估计总体成数()时 用样本成数估计总体成数P,也要求控制其极限误差,即: ≤ 当近似服从正态分布时,或 有: ≥ (4.6) 将的计算公式分别代入4.6式并对求解,得: 【例4.10】 一家市场调查公司想估计某地区有彩色电视机的家庭所占的比重.要求估计误差不超过0.05,置信度取95%,问应抽取多大容量的样本?公司调查人员认为实际的比重不可能大于20%。 解: 由于P≤,所以: ≤ 该市场调查公司应至少抽取246户。 第二节 假设检验 用统计方法为实际问题作决断时,常需要先对未知的或不完全知道的实际问题的有关总体提出一些假设,然后再根据样本进行推断,决定是否接受这些假设。比如检验新教学法是否优于传统的旧教学法,两个消费群体对某品牌的商品的平均偏好是否有显著性差异,等等.这一节将讨论假设检验的理论与方法。 一、假设检验的一般性问题 (一)问题的提出 如同参数估计,统计假设检验也是针对总体分布中的参数而言的,区别于参数估计,以正态分布的参数为例,假设检验要回答的问题是: 1.根据样本信息,是否等于某个给定值? 2.根据样本信息,是否大于(或小于)某个给定值? 可见,统计假设检验方法是一种判断或决策的方法。 (二)解决问题的思想 要根据样本信息回答上述两类问题,直观的想法就是首先依样本构造出一个能反映总体参数的统计量,通过上节内容的讨论,我们知道合适的统计量为样本均值.由于我们对总体参数的情况并不了解,所以实际上可能是下列三种情况之一: (1) (2) (3) 显然,在每一种情况下,样本均值的分布都不同,现把的分布分别记为,和。如图4-1所示: f() 图4-1 H1 H2 H0 0 如此一来,对的检验问题就转化为:要根据样本信息即样本均值来判断究竟来自图4-1中的哪一个分布,进而再确定是多少. 样本均值为一随机变量,它来自图4—1中任一分布的可能性都是存在的,不难理解,可能性大小自然要用概率来描述,即要计算来自某分布的概率.问题是:来自哪一个分布的概率必须在确定的分布下计算。如此,既然是问:是否等于某给定值,那么,不妨就假设等于该给定值,当这一假定成立时,用参数的区间估计法,不难计算样本均值在一定概率下的可能范围,即有: ≤ 从而:,,如图4-1中的区间[1,2], 如果样本均值落在这个区间,则承认原来的假设是可以接受的,即等于给定值;反之,样本均值落在了区间[1,2]之外,则否定=这个假定,即认为或大于或小于。 上述的判断实际上体现着反证法的思想,判断的依据是样本信息,判断的原则是小概率原理,即小概率事件在一次试验中几乎不发生。我们之所以接受原假设,是因为样本均值落在区间[1,2]内的概率大,有充分地把握;拒绝原假设,是因为样本均值落在区间[1,2]外的概率小,无充分的理由接受原假设。 一般地,把=称为原假设,记为,把与相对应的假设称为备择假设,并记为。称为检验的显著性水平,视具体的检验问题人为设定.把样本均值以很大的概率落在的区间[1,2]称为原假设显著水平为的接受域,区间的端点称为的临界值,把小概率事件发生的区间(-,1)及(2,+)称为原假设显著水平为的拒绝域,亦即的接受域,见图4-2所示。按原假设的接受域所做出的统计结论,也称之为显著水平为的统计结论。只要≠0,则统计结论不会绝对正确。 (三)假设检验的步骤 综上所述,统计假设检验的步骤可归纳为: (1)根据实际情况,建立原假设和备择假设。 (2)选择一个合适的检验统计量,要求有两个:一是与原假设有关;二是能确定其抽样分布。 (3)根据给定的显著水平,在原假设成立时,计算出样本均值的临界值。 (4)依样本观察值计算检验统计量的数值,并与临界值进行比较。 (5)根据比较的结果作出接受抑或拒绝的决策。 f() 0 1- H0的拒绝域 | H0的接受域 | H0的拒绝域 图4-2 · · (四)单、双侧检验问题 对于原假设:,备择假设:而言,因为成立时计算的显著水平为的接受域是将水平平均分配在分布两侧的尾部,每侧各占/2,故称之为双侧检验问题.但对, 原假设: 或 原假设: 备择假设: 备择假设: 而言,则属单侧检验问题. ● ● ● x 以:,:为例,如图4-3所示。 图4-3 如果确有,则我们只能把放置在的左侧,这样在成立时,〉的概率才会比在成立时〉的概率大得多。如此,当>时,就接受H0,即并不小于,反之,则拒绝,即。 同理,对:μ=μ0,:而言,应将检验的显著水平全部放在H0的右侧进行检验。 (五)统计结论的两类错误 假设检验所得到的统计结论,完全是根据样本观察值计算出的检验统计量的数值是否落在的接受域内而作出的,是在一定概率意义下进行的。由于样本的随机性,检验判断时,有可能犯以下两类错误.(以:,:为例)。 第一类错误:μ=μ0确实成立,但由于样本随机性,也可能小于,即落在接受域外,见图4—4. H1 H0 图4-4 假设检验中的两类错误图示 这就导致把“实际成立”因而应该“接受"的问题错误当成“拒绝”,我们把这类统计结论的错误称为第一类错误或弃真错误。 显然就规定, ≥ 而言,犯第一类错误的概率就是,即检验规定的显著性水平。 第二类错误:如果实际上是来自且μ1〈μ0,在这种场合按理不应接受,但同样因样本的随机性,仍可能落在的接受域内,因而,导致把分布错作而接受下来,这类统计结论错误称为第二类错误或采伪错误。 记犯第二类错误的概率为,结合图4-4来看,的大小显然就是在分布下的>的阴影面积,即 对其作标准化处理,则有: 其中: 一般,是显性的,但是隐性的,不易看出。观图4—4,不难发现影响值变化的因素有: (1)当其他条件不变时,大则小;反之,小必导致大,换句话说,在其他条件不变的情况下,要同时减小犯两类错误的概率是不可能的. (2)在规定的水平下,单侧检验犯第二类错误的可能性小于双侧检验。 (3)其他情况不变,增加样本容量n,值将有效地减小。 (4)其他情况不变,假设下的μ0与μ1间的距离将直接影响值。 通过以上分析,我们应该在合适的及的要求下进行统计假设检验。通常值控制在1%~5%,值多控制在10%~30%。统计学家Neyman和Pearson提出的原则是:在控制犯第一类错误的概率的条件下,尽量使犯第二类错误的概率减少。其含义是:原假设要受到维护,使它不致于轻易被否定;若检验结果否定了原假设,则说明否定的理由是充分的,同时,作出否定判断的可靠程度(1-)也得到保证。 二、几种基本的统计假设检验方法 统计假设检验方法很多,最基本的假设检验方法有四种,即检验法,检验法,检验法和检验法. (一)检验法 检验法是在已知总体分布中的方差时,对一个正态总体的均值或两个正态总体均值的关系(均值之差)进行检验的方法。检验法也可用于大样本下非正态总体的成数检验。 1.一个正态总体均值的检验 考虑下面三种类型的假设检验: (1): :0; (2): 〉; (3): <。 所构造的检验统计量为: 当时,统计量服从(0,1)。给定显著性水平,则有: (1): :0 检验规则为: 当≥时,拒绝; 当<时,接受。 (2): 〉 检验规则为: 当≥时,拒绝; 当〈时,接受。 (3): 〈 检验规则为: 当≤时,拒绝; 当>时,接受。 上述三个假设检验的拒绝域如图4—5,拒绝域的面积为. φ() φ() φ() 0 0 0 (3) (1) (2) 图4-5 假设检验中的拒绝域图示 【例4。11】 完成生产线上某件工作的平均时间不少于15。5分钟,标准差为3分钟。对随机抽选的9名职工讲授一种新方法,训练期结束后这9名职工完成此项工作的平均时间为13.5分钟。这个结果是否说明用新方法所需时间比用老方法所需时间短?设=0。05,并假定完成这件工作的时间服从正态分布。 解:根据题意,要检验的假设为 〈15.5 由于总体服从正态分布,且总体方差已知,所以选取检验统计量 其观测值为: 查表得,由于<,所以拒绝原假设,也即说明用新方法所需时间明显较短。 2.两个正态总体均值之差的检验 考虑下面三种类型的假设检验 (1): :; (2): :>; (3): :〈。 我们知道,,经标准化后,为: 于是,构造检验统计量 当时,统计量服从(0,1).给定显著性水平,检验问题(1)、(2)、(3)的检验规则分别为: (1)当≥时拒绝,〈时接受; (2)当≥时拒绝,<时接受; (3)当≤—时拒绝,>-时接受. 【例4。12】 有两种方法可用于制造某种产品。经验表明,这两种方法生产的产品的抗拉强度都近似服从正态分布.方法1和方法2给出的标准差分别为3公斤和4公斤。从方法1和方法2生产的产品中分别随机抽取10个和14个产品,所得样本均值分别为20公斤和17公斤。试问这两种方法生产的产品的平均抗拉强度是否不同。() 解:按题意,建立假设: 由于两个总体都近似服从正态分布,且总体方差已知,所以选取检验统计量 其观测值为 查表得=1.96,由于>,所以拒绝原假设,也即认为这两种方法不能生产出抗拉强度相同的产品。 3.大样本下总体成数的检验 考虑下面三种类型的假设检验: (1) ≠; (2) 〉; (3) 〈。 当时,样本成数的抽样分布近似服从正态分布。于是构造检验统计量 当时,统计量近似服从(0,1)。 【例4。13】 某公司负责人发现开出去的发票有大量笔误,而且断定这些发票中,错误的发票占20%以上。随机抽取400张检查,发现错误的发票有100张,即占25%。这是否可以证明负责人的判断正确?() 解:按题意建立假设: >0。2 选取检验统计量为 其观测值为 查表得。由于>,所以拒绝,也即认为这些数据可以证明负责人的判断是正确的。 (二)检验法 检验法是在未知总体方差时,对一个正态总体的均值或两个正态总体均值的关系(均值之差)进行检验的方法。 1.一个正态总体均值的检验 考虑下面三种类型的假设检验: (1): :0; (2): 〉; (3): 〈。 由于未知,应选取的检验统计量为: 我们知道,当时,统计量服从自由度为的分布。给定显著性水平,检验问题(1)、(2)、(3)的检验规则分别为: (1)当≥时拒绝,〈时接受; (2)当≥时拒绝,<时接受; (3)当≤—时拒绝,〉-时接受. 上述三个假设检验的拒绝域如图4—6,拒绝域的面积为。 【例4。14】 某汽车轮胎厂声称,该厂一等品轮胎的平均寿命在一定的重量和正常行驶条件下,高于25000公里的国家标准。对一个由15个轮胎组成的随机样本进行试验,得到的平均值和标准差分别为27000公里和5000公里。假定轮胎寿命近似服从正态分布,试问可否相信产品质量同厂家所说的情况相符?(=0.05) 解:由于存在抽样误差,需要对轮胎厂所说的情况进行显著性检验,即该厂的轮胎寿命必须显著地高于国家标准。这时,我们可把与国家标准没有显著性差异作为原假设,而把高于标准作为备择假设。于是建立假设: 25000 >25000 由于总体近似服从正态分布,总体方差未知,所以选取检验统计量 其观测值为: 查分布表得,(14)=1.7613。由于< (14),所以只能接受,也即没有充分理由相信轮胎厂所生产轮胎的平均寿命高于国家标准. 2.两个正态总体均值之差的检验(总体方差未知但相等) 考虑下面三种类型的假设检验 (1): : (2): :> (3): :< 我们知道, 于是检验统计量为 其中: 当时,统计量服从自由度为的的分布.给定显著性水平,检验问题(1)、(2)、(3)的检验规则分别为: (1)当≥时拒绝,<时接受; (2)≥时拒绝,<时接受; (3)≤-时拒绝,>—时接受。 【例4.15】 有甲、乙两台机床加工同样产品,从它们所生产的产品中分别随机抽取8件和6件,测得产品直径(单位:㎜)数据为: 假定两个总体都服从正态分布,且方差相等。试问甲、乙两台机床加工的产品平均直径有无显著差异?() 解:按题意建立假设: 由于两个总体都服从正态分布,方差虽未知但相等,所以选取检验统计量 其观测值为: 查获(12)=2。1788。由于<(12),所以接受,也即甲、乙两台机床加工的产品平均直径无显著差异. 综合上述分析:检验法与检验法都针对均值进行检验。正态分布总体下,已知总体方差时用检验法;未知总体方差时用检验法;大样本非正态分布总体下的成数检验用检验法. (三)2检验法 2检验法是对一个正态总体的方差进行检验的方法。 考虑下面三种类型的检验 (1) (2) (3) 上一节估计正态分布总体方差的置信区间时,我们曾介绍了一个统计量 现采用统计量作为方差的检验量.在原假设成立的条件下,它服从自由度为的分布.对给定的显著性水平,查分布表可得出相应的临界值,检验问题(1)、(2)、(3)的规则分别为: (1)当≥或≤时拒绝,否则接受; (2)当≥时拒绝,时接受; (3)当≤时拒绝,时接受. 【例4。16】 一家超市从生产玻璃器皿的厂家订购了一批玻璃杯,要求其折射率的标准差不能超过0。01。货到后,随机抽出一个容量为20个玻璃杯的样本进行检测,发现样本折射率的标准差为0.015,试问在的条件下,该超市应该是接受还是拒绝这批玻璃杯? 解: 由题意可建立假设: , 选择为检验统计量,本例的观测值为 由显著性水平,查自由度为的分布表,由于是单侧检验,其临界值为: 因为42。75>36.191,所以拒绝原假设,即这批玻璃杯折射率的标准差显著地超过了标准,该超市应该拒绝接受这批玻璃杯。 (四)检验法 检验法是对两个正态总体方差间的关系(方差之比)进行检验的方法。 考虑下面三种类型的假设检验: (1); (2); (3)。 其中,分别为两个正态总体的方差. 若从两个总体中分别随机抽取容量为为这两个样本的方差,我们已经知道统计量 的概率分布,于是把F作为两个总体方差是否相同的检验统计量.显然,在原假设成立的条件下,服从自由度分别为和的分布.对给定的显著性水平,查分布表可得出相应的临界值,检验问题(1)、(2)、(3)的规则分别为: (1)当≥或≤时拒绝,否则接受; (2)当≥时拒绝,时接受; (3)当≤时拒绝,时接受。 【例4.17】 在本章例4.15中,我们假定甲、乙两台机床加工产品的直径服从正态分布,且方差相等。但从样本测得的数据是和,即两个样本方差存在着一定的差异,因而需要检验这两个总体的方差是否真的相等。(=0.1) 解: 由题意可建立假设: ,。 要检验原假设是否成立,可选择为检验统计量,本例的观测值为 在显著性水平的条件下,查自由度为的分布,其临界值为: 因为,所以接受原假设,即虽然这两个样本的方差存在着一定的差异,但这种差异并不显著。 综上所述,2检验法和检验法都是针对方差的检验法,2检验法检验一个正态总体的方差,检验法检验两个正态总体的方差之比。 第三节 方差分析 前两节中我们讨论过两个总体均值之差的估计和检验问题。社会实践活动中,往往需要对多个总体进行比较研究,并分析它们之间变异的原因.如果沿用两个总体比较的方法,不仅计算工作冗烦,而且由于不能同时利用全部观察数据的信息,推断所得结论的精确度也较低。如果采用方差分析来解决这类问题,就可以取得较好的结果. 方差分析是20世纪20年代发展起来的一种统计方法,它被广泛应用于分析心理学、生物学、工程、医药、质量管理等试验数据,也用于社会经济调查得到的观察数据。从本质上讲,方差分析也是一种假设检验。它通过对样本全部观测数据的波动进行分析,然后分解,将某因素下各组样本数据间可能存在的系统性波动与随机波动加以比较,据此推断各总体之间是否存在显著性差异,若存在显著性差异,也就说明该因素的影响是显著的. 一、方差分析的一般性问题 (一)基本概念 为了更好地理解方差分析的含义,我们先通过一个例子来说明方差的有关概念及方差分析所要解决的问题. 【例4.18】 五种治疗荨麻疹的药,要比较它们的疗效。为此,将30个病人随机分成5组,每组6人,令同组的病人使用同一种药,并记录下病人从用药开始到痊愈所需天数,如表4—2所示: 表4-2 五种治疗荨麻疹药治愈病人天数 药物A 治愈所需天数Xij A1 6 8 7 7 10 8 A2 4 6 6 3 5 6 A3 6 4 4 5 2 3 A4 7 4 6 6 3 5 A5 9 4 5 7 7 6 一般而言,治愈所需天数越短,说明药物的疗效越好.医务人员想了解的是这5种药的疗效是否存在显著性差异?这相当于要判断“药物"对“治愈所需天数"是否有显著影响,做出这种判断最终可归纳为检验这5种药物治愈病人所需时间的均值是否相等。如果它们的均值相等,就意味着“药物”对“治愈所需天数”是没有影响的,也就是5种药物的疗效没有显著差异;如果均值不相等,则意味着“药物”对“治愈所需天数”是有影响的,5种药物间的疗效有显著差异。 方差分析中,把所要检验的对象称为因素,因素的不同表现称为水平或处理,每个水平下得到的样本数据值称为观测值。如在上述例子中,我们要分析药物对治愈所需天数是否有影响,这里的“药物"是所要检验的对象,我们把它称为“因素",不同的药是“药物”这一因素的具体表现,我们称之为“水平”或“处理”;每一种药的治愈所需天数(样本数据)被称为观测值。由于这里只涉及到“药物"一个因素,因此称为单因素5水平的试验. 当我们把因素的每一个水平看作是一个总体,例子中有5种药,便有5个总体.表4-2中的数据值是从这5个总体中随机抽取的样本数据(各样本数据的个数可相等,也可不等,本例是相等的情形)。如果把因素看作分类型自变量,不同的药物便是它的不同取值;治愈所需天数看作数值型因变量,不同的天数就是因变量的取值,如此,方差分析所要回答的问题便是:分类型自变量对数值型因变量是否有显著性影响? (二)分析思想 在上例中,记因素(药物)为,有5种药,即有5个水平,分别记为、、、、,也就是说有5个总体,记这五个总体的均值分别为、、、、。为了观察每一个总体的样本观测值,作散点图4—7。 · · · · · · · · · · · · · · · · · · · · · · · A1 A2 A3 A4 A5 从散点图上直观地看出,不同药物的治愈所需天数存在着明显的差异,而且,即使是同一种药物,治愈所需天数也存在着差异,和治愈所需的时间较长,治愈所需时间最短,这表明药物与治愈所需时间之间有一定的关系。如果药物与治愈所需时间没有关系,那么,不同的药物治愈所需天数应该差不多,表现在散点图上,各药物治愈所需时间的均值应大体上处于同一高度,即、、、、应大体上相等.如果我们提出假设:,问题便转化为对进行检验了。 如何检验呢?首先,分析某一总体下观察值不等的原因。比如总体,由于样本的随机性,随机性因素的影响造成来自总体的6个样本观察值不等,这种观察值间的波动称为随机性波动。其次,分析不同药物间样本观察值不等的原因,即不同总体之间的样本观察值不等的原因,不难发现原因有两个,一是随机性因素影响,二是不同药物本身的疗效所致。我们把后一原因造成的数据波动称为系统性波动。如此,不同总体间样本观察值的不等,说明既有随机性波动,又有系统性波动. 如果把衡量因素(药物)同一水平(同一总体)下样本数据波动的名词称为组内误差,那么,衡量因素展开阅读全文
咨信网温馨提示:1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。




第四章调查数据的推断分析a.doc



实名认证













自信AI助手
















微信客服
客服QQ
发送邮件
意见反馈



链接地址:https://www.zixin.com.cn/doc/2580167.html