非参数统计学讲义(第六章)分布检验和某些卡方检验.doc
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 参数 统计学 讲义 第六 分布 检验 某些
- 资源描述:
-
非参数统计学讲义 主讲:统计系 袁靖 第六章 分布检验和某些卡方检验 §1 引 言 本章属于拟合优度检验问题,即模型检验或分布的检验,属于非参数检验的范畴。在初等统计中,人们要想知道数据是否服从某一特定分布,可以通过直方图,或P-P图,Q-Q图来直接判断,但这种直观的方式很不精确。 本章将介绍几种分布的检验:K-S检验,Lilliefors检验和检验。 实际上,K-S检验是在针对检验的缺点 检验与K-S检验均属拟合优度检验,但检验常用于定类尺度测量数据,K-S检验还用于定序尺度测量数据;当预期频数较小时,检验常需要合并邻近的类别才能计算,K-S检验则不需要,因此它能比检验保留更多的信息;对于特别小的样本数目,检验不能应用,而K-S检验则不受限制。此外,检验需要人为对总体分布的支撑集进行划分,将总体分布转化成一种导出分布,后果:①样本信息利用不充分;②实际检验的是导出分布对数据的拟合优度,而不是假设分布对数据的拟合优度。 上提出的。它们是建立在经验分布函数基础上的检验结果。 §2 Kolmogorov检验 一、 基本假设 一般地要检验手中的样本是否来自某个已知,假定其真实分布为,对应的检验类型有 对 至少有一个x 对 至少有一个x 对 至少有一个x 设为该组数据的经验分布函数,则 二、 基本方法 Kolmogorov于三十年代提出了一种基于经验分布的检验方法,基本思想是:由格里文科定理,当时,样本经验分布以概率1一致收敛到总体分布F,为此可以定义到的距离为 当H0成立时,由格氏定理,D以概率1收敛到0,因此D的大小可以度量对总体分布拟合的好坏。 可供选择的检验统计量分别为; 类型A 类型B 类型C 在实际操作时,如果有n个观察值,用下面的统计量代替上面的D NOTE:①由的取值是离散的,考虑到跳跃性,该能够保证S与F0之间取得最大距离; ②在H0下的分布有表可查,P201 ③在大样本时,有近似分布,这里的分布函数有表达式,P122,该分布有表可查P203: 三、 应用举例 【例6-1】轴承的内径检验 检验某车间生产的20个轴承外座圈的内径,测得数据如下(单位:mm) 表6-1 轴承内径数据 15.04 15.36 14.57 14.53 15.57 14.69 15.37 14.66 14.52 15.41 15.34 14.28 15.01 14.76 14.38 15.87 13.66 14.97 15.29 14.95 按照设计要求,这个内径应在15±0.2mm,检验是否符合标准,即检验该数据是否来自均值,方差的正态分布。 分析:方法一,可以利用直方图、Q-Q图、P-P图进行直观判断; 方法二,利用Kolmogorov检验 由P122表中数据得:,拒绝H0,认为不满足要求。 近似,P-值=0.979>0.05,接受H0。 【例6-2】《数理统计与管理》论文作者服从洛特卡分布 洛特卡定律是1926年6月19日洛特卡(Vlachy)在美国颇有影响的学术刊物《华盛顿科学院杂志》上首先提出,它第一次提示了作者与文献量的统计规律性。在这之后,洛特卡进一步发展了洛特卡定律,得出这样的一个关系:若以x表示每一作者所著的论文数,与其相应的写x篇论文的作者数为y,则y与x成反比关系。 将46期的《数理统计与管理》的文章按第一作者统计,得到表7-2的结果。论文作者数是否服从洛特卡分布。 表6-2 论文数目与作者数的统计表 论文数(x) 1 2 3 4 5 6 7 作者(y) 343 27 9 1 1 1 2 分析:洛特卡得出这样的一个关系:若以x表示每一作者所著的论文数,与其相应的写x篇论文的作者数为y,则y与x成反比关系。即有 (0.1) 式中,N为论文总数,m、C为两个特定的常数,在不同的学科领域数值不同。 假定根据表6—2提供的数据,认为论文作者服从洛特卡分布,并对其真实性进行检验,首先必须确定它的理论分布,即计算出m、C的值。估计m的值,通常采用最小二乘法。将(6.1)式进行对数变换,使其线性化,得到: (0.2) m相当于一元线性回归方程中的回归系数b,根据表中的数据运用最小二乘法,得到m=3.0550。关于C值,可以用这样一个公式进行近似计算。这是1985年美国情报学家M.L.Pao教授在数学家的协助之下提出的。计算式为: 经计算,。因此46期《数理统计与管理》的论文与作者数的理论洛特卡分布为 (0.3) 为了判定《数理统计与管理》论文作者的实际分布是否与理论分布一致,可以采用Kolmogorov检验。建立的假设组为 对 至少有一个x 理论累积频率的各个值,可以将x分别代入(6.3)式计算得到,实际累积频率是将累计的作者数分别除以作者总人数得到。计算结果,作者实际累积频率及理论累积频率及各个差值如表6-3。 表6-3 作者实际累积频率与理论累积频率表 1 2 3 4 5 6 7 0.8389 0.9398 0.9690 0.9811 0.9872 0.9907 0.9929 0.8932 0.9635 0.9870 0.9896 0.9922 0.9948 1.0000 0.0543 0.0237 0.0180 0.0085 0.0050 0.0041 0.0071 根据显著性水平,作者人数,查表,由于,得临界值。显然 因此数据在1%的显著性水平上不能拒绝H0,若显著性水平,查表得临界值。显然 因此,数据在5%的显著性水平上也不能拒绝H0,可以认为,《数理统计与管理》作者的分布服从洛特卡分布。 §3 Lilliefors正态性检验 Lilliefors正态性检验实质上是对Kolmogorov检验的一个改进。当用Kolmogorov检验某样本是否来自一正态总体时,当和未知时,就会用样本均值作为总体均值的估计,样本方差作为总体方差的估计,从而将数据标准化为:,再用标准正态分布作来计算K氏统计量。 但这时统计量在H0下的分布发生了改变,Lilliefors(1976)对Kolmogorov的检验临界值表作了修正。 【例6-3】以例6-1为例 在该例中,,,,对于5%的显著性水平,不能拒绝原假设。而按照Kolmogorov的临界值表,在5%显著性水平下的临界值为0.294,要比Lilliefors检验保守。 §4 Smirnov两样本检验 一、 Smirnov检验 主要用来检验两个样本是否同时来自于某一总体,设样本来自分布,而样本来自分布为的总体。Smirnov检验的基本思想和Kolmogorov检验一样,因此经常通称这两个检验为Kolmogorov-Smirnov拟合优度检验,简称K-S检验。 1. 基本假设 检验类型为: 类型A 对 至少有一个x 类型B 对 至少有一个x 类型C 对 至少有一个x 2. 基本方法 设和分别为这两个样本的经验分布函数。 则检验A的统计量可以取 (0.4) 式中 NOTE:①含义 ②其它检验类型的统计量仿此可以写出 ③的分布有表可查,P204,P205 ④大样本时,有近似分布 二、 应用举例 【例6-4】检验两个地区的GDP指数是否具有相同的分布 华北五省市区和华东七省市1996年的GDP指数(前一年为100)数据如下: 表6-4 两个地区的GDP指数 华北 109.2 114.3 113.5 111.0 112.7 华东 113.0 112.2 112.7 114.4 115.4 113.4 112.2 检验这两个地区的GDP指数的分布是否相同。 分析:数据的计算过程详见P126 接受H0。 §5 χ2拟合优度检验 检验目的:检验样本是否来自于某一特定的分布或总体。 在20世纪初,Pearson提出了拟合优度的统计量。其基本做法是:首先将样本区间进行分割,抽取n个观察值(相当于做了n次试验),则X落在每个区间中的数目服从多项分布,我们就是让这个多项分布去逼近X的分布 (0.5) 其中:r为总体分布里待估参数的个数,k为划分的组数。 卡方拟合优度检验就是用来检验一批分类数据所来自的总体分布是否与某种理论分布相一致,即检验。 其基本思想是:设总体可以分成类,现对总体作了n次观察,各类出现的频数分别为,且,则在成立时,应有实际频数与理论频数相差不大。为此,在20世纪初,Pearson提出了拟合优度的统计量。 (0.6) 【例6-5】检验顾客使用电话是否服从泊松分布 详见P128。 §6 二维列联表的齐性和独立性的检验 统计量特别适合于分类数据的各种模型的检验。因为在分类数据的场合不存在假设分布与由对总体支撑集的划分所导出分布的区别。虽然检验统计量的形式一样,但对不同的目的和不同的数据结构的解释是不一样的。 一、 列联表的齐性检验 实际问题中,常遇到:有n组从不同来源得到的数据,要判定这些数据的来源是否相同 如:有来自不同地区的地质样品,通过这些样品来了解这些地区的地质结构是否相同。 (有相同的分布),统计上我们可以将这些问题表述为: 假定有组样本,分别取自k个总体,要检验这k个总体的分布是否相同。这样的假设检验问题称为“齐次性检验”。 对一般的二维列联表P130,可以提出假设 不全相等 在H0下,这些概率与j无关,因此的期望值(理论频数)为,,因此期望值,则检验统计量为 (0.7) 二、 列联表的独立性检验 关心的目标是两个变量是否相互影响(独立) 至少有一个不相等 (0.8) 式中, NOTE:对立联表的齐次性检验和独立性检验,虽然检验的统计量均为统计量且有相同的分布形式。但两者之间有一些实质性区别 ①独立性检验中的数据是取自一个总体的二维样本,而齐次性检验中的数据是取自多个总体的一维样本; ②独立性检验是要检验两个变量的独立性,而齐次性检验则是要检验多个总体分布的齐次性; ③在独立性检验中是随机变量,而齐次性检验中的不是随机变量; ④独立性检验中的统计量的极限分布只要在时,就成立,而齐次性检验中的统计量的极限分布要在都趋于无穷时才成立。 三、 应用举例 【例6-7】人们去三个商场的概率是否一样 在一个有三个主要百货商场的商贸中心,调查者问479个不同年龄段的人首先去三个商场中的哪个,结果如下表 表6-6 调查结果 年龄段 商场1 商场2 商场3 总和 ≤30 83 70 45 198 31—50 91 86 15 192 >50 41 38 10 89 总和 215 194 70 479 问:人们去这三个商场的概率是否一样。 分析:列联表的齐次性检验 不全相等 拒绝H0。 【例6-8】在丧偶问题上的性别因素和地区因素是否独立 按照1996年一个抽样,我国华北五省市区的丧偶人数按性别分为 表6-7 1996年华北地区丧偶情况统计 男 女 合 计 北 京 112 356 478 天 津 130 305 435 河 北 846 1787 2633 山 西 359 782 1141 内蒙古 291 558 849 合 计 1748 3788 5536 问:在丧偶数量上性别因素和地区因素是否独立。 分析:该问题属于独立性检验 至少有一个不相等 拒绝H0。 【本章思考题】 1. Kolmogorov检验和Smirnov检验是怎样计算的? 2. 列联表齐次性的检验和独立性检验所使用的统计量有什么不同? 9 第 页展开阅读全文
咨信网温馨提示:1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。




非参数统计学讲义(第六章)分布检验和某些卡方检验.doc



实名认证













自信AI助手
















微信客服
客服QQ
发送邮件
意见反馈



链接地址:https://www.zixin.com.cn/doc/8793154.html