独立性检验的基本思想及其初步应用高中数学人教A版选修PPT课件.ppt
《独立性检验的基本思想及其初步应用高中数学人教A版选修PPT课件.ppt》由会员分享,可在线阅读,更多相关《独立性检验的基本思想及其初步应用高中数学人教A版选修PPT课件.ppt(52页珍藏版)》请在咨信网上搜索。
1、3.2 独立性检验的基本思想及其初步应用独立性检验的基本思想及其初步应用11上上节节学学习习了了回回归归分分析析的的基基本本方方法法线线性性回回归归模模型型ybxae不不同同于于一一次次函函数数ybxa,含含有有_,其其中中x为为_,y为为_复复习习样本点的中心样本点的中心随机随机误误差差e解解释变释变量量预报变预报变量量残差平方和残差平方和23相关指数:(1)在含有一个解释变量的线性模型中,R2恰好等于相关系数r的平方.(2)R2取值越大(越接近1),则残差平方和越小,即模型的拟合效果越好.(实际上就是:|r|越大,则|e|越小)其中:4.3新新课课4独立性检验独立性检验本节研究的是两个分类
2、变量的独立性检验问题。在日常生活中,我们常常关心在日常生活中,我们常常关心分类变量之间是否有关系分类变量之间是否有关系:例如,吸烟是否与患肺癌有关系?例如,吸烟是否与患肺癌有关系?性别是否对于喜欢数学课程有影响等等性别是否对于喜欢数学课程有影响等等?5 吸烟与肺癌列联表吸烟与肺癌列联表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计98749874919199659965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了地调查了99659965人,得
3、到如下结果(单位:人)人,得到如下结果(单位:人)列联表列联表在不吸烟者中患肺癌的比重是在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是 说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大。肺癌的可能性大。0.54%0.54%2.28%2.28%探究探究6不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟7775427817吸烟吸烟2099492148总计总计98749199651、列联表、列联表2、三维柱形图、三维柱形图3、二维条形图、二维条形图不患肺癌不患肺癌患肺癌患肺癌吸烟吸烟不吸烟不吸烟不
4、患肺癌不患肺癌患肺癌患肺癌吸烟吸烟不吸烟不吸烟080007000600050004000300020001000从三维柱形图能清晰看出从三维柱形图能清晰看出各个频数的相对大小。各个频数的相对大小。从二维条形图能看出,吸烟者中从二维条形图能看出,吸烟者中患肺癌的比例高于不患肺癌的比例。患肺癌的比例高于不患肺癌的比例。通过图形直观判断两个分类变量是否相关:通过图形直观判断两个分类变量是否相关:7不吸烟不吸烟吸烟吸烟患肺癌比例不患肺癌比例4、等高条形图等高条形图更清晰地表达了两种情况下患肺癌的比例。8某企业为了考察同一种产品在甲、乙两条生产线的某企业为了考察同一种产品在甲、乙两条生产线的产品合格率,
5、同时各抽取产品合格率,同时各抽取100件产品,其中甲线中合件产品,其中甲线中合格产品的个数为格产品的个数为97,乙线中合格产品的个数为,乙线中合格产品的个数为95。请做出列联表,三维柱形图与二维条形图。请做出列联表,三维柱形图与二维条形图。9合格不合格总计甲生产线973100乙生产线955100总计19282001011l122列联表是传统的调查研究中最常用的方法之一,用于研究两个变量之间相互独立还是存在某种关联性,它适用于分析两个变量之间的关系l2在实际问题中,判断两个分类变量的关系的可靠性时,一般利用随机变量K2来确定,而不利用三维柱形图和二维条形图12l练习:1.下面是一个22列联表l则
6、表中a、b处的值分别为()lA94、96 B52、50lC52、59 D54、52l答案Cy1y2合计x1a2173x272027合计b4110013l2用K2统计量进行独立性检验时,使用的表称为_,要求表中的四个数据_l答案22列联表均大于514l某学校对学生课外活动内容进行调查,结果整理成下表:l利用图形判断学生课外活动的类别与性别是否有关系?体育文娱总计男生212344女生62935总计27527915l解析某等高条形图如图所示l由图可以直观地看出喜欢体育还是喜欢文娱在性别上有较大差异,说明课外活动的类别与性别在某种程度上有关系16 上上面面我我们们通通过过分分析析数数据据和和图图形形,
7、得得到到的的直直观观印印象象是是吸吸烟烟和和患患肺肺癌癌有有关关,那那么么事事实实是是否否真真的的如如此此呢呢?这这需需要要用用统统计计观观点点来考察这个问题。来考察这个问题。现在想要知道能够以多大的把握认为现在想要知道能够以多大的把握认为“吸烟与患肺癌有关吸烟与患肺癌有关”,为此先假设为此先假设 H0:吸烟与患肺癌没有关系:吸烟与患肺癌没有关系.不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aba+b吸烟吸烟cdc+d总计总计a+cb+da+b+c+d把表中的数字用字母代替,得到如下用字母表示的列联表把表中的数字用字母代替,得到如下用字母表示的列联表 用用A表示不吸烟,表示不吸烟,B表示不
8、患肺癌,则表示不患肺癌,则“吸烟与患肺癌没有关系吸烟与患肺癌没有关系”等价于等价于“吸烟与患肺癌独立吸烟与患肺癌独立”,即假设,即假设H0等价于等价于 P(AB)=P(A)P(B).17因此因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;越小,说明吸烟与患肺癌之间关系越弱;|ad-bc|越大,说明吸烟与患肺癌之间关系越强。越大,说明吸烟与患肺癌之间关系越强。不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aba+b吸烟吸烟cdc+d总计总计a+cb+da+b+c+d在表中,在表中,a恰好为事件恰好为事件AB发生的频数;发生的频数;a+b和和a+c恰好分别为事恰好分别为事件件A和和B发生的
9、频数。由于频率接近于概率,所以在发生的频数。由于频率接近于概率,所以在H0成立的条成立的条件下应该有件下应该有18 为为了了使使不不同同样样本本容容量量的的数数据据有有统统一一的的评评判判标标准准,基基于于上上述述分分析,我们构造一个随机变量析,我们构造一个随机变量-卡方统计量卡方统计量(1)若若 H0成立,即成立,即“吸烟与患肺癌没有关系吸烟与患肺癌没有关系”,则,则K2应很小。应很小。根据表根据表3-7中的数据,利用公式(中的数据,利用公式(1)计算得到)计算得到K2的观测值为:的观测值为:那么这个值到底能告诉我们什么呢?那么这个值到底能告诉我们什么呢?(2)独立性检验独立性检验19在在H
10、0成立的情况下,统计学家估算出如下的概率成立的情况下,统计学家估算出如下的概率 即即在在H0成成立立的的情情况况下下,K2的的值值大大于于6.635的的概概率率非非常常小小,近近似似于于0.01。也也就就是是说说,在在H0成成立立的的情情况况下下,对对随随机机变变量量K2进进行行多多次次观观测,观测值超过测,观测值超过6.635的频率约为的频率约为0.01。思考 答:判断出错的概率为0.0120判断判断 是否成立的规则是否成立的规则如果如果 ,就判断,就判断 不成立,即认为吸烟与不成立,即认为吸烟与患肺癌有关系;否则,就判断患肺癌有关系;否则,就判断 成立,即认为吸烟成立,即认为吸烟与患肺癌有
11、关系。与患肺癌有关系。独立性检验的定义独立性检验的定义 上面这种利用随机变量上面这种利用随机变量K2来确定在多大程度上来确定在多大程度上可以认为可以认为“两个分类变量有关系两个分类变量有关系”的方法,称为两的方法,称为两个分类变量的个分类变量的独立性检验独立性检验。在该规则下,把结论在该规则下,把结论“成立成立”错判成错判成“不不成立成立”的概率不会差过的概率不会差过即有即有99%的把握认为的把握认为 不成立。不成立。21独立性检验的基本思想(类似独立性检验的基本思想(类似反证法反证法)(1)(1)假设结论不成立假设结论不成立,即即 “两个分类变量没有关系两个分类变量没有关系”.(2)(2)在
12、此假设下我们所构造的随机变量在此假设下我们所构造的随机变量 K K2 2 应该很小应该很小,如果由如果由观测数据计算得到观测数据计算得到K K2 2的观测值的观测值k k很大很大,则在一定可信程度上则在一定可信程度上说明说明 不成立不成立.即在一定可信程度上认为即在一定可信程度上认为“两个分类变量有两个分类变量有关系关系”;如果;如果k k的值很小,则说明由样本观测数据没有发现反的值很小,则说明由样本观测数据没有发现反对对 的充分证据。的充分证据。(3)(3)根据随机变量根据随机变量K K2 2的含义的含义,可以通过评价该假设不合理的程可以通过评价该假设不合理的程度度,由实际计算出的由实际计算
13、出的,说明假设合理的程度为说明假设合理的程度为99%,99%,即即“两个两个分类变量有关系分类变量有关系”这一结论成立的可信度为约为这一结论成立的可信度为约为99%.99%.22在实际应用中,要在获取样本数据之前通过下表确定临界值:在实际应用中,要在获取样本数据之前通过下表确定临界值:0.500.400.250.150.100.455 0.7081.3232.0722.7060.050.0250.0100.0050.0013.841 5.0246.6367.87910.828具体作法是:具体作法是:(1)根据实际问题需要的可信程度确定临界值根据实际问题需要的可信程度确定临界值 ;(2)利用公式
14、利用公式(1),由观测数据计算得到随机变量,由观测数据计算得到随机变量 的观测值;的观测值;(3)如果如果 ,就以,就以 的把握认为的把握认为“X与与Y有关系有关系”;否则就说样本观测数据没有提供;否则就说样本观测数据没有提供“X与与Y有关系有关系”的充分证据。的充分证据。230.500.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.82824上面这种利用随机变量上面这种利用随机变量K2来确定在多大程度上来确定在多大程度上可以认为可以认为”两个分类变量有关系两个分类变量
15、有关系”的方法称为两个的方法称为两个分类变量的分类变量的独立性检验独立性检验独立性检验的基本思想类似于数学上的反证法独立性检验的基本思想类似于数学上的反证法.要确认要确认”两个分类变量有关系两个分类变量有关系”这一结论成立这一结论成立的可信程度的可信程度,首先假设该结论不成立首先假设该结论不成立,即假设结即假设结论论”两个分类变量没有关系两个分类变量没有关系”成立成立.在该假设下在该假设下我们构造的随机变量我们构造的随机变量K2应该很小应该很小,如果由观测数如果由观测数据计算得到的据计算得到的K2的观测值的观测值k很大很大,则在一定程度则在一定程度上说明假设不合理上说明假设不合理.25总计总计
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 独立性 检验 基本 思想 及其 初步 应用 高中 学人 选修 PPT 课件
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【可****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【可****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。