分享
分销 收藏 举报 申诉 / 41
播放页_导航下方通栏广告

类型高中数学选修121.1回归分析的基本思想及其初步应用.ppt

  • 上传人:精***
  • 文档编号:12287204
  • 上传时间:2025-10-04
  • 格式:PPT
  • 页数:41
  • 大小:828.50KB
  • 下载积分:12 金币
  • 播放页_非在线预览资源立即下载上方广告
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    高中数学 选修 121.1 回归 分析 基本 思想 及其 初步 应用
    资源描述:
    ,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,a.比数学3中“回归”增加的内容,数学统计,画散点图,了解最小二乘法的思想,求回归直线方程,y,bx,a,用回归直线方程解决应用问题,选修-统计案例,引入线性回归模型,y,bx,a,e,了解模型中随机误差项,e,产生的原因,了解相关指数,R,2,和模型拟合的效果之间的关系,了解残差图的作用,利用线性回归模型解决一类非线性回归问题,正确理解分析方法与结果,问题1:,正方形的面积y与正方形的边长x之间,的,函数关系,是,y=x,2,确定性关系,问题2:,某水田水稻产量y与施肥量x之间是否,-,有一个确定性的关系?,例如:,在 7 块并排、形状大小相同的试验田上 进行施肥量对水稻产量影响的试验,得到如下所示的一组数据:,施化肥量x,15 20 25 30 35 40 45,水稻产量y,330 345 365 405 445 450 455,复习:变量之间的两种关系,自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做,相关关系,。,1、定义:,1):相关关系是一种不确定性关系;,注,对具有相关关系的两个变量进行统计分析的方法叫,回归分析,。,2):,例1,从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。,编号,1,2,3,4,5,6,7,8,身高/cm,165,165,157,170,175,165,155,170,体重/kg,48,57,50,54,64,61,43,59,求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为,172cm的女大学生的体重。,案例1:女大学生的身高与体重,解:1、选取身高为自变量x,体重为因变量y,作散点图:,2、由散点图知道身高和体重有比较好的,线性相关关系,因此可以用线性回归方程,刻画它们之间的关系。,3、从散点图还看到,样本点散布在某一条,直线的附近,而不是在一条直线上,所以,不能用一次函数y=bx+a描述它们关系,。,我们可以用下面的,线性回归模型,来表示:,y=bx+a+e,,其中a和b为模型的未知参数,,e称为随机误差,。,思考P3,产生随机误差项e,的原因是什么?,思考,产生随机误差项e的原因是什么?,随机误差e的来源(可以推广到一般):,1、其它因素的影响:影响体重,y,的因素不只是身高,x,,可能还包括遗传基因、饮食习惯、生长环境等因素;,2、用线性回归模型近似真实模型所引起的误差;,3、身高,x,的观测误差。,函数模型与回归模型之间的差别,函数模型:,回归模型:,可以提供,选择模型的准则,例1,从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。,59,43,61,64,54,50,57,48,体重/kg,170,155,165,175,170,157,165,165,身高/cm,8,7,6,5,4,3,2,1,编号,求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为,172cm的女大学生的体重。,根据最小二乘法估计 和 就是未知参数a和b的最好估计,,制表,7 8 合计,6,5,4,3,2,1,i,所以回归方程是,所以,对于身高为172cm的女大学生,由回归方程可以预报,其体重为,探究P4:,身高为172cm的女大学生的体重一定是60.316kg吗?如果不是,你能解析一下原因吗?,例1,从某大学中随机选取8名女大学生,其身高和体重数据如表1-1所示。,59,43,61,64,54,50,57,48,体重/kg,170,155,165,175,170,157,165,165,身高/cm,8,7,6,5,4,3,2,1,编号,求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为,172cm的女大学生的体重。,探究P4:,身高为172cm的女大学生的体重一定是60.316kg吗?如果不是,你能解析一下原因吗?,答:身高为172cm的女大学生的体重不一定是60.316kg,但一般可以认为她的体重在60.316kg左右。,60.136kg不是每个身高为172cm的女大学生的体重的预测值,而是所有身高为172cm的女大学生,平均体重的预测值,。,函数模型与回归模型之间的差别,函数模型:,回归模型:,线性回归模型y=bx+a+e,增加了随机误差项e,,因变量y的值由自变量x和随机误差项e共同确定,即,自变量x只能解析部分y的变化,。,在统计中,我们也把自变量x称为解析变量,因变量y称为预报变量。,1.用相关系数 r 来衡量,2.公式:,求出线性相关方程后,说明身高x每增加一个单位,体重y就增加0.849个单位,这表明体重与身高具有正的线性相关关系.如何描述它们之间线性相关关系的强弱呢?,、当 时,x与y为完全线性相关,它们之间存在确定的函数关系。,、当 时,表示x与y存在着一定的线性相关,r的绝对值越大,越接近于1,表示x与y直线相关程度越高,反之越低。,3.性质:,相关关系的测度,(相关系数取值及其意义),-1.0,+1.0,0,-0.5,+0.5,完全负相关,无线性相关,完全正相关,负相关程度增加,r,正相关程度增加,对回归模型进行统计检验,思考P6:,如何刻画预报变量(体重)的变化?这个变化在多大程度上,与解析变量(身高)有关?在多大程度上与随机误差有关?,假设身高和随机误差的不同不会对体重产生任何影响,那么所有人的体重将相同。,在体重不受任何变量影响的假设下,设8名女大学生的体重都是她们的平均值,,即8个人的体重都为54.5kg。,54.5,54.5,54.5,54.5,54.5,54.5,54.5,54.5,体重/kg,170,155,165,175,170,157,165,165,身高/cm,8,7,6,5,4,3,2,1,编号,54.5kg,在散点图中,所有的点应该落在同一条水平直线上,但是观测到的数据并非如此。,这就意味着,预报变量(体重)的值,受解析变量(身高)和随机误差的影响,。,59,43,61,64,54,50,57,48,体重/kg,170,155,165,175,170,157,165,165,身高/cm,8,7,6,5,4,3,2,1,编号,例如,编号为6的女大学生的体重并没有落在水平直线上,她的体重为61kg。解析变量(身高)和随机误差共同把这名学生的体重从54.5kg“推”到了61kg,相差6.5kg,所以,6.5kg是解析变量和随机误差的,组合效应,。,编号为3的女大学生的体重并也没有落在水平直线上,她的体重为50kg。解析变量(身高)和随机误差共同把这名学生的体重从50kg“推”到了54.5kg,相差,-4.5kg,,这时解析变量和随机误差的组合效应为,-4.5kg,。,54.5kg,用这种方法可以对所有预报变量计算组合效应。,数学上,把每个效应(观测值减去总的平均,值)的平方加起来,即用,表示总的效应,称为,总偏差平方和,。,在例1中,总偏差平方和为354。,59,43,61,64,54,50,57,48,体重/kg,170,155,165,175,170,157,165,165,身高/cm,8,7,6,5,4,3,2,1,编号,那么,在这个总的效应(总偏差平方和)中,有多少来自于解析变量(身高)?有多少来自于随机误差?,假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图中所有的点将完全落在回归直线上。但是,在图中,数据点并没有完全落在回归直线上。,这些点散布在回归直线附近,所以一定是随机误差把这些点从回归直线上“推”开了,。,因此,数据点和它在回归直线上相应位置的差异,是随机误差的效应,称 为,残差,。,在例1中,残差平方和约为128.361。,例如,编号为6的女大学生,计算随机误差的效应(残差)为:,对每名女大学生计算这个差异,然后分别将所得的值平方后,加起来,用数学符号表示为:,称为,残差平方和,,,它代表了,随机误差的效应,。,由于解析变量和随机误差的总效应(总偏差平方和)为354,而随机误差的效应为128.361,所以解析变量的效应为,354-128.361=225.639,这个值称为,回归平方和。,解析变量和随机误差的总效应(总偏差平方和),=解析变量的效应(回归平方和)+随机误差的效应(残差平方和),我们可以用,相关指数R,2,来刻画回归的效果,其计算公式是,显然,R,2,的值越大,说明残差平方和越小,也就是说模型拟合效果越好。,在线性回归模型中,R,2,表示解析变量对预报变量变化的贡献率,。,R,2,越接近1,表示回归的效果越好(因为R,2,越接近1,表示解析变量和预报变量的线性相关性越强)。,如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R,2,的值来做出选择,即,选取R,2,较大的模型作为这组数据的模型,。,总的来说:,相关指数R,2,是度量模型拟合效果的一种指标。,在线性模型中,它,代表自变量刻画预报变量的能力,。,我们可以用,相关指数R,2,来刻画回归的效果,其计算公式是,1,354,总计,0.36,128.361,随机误差(e),0.64,225.639,解释变量(身高),比例,平方和,来源,表1-3,从表3-1中可以看出,解析变量对总效应约贡献了64%,即R,2,0.64,可以叙述为“身高解析了64%的体重变化”,而随机误差贡献了剩余的36%。所以,身高对体重的效应比随机误差的效应大得多。,在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用回归模型来拟合数据。,残差分析与残差图的定义:,然后,我们可以通过残差 来判断模型拟合的效果,判断原始数据中是否存在可疑数据,,这方面的分析工作称为残差分析,。,编号,1,2,3,4,5,6,7,8,身高/cm,165,165,157,170,175,165,155,170,体重/kg,48,57,50,54,64,61,43,59,残差,-6.373,2.627,2.419,-4.618,1.137,6.627,-2.883,0.382,我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为,残差图,。,表1-4列出了女大学生身高和体重的原始数据以及相应的残差数据。,使用公式 计算残差,残差图的制作及作用。,坐标纵轴为残差变量,横轴可以有不同的选择;,若模型选择的正确,残差图中的点应该分布在以横轴为心的带形区域,;,对于远离横轴的点,要特别注意,。,身高与体重残差图,异常点,错误数据,模型问题,几点说明:,第一个样本点和第6个样本点的残差比较大,需要确认在采集过程中是否有人为的错误。如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因。,另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。,用身高预报体重时,需要注意下列问题:,1、回归方程只适用于我们所研究的样本的总体;,2、我们所建立的回归方程一般都有时间性;,3、样本采集的范围会影响回归方程的适用范围;,4、不能期望回归方程得到的预报值就是预报变量的精确值。,事实上,它是预报变量的可能取值的平均值。,这些问题也使用于其他问题。,一般地,建立回归模型的基本步骤为:,(1)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量。,(2)画出确定好的解析变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)。,(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a).,(4)按一定规则估计回归方程中的参数(如最小二乘法)。,(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或模型是否合适等。,什么是回归分析?,(内容),从一组样本数据出发,确定变量之间的数学关系式,对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著,利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度,回归分析与相关分析的区别,相关分析中,变量,x,变量,y,处于平等的地位;回归分析中,变量,y,称为因变量,处在被解释的地位,,x,称为自变量,用于预测因变量的变化,相关分析中所涉及的变量,x,和,y,都是随机变量;回归分析中,因变量,y,是随机变量,自变量,x,可以是随机变量,也可以是非随机的确定变量,相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量,x,对变量,y,的影响大小,还可以由回归方程进行预测和控制,练:某种产品的广告费支出x与销售额y之间有如表所示数据:,零件数X,2,4,5,6,8,加工时间y(分钟),30,40,60,50,70,(1)求x,y之间的相关系数;,(2)求线性回归方程;,离差平方和的分解,(三个平方和的意义),总偏差平方和,(,SST,),反映因变量的,n,个观察值与其均值的总离差,回归平方和,(,SSR,),反映自变量,x,的变化对因变量,y,取值变化的影响,或者说,是由于,x,与,y,之间的线性关系引起的,y,的取值变化,也称为可解释的平方和,残差平方和,(,SSE,),反映除,x,以外的其他因素对,y,取值的影响,也称为不可解释的平方和或剩余平方和,样本决定系数,(判定系数,r,2,),回归平方和占总离差平方和的比例,反映回归直线的拟合程度,取值范围在,0,1,之间,r,2,1,,,说明回归方程拟合的越好;,r,2,0,,,说明回归方程拟合的越差,判定系数等于相关系数的平方,即,r,2,(,r,),2,2、,现实生活中存在着大量的相关关系。,如:人的身高与年龄;,产品的成本与生产数量;,商品的销售额与广告费;,家庭的支出与收入。等等,探索:水稻产量y与施肥量x之间大致有何规律?,10 20 30 40 50,500,450,400,350,300,发现:图中各点,大致分布在某条直线附近。,探索2:在这些点附近可画直线不止一条,哪条直线最能代表x与y之间的关系呢?,x,y,施化肥量,水稻产量,施化肥量x,15 20 25 30 35 40 45,水稻产量y,330 345 365 405 445 450 455,散点图,什么是回归分析:,“回归”一词是由英国生物学家F.Galton在研究人体身高的遗传问题时首先提出的。,根据遗传学的观点,子辈的身高受父辈影响,以,X,记父辈身高,,Y,记子辈身高。,虽然子辈身高一般受父辈影响,但同样身高的父亲,其子身高并不一致,因此,,X和Y之间存在一种相关关系。,一般而言,父辈身高者,其子辈身高也高,依此推论,祖祖辈辈遗传下来,身,高必然向两极分化,而事实上并非如此,显然有一种力量将身高拉向中心,即子辈,的身高有向中心回归的特点。“回归”一词即源于此。,虽然这种向中心回归的现象只是特定领域里的结论,并不具有普遍性,但从它,所描述的关于,X,为自变量,,Y,为不确定的因变量这种变量间的关系看,和我们现在的,回归含义是相同的。,不过,现代回归分析虽然沿用了“回归”一词,但内容已有很大变化,它是一种应用,于许多领域的广泛的分析研究方法,在经济理论研究和实证研究中也发挥着重要作用。,作业:某种产品的广告费支出x与销售额y之间有如表所示数据:,广告费用X(万元),2,4,5,6,8,销售额y (万元),30,40,60,50,70,(1)求x,y之间的相关系数;,(2)求线性回归方程;,(3)求总偏差平方和及残差平方和;,(4)求R,2,说明模型的拟合效果,残差变量对销售额的影响百分比.(看看课本第6页表13),
    展开阅读全文
    提示  咨信网温馨提示:
    1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
    5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

    开通VIP折扣优惠下载文档

    自信AI创作助手
    关于本文
    本文标题:高中数学选修121.1回归分析的基本思想及其初步应用.ppt
    链接地址:https://www.zixin.com.cn/doc/12287204.html
    页脚通栏广告

    Copyright ©2010-2025   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:0574-28810668    微信客服:咨信网客服    投诉电话:18658249818   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   


    关注我们 :微信公众号  抖音  微博  LOFTER               

    自信网络  |  ZixinNetwork