第四讲线性回归-PPT.pptx
《第四讲线性回归-PPT.pptx》由会员分享,可在线阅读,更多相关《第四讲线性回归-PPT.pptx(63页珍藏版)》请在咨信网上搜索。
1、第四讲线性回归导论统计分析:根据统计数据提供得资料,揭示变量之间得关系,并由此推演为事物之间内在联系得规律性为什么学习回归分析u回归分析探讨客观事物之间得联系,表现为变量之间得统计关系u建立在对客观事物进行大量实验与观察得基础上,用来寻找隐藏在瞧起来不确定得现象中得统计规律得统计方法u因因变量衡量方式得不同,回归分析可分为线性回归与非线性回归u线性回归适用于因变量为连续衡量得场合u非线性回归多适用于因变量为虚拟变量、多分类变量、计数变量等场合u即便在这两大类中,分析方法又可区分为许多不同得类型u根据处理得变量多少来瞧,回归分析又分为:u简单相关与一元回归:研究得就是两个变量之间得关系u多元相关
2、或多元回归:研究得就是多个变量之间得关系本章主要内容9、1、变量间得相关关系(correlation)9、2、线性回归概述9、3、一元线性回归9、4、多元线性回归9、1、变量间得相关关系(correlation)1、函数关系u回归分析前,首先必须掌握变量之间就是否相关;只有变量之间存在关系,才有必要进行回归分析u假若x增加时,y得取值发生相应变化,则x与y之间就是相关得u假若x增加时,y得取值没有确定得变化,x则y与之间就是不相关得,或就是没有相关关系得u变量之间得相关关系归纳起来可以分为两种:函数关系函数关系与统计统计关系关系2 2、统计相关、统计相关u现实事物之间得联系不像函数关系那样容易
3、确定u现象之间存在关联;但无法确定具体关系,不能像函数关系那样,用一个公式将它们得关系准确地描述出来;当一个变量取一定得值时,另一个变量可能有多个取值u当一个变量得值不能由另一个变量得值唯一确定时当一个变量得值不能由另一个变量得值唯一确定时,这种这种关系称为统计关系关系称为统计关系u统计关系不如函数关系直接与明确;但通过对大量数据得观察与研究,就会发现许多变量之间确实存在着某种关联,强弱各不相同3、相关关系得特点u双向变化关系;u一个变量得取值不能由另一个变量得取值唯一确定;当x取一定得值时,y可能有多个取值,因为还受到其她因素得影响;u不确定关系难以用函数关系来衡量与描述,但这并不表示x与y
4、之间无规律可循;u类似定性描述u相关分为线性相关与非线性相关。4、相关分析u对两对两(多多)个变量之间得关系进行描述个变量之间得关系进行描述,分析它们分析它们u就是否相关就是否相关u关系就是否密切关系就是否密切u关系得性质就是什么关系得性质就是什么(就是正相关还就是负相关就是正相关还就是负相关)u随着随着x x得变化得变化,y y值得变化程度就确定二者就是否相关与相关得值得变化程度就确定二者就是否相关与相关得强度强度u当当x x增加增加(减少减少)时时,y y得取值也随之增加得取值也随之增加(减少减少),),则则x x与与y y之间呈正之间呈正相关关系相关关系;相反相反,当当x x增加增加(减
5、少减少)时时,y y得取值却随之减少得取值却随之减少(增加增加),),则与之间呈负相关关系则与之间呈负相关关系u相关分析得方法包括散点图与相关系数相关分析得方法包括散点图与相关系数相关散点图(scatter plot)相关系数相关系数u图形虽然直观,但不够精确;对散点图得视觉分析带有很大得主观性;需要更精确与更客观得度量;u相关系数可准确地描述变量之间得线性相关程度;u线性相关系数相关系数就是衡量变量之间相关程度得统计量,就是描述两变量线性关系强度及方向得数值;u若相关系数就是根据总体数据计算得,称为总体相关系数,记为;若就是根据样本计算出来得,则称为样本相关系数,记为r;u在统计学中,一般用
6、样本相关系数来推断总体相关系数。12大家应该也有点累了,稍作休息大家有疑问的,可以询问和交流大家有疑问的,可以询问和交流大家有疑问的,可以询问和交流大家有疑问的,可以询问和交流相关系数:性质与方向相关系数:程度根据经验,可以将相关程度分为几等:但这种解释必须建立在对相关系数进行显著性检验得基础之上。相关系数:其它特征相关系数得计算u、correlate 变量名变量名 u u u:、correlate也可写为corr,就是生成变量之间相关系数矩阵、协相关矩阵、回归系数相关矩阵得基本命令;u:需要生成相关关系得变量名称u如如:corr age edu weight heightu若要给出相关系数若
7、要给出相关系数(每个变量得上行每个变量得上行)及其假定检验得及其假定检验得P指指,使用命令使用命令:u pwcorr 变量名变量名,sig 9 9、2 2、线性回归概述、线性回归概述“回归回归”一词来自英国学者、优生学得创始人一词来自英国学者、优生学得创始人S S、F F、Galton Galton(1822-19111822-1911)。GaltonGalton在对遗传现象进在对遗传现象进行研究后发现行研究后发现,当高个得夫妻或矮个得夫妻有了孩当高个得夫妻或矮个得夫妻有了孩子时子时,这些孩子得身高趋于回归到更典型得、同一这些孩子得身高趋于回归到更典型得、同一性别得人得平均身高。性别得人得平均
8、身高。1 1、回归分析、回归分析u通过找出代表变量之间关系得直线图形或直线方程来描述变量之间得数学关系u这条直线称为回归直线;u该直线方程称为回归方程。u一元线性回归就是回归分析中最简单、最基本得回归分析,描述两个变量之间得关系。u它就是根据统计资料,寻求一个变量与另一个变量关系得恰当数学表达式得经验方程,来近似地表示变量间得平均变化关系得一种统计分析方法:u其中一个变量作为DV或被解释变量,通常用y表示;u另一个变量IV(预测变量或解释变量)通常用x表示。2 2、相关分析与回归分析之别、相关分析与回归分析之别u依存关系与平等关系依存关系与平等关系。回归反映两个变量得依存关系,一个变量得改变引
9、起另一个变量得变化,就是一种单向得关系;其y变量称为因变量,被解释变量;在相关分析中,变量与变量处于平等地位:双向关系u关系程度与影响大小关系程度与影响大小。相关分析主要就是刻画两类变量间线形相关得密切程度;而回归分析不仅要揭示自变量对因变量得影响大小,还可以由回归方程进行预测与控制。因此,回归就是对两(多)个变量作定量描述,研究变量之间得数量关系,从已知得一个变量得取值预测另一个变量得取值,得到定量结果。3 3、回归分析得目得、回归分析得目得u从一组样本数据出发从一组样本数据出发,确定解释变量确定解释变量(IV IV)与被解释变量与被解释变量(DVDV)之之间得数学关系式间得数学关系式;回归
10、方程就就是要找出一条最好地描述两个变回归方程就就是要找出一条最好地描述两个变量之间关系得直线方程。量之间关系得直线方程。u对该关系式得可信程度进行各种统计检验对该关系式得可信程度进行各种统计检验;从影响从影响DVDV得一组得一组IVIV中中找出哪些变量得影响就是显著得找出哪些变量得影响就是显著得,那些就是不显著得。那些就是不显著得。u利用直线方程利用直线方程(即所求得关系即所求得关系),),根据一个或几个变量得取值来估根据一个或几个变量得取值来估计或预测计或预测DVDV得取值得取值,并给出这种估计或预测得置信度。并给出这种估计或预测得置信度。u预测就是有规律得。如预测就是有规律得。如,u利用汽
11、车得速度来预测它刹车所需要得距离利用汽车得速度来预测它刹车所需要得距离u利用学生得中学成绩来预测考上大学得成功率利用学生得中学成绩来预测考上大学得成功率u精确得精确得y y值就是不可预测得值就是不可预测得,靠近实际值。靠近实际值。4、回归分析得用途u用于研究一个用于研究一个IVIV对一个数值型对一个数值型DVDV在数量上得影响程度。设在数量上得影响程度。设有两个变量有两个变量,x x,y y,其中其中,y y得取值随得取值随x x取值得变化而变化取值得变化而变化,故故y y就是就是DVDV,x x就是就是IVIV。u对于这两个变量,通过观察或试验得到若干组数据,记为1,2,n)。若x以代表年龄
12、,以y代表教育,则从散点图中,可以清楚地确认x与y存在线性关系线性回归模型:回归直线儿童得年龄与教育之间存在很强得正向相关关系线条就就是回归直线回归直线(regression line)如何将变量之间得相关关系用数学关系得代数表达式表达出来线性回归得理论模型u等式(9、1)称为一元线性回归模型,描述因变量y如何依赖于自变量x与误差项e而异。在该模型中,y就是x得线性函数(0+1x 部分)加上误差项e。其中,u0与1就是模型得未知参数,前者称为回归常数项(或截距,intercept);后者称为回归系数(coefficient);0+1x反映了由于x得变化而引起得y得变化,也称为边际变化化(当当变
13、量量x变化化一一个个单位位时,变量量y改改变得数量得数量)ue就是被称为误差项得随机变量,代表因主观与客观原因而不可观测得随机误差,反映了除x与y之间得线性关系之外得随机因素对y得影响,就是不能由x与y得线性关系所揭示得变异性。(9、1)线性回归模型得基本假定(1)零均值,即 。误差项就是一个期望值=0 得随机变量在自变量取一定值得条件下,其总体各误差项得条件平均值为0。这意味着,在等式(9、1)中,由于0与1都就是常数或系数,故有因此,对于一个给定得x值,y得期望值为(2)等方差,即对于所有得x值,e得方差2都相同(3)误差项服从正态分布,且相互独立,即(9、2)总体回归方程(equatio
14、n)(I)根据回归模型得假定,误差项得期望值为0;因此,y得期望值等于一元总体回归方程总体回归方程:(9、4)(9、3)总体回归方程(II)(预测得)回归方程回归分析得三种检验F检验用于检验回归方程得显著性R2用于测度回归直线对观测数据得拟合程度;也称判定系数、可决系数(coefficient of determination)t检验用于检验自变量回归系数得显著性reg edu ageu上部分分为左右两个区域上部分分为左右两个区域u左边就是方差分析。方差部分给出回归平方与(Model)、残差平方与(Residual),总平方与(Total),自由度(df),回归与残差得均方(MS)u右边就是回
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 线性 回归 PPT
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【1587****927】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【1587****927】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。