CHAP11 回归分析.ppt
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- CHAP11 回归分析 回归 分析
- 资源描述:
-
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,第,11,章 回归分析,介绍:,1,、回归分析的概念和模型,2,、回归分析的过程,回归分析的概念,寻求有关联(相关)的变量之间的关系,主要内容:,从一组样本数据出发,确定这些变量间的定量关系式,对这些关系式的可信度进行各种统计检验,从影响某一变量的诸多变量中,判断哪些变量的影响显著,哪些不显著,利用求得的关系式进行预测和控制,回归分析的模型,按是否线性分:线性回归模型和非线性回归模型,按自变量个数分:简单的一元回归,多元回归,回归分析的模型,基本的步骤:利用,SPSS,得到模型关系式,是否是我们所要的,要看回归方程的显著性检验(,F,检验)和回归系数,b,的显著性检验,(,T,检验,),,还要看拟合程度,R,2,(,相关系数的平方,一元回归用,R Square,,,多元回归用,Adjusted R Square,),回归分析的,过程,在回归过程中包括:,Liner,:,线性回归,Curve Estimation,:,曲线估计,Binary Logistic,:,二分变量逻辑回归,回归分析的,过程,Multinomial Logistic,:,多分变量逻辑回归,Ordinal,序回归,Probit,:,概率单位回归,Nonlinear,:,非线性回归,Weight Estimation,:,加权估计,2-,Stage Least squares,:,二段最小平方法,Optimal Scaling,最优编码回归,11.1,线性回归,(,Liner),一元线性回归方程,:,y=a+,bx,a,称为截距,b,为回归直线的斜率,用,R2,判定系数判定一个线性回归直线的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例),回归方程,回归方程的显著性检验,目的,:,检验自变量与因变量之间的线性关系是否显著,是否可用线性模型来表示,.,检验方法:,t,检验,F,检验,(,一元回归中,F,检验与,t,检验一致,两种检验可以相互替代),回归方程,附:残差分析:,残差序列的正态性分析,可以绘制标准化残差序列的带正态曲线的直方图或累计概率图来分析;,残差序列的随机性分析,可以绘制残差序列和对应的预测值序列的散点图。如果残差序列是随机的,那么残差序列应与预测值序列无关,残差序列点将随机地分布在经过零的一条直线上下;,回归方程,残差序列的独立性分析,目的是分析残差序列是否存在后期值与前期值相关的现象。如果存在相关现象,表示残差序列中还存有一些规律性,回归方程没能较全面地反映因变量的变化。,一般用,D-W,检验作残差序列的独立性分析。,D-W,值,=0,:完全正自相关;,D-W,值,=4,:完全负自相关;,D-W,值在,0,和,2,之间:正自相关;,D-W,值在,2,和,4,之间:负自相关。实际应用中,接近,2,就可以认为残差序列具有独立性。,奇异值(,Casewise,或,Outliers),诊断,概念,奇异值指样本数据中远离均值的样本数据点,会对回归方程的拟合产生较大偏差影响。,诊断标准,一般认为,如果某样本点对应的标准化残差值超出了,-3,,,+3,的范围,就可以判定该样本数据为奇异值。,线性回归方程的预测,点估计,y0,区间估计,95%,的近似置信区间,:y0-2Sy,y0+2Sy.x0,为,xi,的均值时,预测区间最小,精度最高,.,x0,越远离均值,预测区间越大,精度越低,.,线性回归,(,Liner),一元线性回归模型的确定,:,一般先做散点图,(,Graphs-Scatter-Simple),以便进行简单地观测(如:,Salary,与,Salbegin,的关系,),若散点图的趋势大概呈线性关系,可以建立线性方程,若不呈线性分布,可建立其它方程模型,并比较,R2(-1),来确定一种最佳方程式(曲线估计),线性回归,(,Liner),多元线性回归方程,:,y=b0+b1x1+b2x2+,bnxn,b0,为常数项,b1,、,b2,、,、,bn,称为,y,对应于,x1,、,x2,、,、,xn,的偏回归系数,用,Adjusted R2,调整判定系数判定一个多元线性回归方程的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例),多元线性回归分析中的自变量筛选,自变量筛选的目的,多元回归分析引入多个自变量,.,如果引入的自变量个数较少,则不能很好的说明因变量的变化,;,但并非自变量引入越多越好,.,原因,:,有些自变量可能对因变量的解释没有贡献,自变量间可能存在较强的线性关系,即,:,多重共线性,.,因而不能全部引入回归方程,.,多元线性回归分析中的自变量筛选,自变量筛选法,向前筛选法,(,forward),,,是自变量不断进入回归方程的过程,.,向后筛选法,(,backward),,,是自变量不断剔除出回归方程的过程,逐步筛选法,(,stepwise),,,是“向前法”和“向后法”的结合,多元线性回归一般采用逐步回归方法,-,Stepwise,逐步回归方法的基本思想,对全部的自变量,x,1,x,2,.,x,p,按它们对,Y,贡献的大小进行比较,并通过,F,检验法,选择偏回归平方和显著的变量进入回归方程,每一步只引入一个变量,同时建立一个回归方程。当一个变量被引入后,对原已引入回归方程的变量,逐个检验他们的偏回归平方和。如果由于引入新的变量而使得已进入方程的变量变为不显著时,则及时从回归方程中剔除。在引入了两个自变量以后,便开始考虑是否有需要剔除的变量。只有当回归方程中的所有自变量对,Y,都有显著影响而不需要剔除时,在考虑从未选入方程的自变量中,挑选对,Y,有显著影响的新的变量进入方程。不论引入还是剔除一个变量都称为一步。不断重复这一过程,直至无法剔除已引入的变量,也无法再引入新的自变量时,逐步回归过程结束。,线性回归分析中的共线性检测,共线性带来的主要问题,主要是会给自变量的偏回归系数的估计带来困难。偏回归系数的估计方差会随着自变量相关性的增大而不断增大,从而使偏回归系数的置信区间不断增大,偏回归系数假设检验的结果不显著等。,线性回归分析中的共线性检测,共线性诊断,A,、,自变量的容忍度,(,tolerance),和方差膨胀因子,容忍度,=1,减去,Ri,的平方,Ri,:,自变量,Xi,与其它自变量,X,之间的复相关系数。,容忍度较小(小于,0.1,)时,即可以认为自变量,Xi,与其它自变量之间存在较强的共线性。,线性回归分析中的共线性检测,方差膨胀因子,=,容忍度的倒数,方差膨胀因子越大(如大于,10,),存在共线性的可能性越大。,B,、,用特征根和条件指数刻画自变量的方差(利用主成分分析方法),11.1.6,线性回归分析实例,p329,实例:,Data11-13,建立一个以初始工资,Salbegin,、,工作经验,prevexp,、,工作时间,jobtime,、,工作种类,jobcat,、,受教育年限,edcu,等为,自变量,当前工资,Salary,为因变量的回归模型。,线性回归分析实例,先做数据散点图,观测因变量,Salary,与自变量,Salbegin,之间关系是否有线性特点,Graphs-Scatter-Simple,X Axis,:,Salbegin,Y Axis,:,Salary,线性回归分析实例,若散点图的趋势大概呈线性关系,可以建立线性回归模型,Analyze-Regression-Linear,Dependent:Salary,Independents:,Salbegin,prevexp,jobtime,jobcat,edcu,等变量,Method:Stepwise,线性回归分析实例,比较有用的结果:,拟合程度,Adjusted R2,:,越接近,1,拟合程度越好,回归方程的显著性检验,Sig,回归系数表,Coefficients,的,Model,最后一个中的回归系数,B,和显著性检验,Sig,得模型:,Salary=-15038.6+1.37Salbegin+5859.59jobcat-,11.2,曲线估计,(,Curve Estimation),对于,一元回归,,若散点图的趋势不呈线性分布,可以利用曲线估计方便地进行线性拟合,(,liner),、,二次拟合,(,Quadratic),、,三次拟合,(Cubic),等。,采用哪种拟合方式主要取决于各种拟合模型对数据的充分描述,(,看,修正,Adjusted R,2,-1),不同模型的表示,模型名称,回归方程,相应的线性回归方程,Linear(,线性,),Y=b,0,+b,1,t,Quadratic(,二次,),Y=b,0,+b,1,t+b,2,t,2,Compound(,复合,),Y=b,0,(b,1,t,),Ln,(Y)=,ln,(b,0,)+,ln,(b,1,)t,Growth(,生长,),Y=e,b0+b1t,Ln,(Y)=b,0,+b,1,t,Logarithmic(,对数,),Y=b,0,+b,1,ln(t),Cubic(,三次,),Y=b,0,+b,1,t+b,2,t,2,+b,3,t,3,S,Y=e,b0+b1/t,Ln,(Y)=b,0,+b,1,/,t,Exponential(,指数,),Y=b,0,*,e,b1*t,Ln,(Y)=,ln,(b,0,)+b,1,t,Inverse(,逆,),Y=b,0,+b,1,/t,Power(,幂,),Y=b,0,(t,b1,),Ln,(Y)=,ln,(b,0,)+b,1,ln(t),Logistic(,逻辑,),Y=1/(1/u+b,0,b,1,t,),Ln,(1/Y-1/u)=,ln,(b,0,+,ln,(b,1,)t),曲线估计,数据要求:,自变量和因变量是数值型变量;,模型的残差服从正态分布;,观测量之间相互独立。,曲线估计,曲线估计的思路:,1,、提供多种可选择的函数模型,用户在不能明确究竟那种模型更接近样本数据时,可以同时选择几种模型;,2,、,SPSS,自动完成模型的参数估计,并显示,F,值、对应的伴随概率,R2,等统计量;,3,、用户选择具有最大,R2,的模型作为自己的回归模型,并作预测。也可以比较,F,值或,F,检验的,P,值。,11.2.3,曲线估计,(,Curve Estimation),分析实例,实例,P335 Data11-01,:,有关汽车数据,看,mpg(,每加仑汽油行驶里程,),与,weight(,车重,),的关系,曲线估计,(,Curve Estimation),分析实例,先做散点图,(,Graphs-Scatter-Simple),:,weight(X),、,mpg(Y),,,看每加仑汽油行驶里程数,mpg(Y),随着汽车自重,weight(X),的增加而减少的关系,也发现是曲线关系,曲线估计,(,Curve Estimation),分析实例,建立若干曲线模型(可试着选用所有模型,Models),Analyze-Regression-Curve Estimation,Dependent:mpg,Independent:weight,Models:,全选,(,除了最后一个逻辑回归,),选,Plot models,:,输出模型图形,曲线估计,(,Curve Estimation),分析实例,比较有用的结果:各种模型的,Adjusted R2,,,并比较哪个大,结果是指数模型,Compound,的,Adjusted R2=0.70678,最好(拟合情况可见图形窗口),结果方程为:,mpg=60.15*0.999664weight,说明:,Growth,和,Exponential,的结果也相同,也一样。,11.3,二项逻辑回归,(,Binary Logistic),在现实中,经常需要判断一些事情是否将要发生,候选人是否会当选?为什么一些人易患冠心病?为什么一些人的生意会获得成功?此问题的特点是因变量只有两个值,不发生,(0),和发生,(1),。这就要求建立的模型必须因变量的取值范围在,0,1,之间。,二项逻辑回归,(,Binary Logistic),Logistic,回归模型,Logistic,模型:在逻辑回归中,可以直接预测观测量相对于某一事件的发生概率。包含一个自变量的回归模型和多个自变量的回归模型公式:,二项逻辑回归,(,Binary Logistic),其中:,z=B0+B1X1+,BpXp,(P,为自变量个数)。某一事件不发生的概率为,Prob,(no event),1-,Prob,(event),。,因此最主要的是,求,B0,B1,Bp(,常数和系数,),二项逻辑回归,(,Binary Logistic),数据要求:因变量应具有二分特点。自变量可以是分类变量和定距变量。如果自变量是分类变量应为二分变量或被重新编码为指示变量。,二项逻辑回归,(,Binary Logistic),回归系数:几率和概率的区别。几率,=,发生的概率,/,不发生的概率。如从,52,张桥牌中抽出一张,A,的几率为,(4/52)/(48/52)=1/12,,而其概率值为,4/52=1/13,根据回归系数表,可以写出回归模型公式中的,z,。,然后根据回归模型公式,Prob,(event),进行预测。,11.3.3,二项逻辑回归,(,Binary Logistic),实例,实例,P343,Data11-02,:,乳腺癌患者的数据进行分析,变量为:年龄,age,患病时间,time,肿瘤扩散等级,pathscat,(,3,种),肿瘤大小,pathsize,肿瘤史,histgrad,(,3,种)和癌变部位的淋巴结是否含有癌细胞,ln,_,yesno,,,建立一个模型,对癌变部位的淋巴结是否含有癌细胞,ln,_,yesno,的情况进行预测。,二项逻辑回归,(,Binary Logistic),实例,Analyze-Regression-Binary Logistic,Dependent:,ln,_,yesno,Covariates:age,time,pathscat,pathsize,histgrad,二项逻辑回归,(,Binary Logistic),实例,比较有用的结果:在,Variables in Equation,表中的各变量的系数(,B,),,可以写出,z=-0.88-0.331pathscat+0.415pathsize 0.023age+0.311histgrad,。,根据回归模型公式,Prob,(event)=1/(1+e-z),,,就可以计算一名年龄为,60,岁、,pathsize,为,1,、,histgrad,为,1,、,pathscat,为,1,的患者,其淋巴结中发现癌细胞的概率为,1/(1+,e-(-1.845)=0.136,(,Prob,(event)0.5,预测事件将会发生),11.7,加权回归(,WLS,),概念,WLS,指在回归计算过程中给予不同的观测量不同的权值,变异性小的观测量赋予的权值大于变异性大的观测量。,加权回归(,WLS,),数据要求:,自变量和因变量是数值型变量;,模型的残差服从正态分布;,观测量之间相互独立;,自变量取不同值时,因变量的方差不同,且不同的方差可以根据加权变量预测出来。,加权回归(,WLS,),菜单,Analyze-Regression-Weight Estimation,实例分析,P371,Data11-06,11.8,二段最小二乘法(,2,SLS,),概念,2,SLS,指在回归计算过程中,寻找适当的工具变量构造新的变量替代模型中与误差项相关的内生解释变量。,二段最小二乘法(,2,SLS,),替代变量(工具变量)应满足:,1,、对因变量的预测具有与内生变量近似的效果;,2,、在预测因变量的过程中与误差项不相关。,二段最小二乘法(,2,SLS,),注:,1,、变量可以同时被定义为解释变量和工具变量;,2,、工具变量的个数大于等于解释变量的个数;,3,、如引入的所有的工具变量与所有的解释变量相同,则等价于一般的线性回归。,二段最小二乘法(,2,SLS,),菜单,Analyze-Regression-2 Stage Least Squares,实例分析,P358,Data09-07,补充:回归分析,以下的讲义是吴喜之教授有关回归分析的讲义,很简单,但很实用,定量变量的线性回归分析,对例,1(,highschoo,.,sav,),的,两个变量的数据进行线性回归,就是要找到一条直线来最好地代表散点图中的那些点。,检验问题等,对于系数,b,1,=0,的检验,对于拟合的,F,检验,R,2,(,决定系数,),及修正的,R,2,.,多个自变量的回归,如何解释拟合直线,?,什么是逐步回归方法,?,自变量中有定性变量的回归,例,1,(,highschoo,.,sav,),的数据中,还有一个自变量是定性变量,“收入”,以虚拟变量或哑元,(,dummy variable),的方式出现,;,这里收入的“低”,“,中”,“,高”,用,1,2,3,来代表,.,所以,如果要用这种哑元进行前面回归就没有道理了,.,以例,1,数据为例,可以用下面的模型来描述,:,自变量中有定性变量的回归,现在只要估计,b,0,b,1,和,a,1,a,2,a,3,即可。,哑元的各个参数,a,1,a,2,a,3,本身只有相对意义,,无法三个都估计,只能够在有约束条件下才能够得到估计。,约束条件可以有很多选择,,一种默认的条件是把一个参数设为,0,,比如,a,3,=0,,,这样和它有相对意义的,a,1,和,a,2,就可以估计出来了。,对于例,1,,对,b,0,b,1,a,1,a,2,a,3,的估计分别为,28.708,0.688,-11.066,-4.679,0,。这时的拟合直线有三条,对三种家庭收入各有一条,:,SPSS,实现,(,hischool,.,sav,),Analize,General linear model,Univariate,,,在,Options,中选择,Parameter Estimates,,,再在主对话框中把因变量(,s1,),选入,Dependent Variable,,,把定量自变量,(,j3),选入,Covariate,,,把定量因变量(,income,),选入,Factor,中。,然后再点击,Model,,在,Specify Model,中选,Custom,,,再把两个有关的自变量选入右边,再在下面,Building Term,中选,Main effect,。,Continue-OK,,,就得到结果了。输出的结果有回归系数和一些检验结果。,注意,这里进行的线性回归,仅仅是回归的一种,也是历史最悠久的一种。,但是,任何模型都是某种近似;,线性回归当然也不另外。,它被长期广泛深入地研究主要是因为数学上相对简单。,它已经成为其他回归的一个基础。,总应该用批判的眼光看这些模型。,SPSS,的,回归分析,自变量和因变量都是定量变量时的线性回归分析:,菜单:,Analize,Regression,Linear,把有关的自变量选入,Independent,,,把因变量选入,Dependent,,,然后,OK,即可。如果自变量有多个(多元回归模型,选,Method:,Stepwise,),,只要都选入就行。,SPSS,的,回归分析,自变量中有定性变量(哑元)和定量变量而因变量为定量变量时的线性回归分析,(,hischool,.,sav,),菜单:,Analize,General linear model,Univariate,,,在,Options,中选择,Parameter Estimates,,,再在主对话框中把,因变量,(,s1,),选入,Dependent Variable,,,把,定量自变量,(,j3),选入,Covariate,,,把,定性因变量,(,income,),选入,Factor,中。,点击,Model,,在,Specify Model,中选,Custom,,,再把两个有关的自变量选入右边,再在下面,Building Term,中选,Main effect,。,然后就,Continue-OK,。,展开阅读全文
咨信网温馨提示:1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。




CHAP11 回归分析.ppt



实名认证













自信AI助手
















微信客服
客服QQ
发送邮件
意见反馈



链接地址:https://www.zixin.com.cn/doc/13063641.html