《数据挖掘》课件 第4章 回归.pdf
《《数据挖掘》课件 第4章 回归.pdf》由会员分享,可在线阅读,更多相关《《数据挖掘》课件 第4章 回归.pdf(52页珍藏版)》请在咨信网上搜索。
1、数据挖掘高级大数据人才培养丛书之一,大数据挖掘技术与应用第四章回归回归是一种基于统计原理,对大量统计数据进行数学处理,并确定变量(或属性)之间的相关关系,建立一个相关性的回归方程(函数表达式),并加以外推,用于预测今后的因变量的变化的方法。根据因变量和自变量的函数表达式分为:线性回归分析、非线性回归分析。根据因变量和自变量的个数可分为:一元回归分析、多元回归分析、逻辑回归分析和其它回归分析等。高级大数据人才培养丛书之一,大数据挖掘技术与应用第四章回归4.1回归基本概念4?一元回归分析4.3 多元线性回归分析_4.4 逻辑回归分析,4.5 其他回酸析4.6 实战二用回旦分析方法给自旦的房主定价
2、习题 I4.1回归基本概念第四章回归4.1.1回归分析的定义对于社会经济现象,很难确定因变量和自变量之间的关系,因为它们大多是随机 的,只有通过大量的观察统计,才能找出其中的规律,随机分析是利用统计学原理描述 随机变量关系的一种方法。回归分析可简单理解为信息分析与预测,信息即统计数据,分析即对信息进行数 据处理,预测就是加以外推,也就是适当扩大已有自变量取值范围,并承认该回归方程 在该扩大的定义域内成立,然后就可以在该定义域上取值进行未来预测。当然,对 回归方程可以进行有效的控制。因此,回归分析主要解决下面两方面的问题:1)确定变量之间是否存在相关关系,若存在,则找出数学表达式。2)根据一个或
3、几个变量的值,预测或控制另一个或几个变量的值,且要估计这种 控制或预测或以达到何种精确度。4.1回归基本概念第四章回归4.1.2回归分析步骤1)根据自变量与因变量的现有数据以及关系,初步设定回归方程。2)求出合理的回归系数。3)进行相关性检验,确定相关系数。4)在符合相关性要求后,即可根据已经得到的回归方程与具体条件相结合,来确 定事物的未来状况,并计算预测值的置信区间。回归分析中常用到的几个概念:实际值:实际观测到的研究对象特征数据值;理论值:根据实际值我们可以得到一条倾向线,用数学方法拟合这条曲线,可以 得到数学模型,根据这个数学模型计算出来的、与实际值相对应的值,称为理论值;预测值:实际
4、上也是根据数学模型计算出来的理论值,但它是与未来对应的理论 值。表示符号:实际值,用表示;理论值,用只表示;预测值,用yo表示。4.1回归基本概念第四章回归4.1.2回归分析要注意的问题为使回归分析方程较能符合实际,首先应尽可能判断自变量的可能种类和个数,并在观察事物发展规律的基础上定性回归方程的可能类型;其次,力求掌握较充分的高 质量统计数据,再运用统计方法,利用数学工具和相关软件,从定量方面计算或改进定 性判断。高级大数据人才培养丛书之一,大数据挖掘技术与应用第四章回归4.1 回归基本概念4.2 一元回归分析4.3 多元线性回归分析_4.4 逻辑回归分析,4.5 其他回酸析4.6 实战二用
5、回旦分析方法给自旦的房主定价 习题 I4.2 一元回归分析第四章回归4.2.1 元回归分析的模型设定设x,y为两个经济变量,变量y受到变量x的影响。将y和x之间的关系表示为:y=/(与。)+(4.1)(4.1)称为 一元回归模型,其中/为满足一定条件的函数,称为回归函数;8为 参数,称为回归模型参数;为随机变量,称为误差项或扰动项;y称为因变量,%称 为自变量。当研究一个经济变量对另一个经济变量的影响时,一元回归分析是最为常用的方 法。在简单的回归模型中,回归函数为解释变量的线性函数,回归模型称为一元线性 回归模型,表达式为:y=Bo+S1X+(4.2)其中的回归模型参数&)、用称为回归系数。
6、仇称为常数项,也称截距项,用称为 斜率。4.2 一元回归分析第四章回归4.2.1 元回归分析的模型设定回归模型的设定给出了回归函数的形式,但模型中的回归参数是未知的。要对模 型参数进行估计和统计推断,需要从总体中抽取样本以获得数据。设从总体中抽取n个 样本,样本编号为i,i=1,2,,no第i个样本为xi和yi。将回归模型(4.2)应用于每 个样本得出:%=仇+与,i=1,2,n(4.3)(4.3)称为样本回归模型。注意,来自同一个总体的不同样本,其回归模型具有不同的误差项4.2 一元回归分析第四章回归例4.1在进行消费行为研究中,从一个地区抽取20个不同家庭的月可支配收入和消费数 据,如下表
7、所示:序号消费(百元)可支配收入(百元)序号消费(百元)可支配收入(百元)172.310011132.3189292.5112012149.82143135.220013115.318849413014132.21975163.524015149.5206610011416100.25142786.51261779.61128142.362131890.2134912015619116.516910112.56167201261704.2 一元回归分析第四章回归例4.1以可支配收入为横轴、消费为纵轴画出样本数据的散点图消费从图中可以看出,可支配收入和消费之间存在明显的线性关系。但所有点并不在
8、一条直线上,表明二者之间的关系是一种随机关系。4.2 一元回归分析第四章回归4.2.1 元回归分析的模型设定在获得样本之后,要对模型(4.2)进行参数估计和统计推断,需要对样本回归模 型的误差项进行一些假设。一元线性回归模型误差项的基本假设有四个,这些假设也是 模型设定的一部分。(1)零均值,误差项的数学期望等于0,是x的线性函数=阮+用羽(2)同方差,即方差齐次性:对于任意的X,有寸氏=。2。(3)独立性:y之间相互独立。(4)正态分布:对于任一固定M直,得一个随机变量,有确定的概率分布 YXN(Uyx,y|x)o满足四个基本假设的线性回归模型(4.2)称为古典线性回归模型。古典线性回归模型
9、是一种理想模型,实际情况很难满足其苛刻的条件,但它提供 了一种研究变量之间关系的基本方法,即普通最小二乘法。当有关的条件不满足时,我 们可以对模型及其估计方法进行改进,得出更加合理的模型和方法。4.2 一元回归分析第四章回归4.2.2 一元线性回归模型的参数估计模型(4.2)中有三个待估计参数:回归系治、侪和误差方差。2。估计模型参数的方法有三种:普通最小二乘法、矩方法和极大似然方法。普通最小二乘法(OLS:Or dinar y Least Squar e)是最为直观的估计方法,对模 型条件要求最少,也就是使散点图上的所有观测值到回归直线距离平方和最小。4.2 一元回归分析第四章回归4.2.3
10、 基本假设下OLS估计的统计性质数理统计中给出的估计量基本评价标准有三个:无偏性在假设1满足时,ols估计是无偏估计,无偏性是跖,61的抽样分布性质,并不能说明从具体的样本计算出的一个估计量与参数的真实值00,01有多大的偏差。因此,除了无偏性之外,还需要其它性质来进一步样本量足够大时,参数估计值逐渐接 近真实值。一向古计在假设1和假设3成立时,OLS估计是一致估计。一致性告诉我们,当 样本量增大时,参数估计跖以概率趋近于参数真值伉。我们不能像理解微积分中的收敛 概念一样理解6。对阮的趋近,以概率收敛只能保证当样本量足够大时,随机变量6。与常 数丘的距离可以任意接近的概率趋近1,因此,不管样本
11、容量多么大,仍然存在6。与常 数幻相去甚远的情况发生的可能性,只是这种可能性随着样本增加越来越接近0。有效性(马尔可夫性)如果线性回归模型(4.2)满足假设13,则在仇,仇的 所有线性无偏估计中,OLS估计量B 0,p 1的方差最小。马尔可夫性从理论上保证,如果模型满足假设1-3,则在所有线性无偏估计中,由最小二乘得出的估计量是最优 的,这就保证了采用OLS估计的合理性。但OLS估计量的有效性是需要条件的,如果 假设1-3中的条件不成立,则不能保证OLS的最小方差性。实际上,当假设2和(或)假设3不成立时,OLS确实不再是最小方差线性无偏估计,而采用广义最小二乘得出 的估计量才具有最优性。4.
12、2.3基本假设下OLS估计的统计性质如果假设1假设4成立,则OLS估计量0-0,B八 别为:一.一梁18-为2 0 叱闻一冷(阳-无产/服从正态分布,具方差分?(4.4)4.2 一元回归分析第四章回归4.2.4误差方差估计4.2 一元回归分析第四章回归4.2.6拟合优度和模型检验(F检验)对因变量y的样本离差平方和进行分解:讯(%一 9)2=5X1(%+负一y)2=%1(%-负)2+%1 侯一歹)2(4.9)式中最左边是因变量y的样本离差平方和,也称为总平方和,记为TSS(To tal sum o f squar es),最右边表达式中第一项为残差平方和RSS,第二项称为解释平方和(也称回归平
13、 方和),记为ESS(expl ained sum o f squar es)。TSS=RSS+ESS(4.10)回归平方和占总平方和的比例称为模型的拟合优度,记为R八2(R-squar ed),即2 ESS RSS R-TSS-1 一 TSS显然0WR2W1,r2越接近1,残差平方和越接近0,y和x的线性关系越明显,模型拟 合数据的效果越好;R2越接近0,回归平方和越接近0,y和x的线性关系越不明显,模型拟 合数据的效果越差。用回归平方和ESS与残差平方和RSS的比作为模型整体效果的度量。ESS/1RSS/O-2)ESS-x RSS(n-2)设检验假设为Ho:/?i=0,Bp/?!H 0e可
14、以证明,如果模型假设1-4成立,在原假 设下F服从第一自由度为1、第二自由度为n-2的F分布。F值越大,越能拒绝原假设。高级大数据人才培养丛书之一,大数据挖掘技术与应用第四章回归4.1 回归基本概念4.2 一元回归分析4.3 多元线性回归分析4.4 逻辑回归分析,4.5 其他回酸析4.6 实战二用回旦分析方法给自旦的房主定价习题 I4.3多元线性回归分析第四章回归431多元线性回归模型多元回归分析预测法,是指通过对两上或两个以上的自变量与一个因变量的相关分析,建 立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。多元回归分析可以达到以下目的:1.了解因变量和自
15、变量之间的关系是否存在,以及这种关系的强度。也就是以自变量所解 释的因变量的变异部分是否显著,且因变量变异中有多大部分可以由自变量来解释。2.估计回归方程,求在自变量已知的情况下因变量的理论值或预测值,达到预测目的。3.评价特定自变量对因变量的贡献,也就是在控制其他自变量不变的情况下,该处变量的 变化所导致的因变量变化情况。4.比较各处变量在拟合的回归方程中相对作用大小,寻找最重要的和比较重要的自变量。4.3多元线性回归分析第四章回归431多元线性回归模型假定被解释变量y与多个解释变量与/2,,加之间具有线性关系,是解释变量的多元线性 函数,称为多元线性回归模型。即Y=&)+夕2%2+(4.1
16、1)其中y为被解释变量,勺0=12,忆)为k个解释变量,以0=1,2,,k)为k+1 个未 知参数,&)是常数项,为伤诙是回归系数,为是2/3,加固定时,/每增加一个单 位对y的效应,即勺对y的偏回归系数,同理,伤是次对y的偏回归系数,为随机误差项。被解释变量y的期望值与解释变量冷,打的线性方程为:E(Y)=So+/?i%i+另乃+,+SkXk(4.12)称为多元总体线性回归方程,简称总体回归方程。对于n组观测值,其方程组形式为:Y-=Be+BnXo.+Y/+/(413)当元线性回归模如包含多个解释变量,、个血释变量同时对被解释变量Y发生作用,若要 考察其中一个解释变量对Y的影响就必须假设其它
17、解释变量保持不变来进行分析。因此多元线性 回归模型中的回归系数为偏回归系数,即反映了当模型中的其它变量不变时,其中一个解释变 量对因变量Y的均值的影响。4.3多元线性回归分析第四章回归431多元线性回归模型建立多元性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意 自变量的选择,其准则是:1.自变量对因变量必须有显著的影响,并呈密切的线性相关;2.自变量与因变量之间的线性相关必须是真实的,而不是形式上的;3.自变量之间应具有一定的互斥性,即自变量之间的相关程度不应高于自变量与因变量之 因的相关程度;4.自变量应具有完整的统计数据,其预测值容易确定。4.3多元线性回归分析第四
18、章回归4.3.2 多元线性回归模型的假定与一元线性回归模型相同,多元线性回归模型利用普通最小二乘法(OLS)对参数进行估计 时,有如下假定:假定1零均值假定假定2同方差假定假定3无自相关性假定4随机误差项/与解释变量杯相关假定5随机误差项/服从均值为零,方差为。2的正态分布假定6解释变量之间不存在多重共线性4.3多元线性回归分析第四章回归4.3.3 多元线性回归模型的参数估计1.回归参数的最小二乘估计对于含有k个解释变量的多元线性回归模型X=价+p2x2i+Pkxki+Mi G=12,九)设乐底底,,凡分别作为攀期夕iM,二,肉的估计邕 得样本回归方程为:K=再+P1XU+p2x2i+Pkxk
19、i观测值K与回归值的楚差,为:八ei=X-71=Yf-(Bo+瓦孙+p2x2i T-卜 BkXk)7V Bl设6=的为估计值向量,样本回归模型y=xB+e两边同乘样本观测值矩阵拗转置片矩匹阵,由统计学原理可得r=(xx)-Vy 则为向量B的OLS估计量。(4.20)4.3多元线性回归分析第四章回归4.3.3多元线性回归模型的参数估计1.回归参数的最小二乘估计对于含有k个解释变量的多元线性回归模型X=价+p2x2i+Pkxki+Mi G=12,九)设乐底底,,凡分别作为攀期夕iM,二,肉的估计邕 得样本回归方程为:K=再+P1XU+p2x2i+Pkxki观测值K与回归值的楚差,为:八ei=X-7
20、1=Yf-(Bo+瓦孙+p2x2i T-卜 BkXk)7V Bl设6=的为估计值向量,样本回归模型y=xB+e两边同乘样本观测值矩阵拗转置片矩匹阵,由统计学原理可得r=(xx)-Vy 则为向量B的OLS估计量。(4.20)4.3多元线性回归分析第四章回归4.3.3多元线性回归模型的参数估计2.随机误差项以的方差。左的估计量样本回归方程得到的被解释变量估计值%与实际啰测值匕之I可的偏差称为残差,=匕一匕=匕 一(A)+瓦元li+2%2i+BkXki)残差的平方和为2靖=响九-+1)随机误差项的方差寸为:2 E(ee)e%=n-(fc+l)=F(n-(fc+l)随机误差项的方差年的无偏估计量,记作
21、晓,即E(S)=凉,S”说,Se为残差的标准 差(或回归标准差)。因此52=蛾=-e n-k 1 n k 1其中E e:=efe=Y W(4.21)4.3多元线性回归分析第四章回归4.3.3多元线性回归模型的参数估计3.估计参数的统计性质(1)线性性(2)无偏性(3)最小方差性4.3多元线性回归分析第四章回归4.3.4显著性检验对所有自变量与因变量之间的直线回归关系的拟合程度,可以用统计量R2来度量,其公式如下:R2=其中:ESSTSSRSSTSSTSS称为总偏差平方和,其值为2(匕-P)2,体现了观测值y1,y2,,外总波动大小。ESS(Expl ained Sum o f Squar es
22、或U)它是由于与自变量/,刈,/i的变化而引起,被称作为回归平方和,其值为E(匕-匕体现了古计值上,/,,工的波动大小。RSS(Residual Sum o f Squar es,或Q)称为残差平为和,其盾为刀匕-9尸。R2称为样本决定系数,对于多元回归方程,其样本决定系数为复决定系数或多重决定系数。回归模型的显著性检验包括:对整个回归方程的显著性检验;对回归系数的显著性检 验。4.3多元线性回归分析第四章回归4.3.4回归变量的选择与逐步回归1.变量选择问题选择合适的变量用于建立一个最优的回归方程(1)逐步回归法(Stepwise)(2)向前引入法(Fo r war d)(3)向后剔除法(B
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘 数据挖掘课件 第4章 回归 数据 挖掘 课件
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【曲****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【曲****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。