一种有效且稳健的变量选择方法.pdf
《一种有效且稳健的变量选择方法.pdf》由会员分享,可在线阅读,更多相关《一种有效且稳健的变量选择方法.pdf(9页珍藏版)》请在咨信网上搜索。
1、文章编号:1007 6735(2023)03 0244 09DOI:10.13255/ki.jusst.20211124002一种有效且稳健的变量选择方法胡毓榆,郭子君,陈梦醒,樊亚莉(上海理工大学理学院,上海200093)摘要:当数据中存在异常值时,一些基于最小二乘估计的统计模型会产生较大的偏差,最小一乘估计对异常值具有比较强的抵抗能力。考虑到数据中可能存在异常值的情况,用绝对值损失代替平方损失,针对同时具有变量稀疏性和相邻系数差分稀疏性这种结构的线性模型,提出了最小一乘融合熔断自适应岭估计模型(LAD-Fused-BAR)。该模型将上一步估计的回归系数倒数的平方作为下一步惩罚权重,自适应地
2、给予不同变量不同的惩罚,通过不断迭代得到最终解。运用交替方向乘子法(ADMM)求解 LAD-Fused-BAR 模型,并证明了 ADMM 算法的收敛性。数值模拟和实证分析也验证了该模型的有效性和稳健性。关键词:LAD-Fused-BAR模型;稳健回归;交替方向乘子法中图分类号:O212.1文献标志码:AAn effective and robust variable selection methodHU Yuyu,GUO Zijun,CHEN Mengxing,FAN Yali(College of Science,University of Shanghai for Science and
3、Technology,Shanghai 200093,China)Abstract:Somestatisticalmodelsbasedonleastsquaresestimationwillproducelargebiaswhenthereareoutliersinthedata.Theleastabsolutedeviationhasstrongresistancetooutliers.Consideringtheinfluenceoftheoutliersinthedata,thesquarelosswasreplacedwiththeabsoluteloss.Aimingattheli
4、nearmodelofastructurethathasbothvariablesparsityandsparsityofadjacentcoefficientdifferences,the least absolute deviation fused broken adaptive ridge estimation model(LAD-Fused-BAR)wasproposed.Thesquareofthereciprocaloftheregressioncoefficientestimatedinthepreviousstepwastakenasthepenaltyweightforthe
5、nextstep,differentpenaltieswereadaptivelygiventodifferentvariables,andthefinalsolutionwasobtainedthroughcontinuousiteration.Thealternatingdirectionmultiplier method(ADMM)was adopted to solve the LAD-Fused-BAR model and prove theconvergence of the ADMM algorithm.Additionally,numerical simulation and
6、empirical analysisconfirmtheefficacyandrobustnessoftheproposedmethodology.Keywords:LAD-Fused-BAR;robust regression;ADMM上 海 理 工 大 学 学 报第45卷第3期J.UniversityofShanghaiforScienceandTechnologyVol.45No.32023收稿日期:20211124基金项目:国家自然科学青年基金资助项目(11401383)第一作者:胡毓榆(1998),男,硕士研究生研究方向:概率论与数理统计E-mail:通信作者:樊亚莉(1978),女
7、,副教授研究方向:概率论与数理统计E-mail:大数据时代的生活中到处充满着海量的数据1,通过分析这些数据,研究者可以探究出潜在的商业信息及其应用价值。然而,随着科技的发展,数据中变量的维度呈指数级增长,并且数据中经常夹杂着噪声和冗余信息。另外,这些变量中往往存在一些不相关变量和冗余变量,给数据分析带来了困难,影响估计的效率以及精度。为了解决这个问题,通常利用变量选择将重要的变量筛选出来,从而达到降维的目的。1 文献综述l0l0l0l1l1l0l1关于变量选择问题,很多研究者从统计学角度作了大量研究。1973 年,Akaike 等2提出了 AIC准则。1978 年,Schwarz3在贝叶斯的框
8、架下提出了 BIC 准则。然而,当变量的维度增加时,这种基于 AIC 和 BIC 准则选取最优变量子集的传统方法计算效率较低。近十几年来,通过在损失函数后面加入一个惩罚函数的方法使得变量选择有了较大的发展,并且这种加入惩罚函数的方法可以 同 时 实 现 参 数 估 计 以 及 变 量 选 择 的 目 的。1995 年,Natarajan4提出了在损失函数后面加入范数,通过惩罚非零元素个数从而达到变量选择的目的。这个惩罚函数是一种很直观的形式,但是 范数是非凸且不连续的函数,这就导致了最小化 问题是一个NP-Hard问题。1996 年,Tibshirani5提出了 LASSO(leastabso
9、luteshrinkageandselectionoperator)惩罚,通过加入 范数从而得到一个稀疏解。范数是 范数的一个凸松弛。尽管 范数是一个凸函数且易于求解,但是 LASSO 估计的参数是有偏的6。为了解决这个问题,近些年有许多学者提出了非凸的惩罚函数来解决估计的有偏问题。2001 年,Fan 等6提出了 SCAD(smoothlyclippedabsolutedeviation)惩罚。2006 年,Zou7在 LASSO的基础上提出了 AdaptiveLASSO 惩罚,该方法是对 LASSO 的一种改进。SCAD 和 AdaptiveLASSO在一定条件下都满足 Oracle 性质
10、。2008 年,Cands等8提出了对数惩罚。2010 年,Zhang9提出了MCP(minimaxconcavepenalty)惩罚。很多研究结果表明非凸惩罚函数在理论分析以及实际应用中具有更优秀的表现10。然而,对于一些具有一定结构的复杂数据,例如信号处理、基因表达等分段常数函数类型的数据,上述方法并不适用。2005 年,Tibshirani 等11在 LASSO 方法的基础上提出了 Fused-LASSO 方法,在考虑变量稀疏性的同时还考虑了变量差分的稀疏性。这种方法能够同时解决变量稀疏性和获取噪声信号或者基因序列中非零片段的情况。2011 年,Tibshirani 等12提出了(2D)
11、Fused-LASSO方法,该方法能够处理图像去噪的问题。l22017 年,Dai 等13提出了一种熔断自适应岭估计(BAR)方法,该方法本质上是一种迭代重加权岭估计方法,它能够很有效地同时进行变量选择和参数估计。相比于之前文献提到的方法,BAR方法的优点是参数估计通过迭代的方式进行,在每一步迭代过程中上一步参数的估计值将作为下一步估计的权重。因此,BAR 方法中的权重是自适应更新的,并且加入的惩罚是 惩罚,目标函数是严格凸以及可微的。因此,每一步迭代过程都可以求得显式解,最后通过不断迭代得到最终的估计。Dai 等13证明了他们提出的估计具有 Oracle性质和 GroupEffect,并且
12、Dai 在最后数值实验中表明了 BAR 方法比上文所述几种方法更有效。2020 年,Dai 等14将 BAR 推广为广义的形式,这种广义的形式能够估计出回归系数的任意结构,例如稀疏结构、分段常数结构以及线性趋势结构。融合熔断自适应岭估计(Fused-BAR)是广义 BAR 方法的一种特殊形式,它能够很有效地进行变量选择以及识别出噪声信号或者基因序列中非零片段的情况。文献 14 证明了在一定条件下,在 BAR 方法迭代过程中,估计值会收敛到一个不动点。如果事先给出一个正确的初始值,那么最终 BAR 方法估计的效果就很好。文献 14 在数值实验中证实了 Fused-BAR 方法比 Fused-LA
13、SSO方法更有效。然而 BAR 方法采用的损失是平方损失,平方损失对于异常值和重尾数据比较敏感。当数据中存在异常值时,估计的参数会产生较大的偏差和方差,通常采用稳健的损失函数作为代替。例如Huber 损失、t 型损失15、稳健的估计方程16、绝对值损失17。这些损失函数对异常值和重尾数据具有一定的抵抗能力。2007 年,Wang 等17在LASSO 方法的基础上,将平方损失替换为绝对值损失,提出了 LAD-LASSO 方法,与 LASSO 方法相比,LAD-LASSO 方法也可以同时进行变量选择和参数估计,并且对于重尾分布的数据和带有异第3期胡毓榆,等:一种有效且稳健的变量选择方法245常值的
14、数据有抵抗力。2016 年,张环18在 Fused-LASSO 方法的基础上用绝对值损失代替平方损失,提出了 LAD-Fused-LASSO 方法,既能有效地将相邻特征选出来,又能抵抗异常值。l1基于以上文献的启发,本文在 Fused-BAR 方法的基础上提出了一种稳健且有效的变量选择模型,称为最小一乘融合熔断自适应岭估计(LAD-Fused-BAR)。它是将 Fused-BAR 估计方法中的平方损失替换成绝对值损失,从而实现稳健且有效的变量选择。Fused-BAR 在迭代过程中每一步可以求出显式解,然而把平方损失替换成绝对值损失之后,由于多了一项非光滑项,要优化的目标函数无法求显示解,并且基
15、于梯度的一些方法也失效了,这给计算带来了很大的挑战。在处理非光滑函数 上,文献 19 中提出了最小角回归,文献 20 提出了内点法。然而,这些算法的计算复杂度较大,在大规模数据上表现不佳。2010 年,Boyd 等21首次提出了交替方向乘子法(ADMM)。Glowinski 等22受到启发,将 ADMM 方法应用到LASSO 以及 Group-LASSO 上。因此,本文采取交替方向乘子法(ADMM)进行求解,并证明了ADMM算法的收敛性。2 最小一乘融合熔断自适应岭估计(LAD-Fused-BAR)考虑一般的线性回归模型Y=XT+(1)Y=(y1yn)RpX=(x1xn)T=(1n)i2式中:
16、,是响应变量;,是回归系 数;,是 协 变 量;,的均值为 0,方差为,的各分量相互独立。Dai 在文献 14 中提出的 Fused-BAR 估计方法如下所示:g()argminYX22+1ni=12i2i+2ni=2(ii1)2(ii1)2(2)g()12式中:表示估计的参数;和是调节参数。1g()若在式(2)中只考虑对应的惩罚项,这就是文献 13 提出的 BAR 方法。式(2)所定义的是在上一步的估计 基础上的更新公式。可以看到在更新公式中,不仅对变量施加惩罚,也对相邻变量的差分进行惩罚。BAR 估计和文献 7 中提出gk()2l2的 AdaptiveLASSO 方法在思想上类似,对于估计
17、值比较大的变量给它较小的惩罚,而对于估计值比较小的变量给它较大的惩罚。但是 AdaptiveLASSO 的权重并不是根据上次估计自适应的,而是事先估计的一个常数。文献 14 认为,在每次迭代过程中,将上一次估计的作为权重比用常数作为权重更好。随着迭代的不断进行,对于真实 中为零的变量的权重会趋于无穷,而对于真实 中非零变量的权重会趋于一个常数。由于BAR 方法使用的惩罚是 惩罚,因此,每一步迭代都能产生显式解。文献 14 中将岭估计bR=(XX+I)1XTY 0bj=gbj1作为初始值,式中,是一个正数,I 是单位矩阵。因此,上述提出的估计即为融合熔断自适应岭估计(Fused-BAR),最终估
18、计可以通过迭代算法的极限求出来,即bFused-BAR=limjbj(3)定义M=110001100010.0001(p1)p是一个的矩阵,则式(2)可以写成g()argminYX2+1TH1()+2TMTH2()M(4)其中H1()=diag(2i),H2()=diag(M)2i)(5)X=I如果要解决的是信号处理、基因检测以及图像去噪等问题,只要令即可。式(4)中目标函数用的是平方损失,当响应变量中存在异常值时,该损失函数会放大异常值的影响。受到文献 17-18 的启发,本文用绝对值损失代替平方损失,得到最小一乘融合熔断自适应岭估计模型(LAD-Fused-BAR)为g()argminYX
19、1+1TH1()+2TMTH2()M(6)3 算法求解由于本文的方法是将文献 14 中的平方损失246上海理工大学学报2023年第45卷替换成了绝对值损失,在目标函数中多了一项非光滑项,使得在每一次迭代过程中无法求出显式解。当数据规模很大时,最小角回归以及内点法计算复杂度高。Boyd 等21在 2010 年提出了 ADMM算法,通过选取一个光滑函数来逼近模型的非光滑项,并且 ADMM 方法在大规模数据上计算效率高。除此之外,ADMM 算法在处理该问题时,使得每一步迭代都有显式解,这充分地保障了 ADMM求解 LAD-Fused-BAR 问题的有效性。为了应用交替方向乘子方法,引入辅助变量,则式
20、(6)等价于min,1+1TH1()+2TMTH2()Ms.t.YX=(7)式(7)的增广拉格朗日形式为Lu(,)=1+1TH1()+2TMTH2()M+u2?YXu?212u22(8)的更新为k+1=argmin1TH1()+2TMTH2()M+u2?YXkku?2(9)令式(9)右端微分为 0 得到k+1=(21H1()+22MTH2()M+uXTX)1XT(uYukk)(10)的更新为k+1=argminu2?YXk+1ku?2+1(11)该优化问题可以用软阈值算法进行求解得到,即k+1=sign(YXk+1ku)max0,?YXk+1ku?1u(12)的更新为k+1=ku(YXk+1k
21、+1)(13)运 用 算 法 ADMM 求 解 本 文 LAD-Fused-BAR 模型的具体流程如下:xi,yini=1,1,2,b0,(0,0)=(0,0)输入k=0=b0,?ck?while=bkH1()=diag(2i)H2()=diag(M)2i)?j+1j?whilej+1=argmin1TH1()+2TMTH2()M+u2?YXjju?2j+1=sign(YXj+1ju)max0,?YXj+1ju?1uj+1=ju(YXj+1j+1)endwhileendwhileck输出 4 收敛性证明文献 23 已经给出了关于 ADMM 收敛性的一个框架。为了建立 ADMM 算法的收敛性,以
22、算法的第 k+1 次迭代值作为一个变分 VI 问题23,可以得到下面引理。其中,k 表示迭代次数。下面 4个引理在文献 23 中已经得到证明,本文不再赘述。wk=k,k,kk=k,k引理 1令表示由算法产生的序列,有wk=k,k,k(k+1)TH(kk+1)(wk+1w)T(k,k+1)(14)其中H=Im001Im,(k,k+1)=XTITm0(kk+1)wk=k,k,kk=k,k引理 2令,表示由算法产生的序列,以及,有(wk+1w)T(k,k+1)=(kk+1)T(kk+1)(15)以及(kk+1)T(kk+1)0(16)wk=k,k,kk=k,k引理 3令,表示由算法产生的序列,以及,
23、有(k+1)TH(kk+1)0,V(17)第3期胡毓榆,等:一种有效且稳健的变量选择方法247wk=k,k,kk=k,k引理 4令,表示由算法产生的序列,以及,有?k+1?2H?k?2H?kk+1?2H,V(18)?k+1?2H=(k+1)TH(k+1)其中,。(0,0,0)Tuwk=k,k,k定理 1给定任意起始点,对任意的,由 ADMM 算法产生的序列w=(,)收 敛 于 稳 健 LAD-fused-BAR 模 型 的 解。证明由引理 4 中的不等式?k+1?2H?k?2H?kk+1?2H,VkHkH 0kHkk+12Hk2Hkk+12Hkk+1HkHk+1Hk kk+1H 0limkkk
24、+1H=0可以得到是一个单调递减的序列,又因为,所以是一个有界序列,从而得到也是有界的。再由不等式可以得到,。不 等 式 两 边 同 时且,得到,那么就有limk?kk+1?=0limk?kk+1?=0k=(,)0由 单 调 有 界 定 理 得 到,收 敛 至,根据式(10)得到收敛至,证毕。5 数值模拟真实的如下所示生成:=(0.6,0.6|z 50,0|z 450.7,0.7|z 50,0|z 45)n=200,p=100,xij N(0,1),1 i n1 j pi其中,非零系数的个数为 10,。服从均值为 0,yc%c%i标准差为 0.01 的正态分布,由式(1)生成。为了研究稳健性,
25、选取的数据进行污染,通过将的 换成服从均值为 30、标准差为 0.1 的正态分布的噪声值,下文分别以 c=0,5,10 进行模拟。,1,21,212,1,2uRu1212u在 Fused-BAR 程序中,对这 3 个参数进行调节。参数选择和文献 14 一样,的选择用 5 折交叉验证的方法。对于的选择,用网格搜索的方法进行筛选,将和取0.0001,0.001,0.01,0.1,1,10,然后通过 5 折交叉验证来选取最优参数。LAD-Fused-BAR 方法里面有4 个超参数:,初始值的选取和 Fused-BAR 采取相同的方式。若同时遍历余下的 3 个超参数,计算时间较慢。因此,采取先固定 然
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 有效 稳健 变量 选择 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。