分销赏收藏举报申诉 / 9

立即下载 VIP下载

当前位置：首页 > 学术论文 > 论文指导/设计 > 一种有效且稳健的变量选择方法.pdf

一种有效且稳健的变量选择方法.pdf

上传人：自信****多点

文档编号：751322

上传时间：2024-03-04

格式：PDF

页数：9

大小：1.99MB

《一种有效且稳健的变量选择方法.pdf》由会员分享，可在线阅读，更多相关《一种有效且稳健的变量选择方法.pdf（9页珍藏版）》请在咨信网上搜索。

1、文章编号：1007 6735(2023)03 0244 09DOI:10.13255/ki.jusst.20211124002一种有效且稳健的变量选择方法胡毓榆，郭子君，陈梦醒，樊亚莉（上海理工大学理学院，上海200093）摘要：当数据中存在异常值时，一些基于最小二乘估计的统计模型会产生较大的偏差，最小一乘估计对异常值具有比较强的抵抗能力。考虑到数据中可能存在异常值的情况，用绝对值损失代替平方损失，针对同时具有变量稀疏性和相邻系数差分稀疏性这种结构的线性模型，提出了最小一乘融合熔断自适应岭估计模型（LAD-Fused-BAR）。该模型将上一步估计的回归系数倒数的平方作为下一步惩罚权重，自适应地

2、给予不同变量不同的惩罚,通过不断迭代得到最终解。运用交替方向乘子法（ADMM）求解 LAD-Fused-BAR 模型，并证明了 ADMM 算法的收敛性。数值模拟和实证分析也验证了该模型的有效性和稳健性。关键词：LAD-Fused-BAR模型；稳健回归；交替方向乘子法中图分类号：O212.1文献标志码：AAn effective and robust variable selection methodHU Yuyu，GUO Zijun，CHEN Mengxing，FAN Yali(College of Science,University of Shanghai for Science and

3、Technology,Shanghai 200093,China)Abstract:Somestatisticalmodelsbasedonleastsquaresestimationwillproducelargebiaswhenthereareoutliersinthedata.Theleastabsolutedeviationhasstrongresistancetooutliers.Consideringtheinfluenceoftheoutliersinthedata,thesquarelosswasreplacedwiththeabsoluteloss.Aimingattheli

4、nearmodelofastructurethathasbothvariablesparsityandsparsityofadjacentcoefficientdifferences,the least absolute deviation fused broken adaptive ridge estimation model（LAD-Fused-BAR）wasproposed.Thesquareofthereciprocaloftheregressioncoefficientestimatedinthepreviousstepwastakenasthepenaltyweightforthe

5、nextstep,differentpenaltieswereadaptivelygiventodifferentvariables,andthefinalsolutionwasobtainedthroughcontinuousiteration.Thealternatingdirectionmultiplier method（ADMM）was adopted to solve the LAD-Fused-BAR model and prove theconvergence of the ADMM algorithm.Additionally,numerical simulation and

6、empirical analysisconfirmtheefficacyandrobustnessoftheproposedmethodology.Keywords:LAD-Fused-BAR;robust regression;ADMM上海理工大学学报第45卷第3期J.UniversityofShanghaiforScienceandTechnologyVol.45No.32023收稿日期：20211124基金项目：国家自然科学青年基金资助项目（11401383）第一作者：胡毓榆（1998），男，硕士研究生研究方向：概率论与数理统计E-mail：通信作者：樊亚莉（1978），女

7、，副教授研究方向：概率论与数理统计E-mail：大数据时代的生活中到处充满着海量的数据1，通过分析这些数据，研究者可以探究出潜在的商业信息及其应用价值。然而，随着科技的发展，数据中变量的维度呈指数级增长，并且数据中经常夹杂着噪声和冗余信息。另外，这些变量中往往存在一些不相关变量和冗余变量，给数据分析带来了困难，影响估计的效率以及精度。为了解决这个问题，通常利用变量选择将重要的变量筛选出来，从而达到降维的目的。1 文献综述l0l0l0l1l1l0l1关于变量选择问题，很多研究者从统计学角度作了大量研究。1973 年，Akaike 等2提出了 AIC准则。1978 年，Schwarz3在贝叶斯的框

8、架下提出了 BIC 准则。然而，当变量的维度增加时，这种基于 AIC 和 BIC 准则选取最优变量子集的传统方法计算效率较低。近十几年来，通过在损失函数后面加入一个惩罚函数的方法使得变量选择有了较大的发展，并且这种加入惩罚函数的方法可以同时实现参数估计以及变量选择的目的。1995 年，Natarajan4提出了在损失函数后面加入范数，通过惩罚非零元素个数从而达到变量选择的目的。这个惩罚函数是一种很直观的形式，但是范数是非凸且不连续的函数，这就导致了最小化问题是一个NP-Hard问题。1996 年，Tibshirani5提出了 LASSO（leastabso

9、luteshrinkageandselectionoperator）惩罚，通过加入范数从而得到一个稀疏解。范数是范数的一个凸松弛。尽管范数是一个凸函数且易于求解，但是 LASSO 估计的参数是有偏的6。为了解决这个问题，近些年有许多学者提出了非凸的惩罚函数来解决估计的有偏问题。2001 年，Fan 等6提出了 SCAD（smoothlyclippedabsolutedeviation）惩罚。2006 年，Zou7在 LASSO的基础上提出了 AdaptiveLASSO 惩罚，该方法是对 LASSO 的一种改进。SCAD 和 AdaptiveLASSO在一定条件下都满足 Oracle 性质

10、。2008 年，Cands等8提出了对数惩罚。2010 年，Zhang9提出了MCP（minimaxconcavepenalty）惩罚。很多研究结果表明非凸惩罚函数在理论分析以及实际应用中具有更优秀的表现10。然而，对于一些具有一定结构的复杂数据，例如信号处理、基因表达等分段常数函数类型的数据，上述方法并不适用。2005 年，Tibshirani 等11在 LASSO 方法的基础上提出了 Fused-LASSO 方法，在考虑变量稀疏性的同时还考虑了变量差分的稀疏性。这种方法能够同时解决变量稀疏性和获取噪声信号或者基因序列中非零片段的情况。2011 年，Tibshirani 等12提出了（2D）

11、Fused-LASSO方法，该方法能够处理图像去噪的问题。l22017 年，Dai 等13提出了一种熔断自适应岭估计（BAR）方法，该方法本质上是一种迭代重加权岭估计方法，它能够很有效地同时进行变量选择和参数估计。相比于之前文献提到的方法，BAR方法的优点是参数估计通过迭代的方式进行，在每一步迭代过程中上一步参数的估计值将作为下一步估计的权重。因此，BAR 方法中的权重是自适应更新的，并且加入的惩罚是惩罚，目标函数是严格凸以及可微的。因此，每一步迭代过程都可以求得显式解，最后通过不断迭代得到最终的估计。Dai 等13证明了他们提出的估计具有 Oracle性质和 GroupEffect，并且

12、Dai 在最后数值实验中表明了 BAR 方法比上文所述几种方法更有效。2020 年，Dai 等14将 BAR 推广为广义的形式，这种广义的形式能够估计出回归系数的任意结构，例如稀疏结构、分段常数结构以及线性趋势结构。融合熔断自适应岭估计（Fused-BAR）是广义 BAR 方法的一种特殊形式，它能够很有效地进行变量选择以及识别出噪声信号或者基因序列中非零片段的情况。文献 14 证明了在一定条件下，在 BAR 方法迭代过程中，估计值会收敛到一个不动点。如果事先给出一个正确的初始值，那么最终 BAR 方法估计的效果就很好。文献 14 在数值实验中证实了 Fused-BAR 方法比 Fused-LA

13、SSO方法更有效。然而 BAR 方法采用的损失是平方损失，平方损失对于异常值和重尾数据比较敏感。当数据中存在异常值时，估计的参数会产生较大的偏差和方差，通常采用稳健的损失函数作为代替。例如Huber 损失、t 型损失15、稳健的估计方程16、绝对值损失17。这些损失函数对异常值和重尾数据具有一定的抵抗能力。2007 年，Wang 等17在LASSO 方法的基础上，将平方损失替换为绝对值损失，提出了 LAD-LASSO 方法，与 LASSO 方法相比，LAD-LASSO 方法也可以同时进行变量选择和参数估计，并且对于重尾分布的数据和带有异第3期胡毓榆，等：一种有效且稳健的变量选择方法245常值的

14、数据有抵抗力。2016 年，张环18在 Fused-LASSO 方法的基础上用绝对值损失代替平方损失，提出了 LAD-Fused-LASSO 方法，既能有效地将相邻特征选出来，又能抵抗异常值。l1基于以上文献的启发，本文在 Fused-BAR 方法的基础上提出了一种稳健且有效的变量选择模型，称为最小一乘融合熔断自适应岭估计（LAD-Fused-BAR）。它是将 Fused-BAR 估计方法中的平方损失替换成绝对值损失，从而实现稳健且有效的变量选择。Fused-BAR 在迭代过程中每一步可以求出显式解，然而把平方损失替换成绝对值损失之后，由于多了一项非光滑项，要优化的目标函数无法求显示解，并且基

15、于梯度的一些方法也失效了，这给计算带来了很大的挑战。在处理非光滑函数上，文献 19 中提出了最小角回归，文献 20 提出了内点法。然而，这些算法的计算复杂度较大，在大规模数据上表现不佳。2010 年，Boyd 等21首次提出了交替方向乘子法（ADMM）。Glowinski 等22受到启发，将 ADMM 方法应用到LASSO 以及 Group-LASSO 上。因此，本文采取交替方向乘子法(ADMM)进行求解，并证明了ADMM算法的收敛性。2 最小一乘融合熔断自适应岭估计(LAD-Fused-BAR)考虑一般的线性回归模型Y=XT+（1）Y=(y1yn)RpX=(x1xn)T=(1n)i2式中：

16、，是响应变量；，是回归系数；，是协变量；，的均值为 0，方差为，的各分量相互独立。Dai 在文献 14 中提出的 Fused-BAR 估计方法如下所示：g()argminYX22+1ni=12i2i+2ni=2(ii1)2(ii1)2（2）g()12式中：表示估计的参数；和是调节参数。1g()若在式(2)中只考虑对应的惩罚项，这就是文献 13 提出的 BAR 方法。式(2)所定义的是在上一步的估计基础上的更新公式。可以看到在更新公式中，不仅对变量施加惩罚，也对相邻变量的差分进行惩罚。BAR 估计和文献 7 中提出gk()2l2的 AdaptiveLASSO 方法在思想上类似，对于估计

17、值比较大的变量给它较小的惩罚，而对于估计值比较小的变量给它较大的惩罚。但是 AdaptiveLASSO 的权重并不是根据上次估计自适应的，而是事先估计的一个常数。文献 14 认为，在每次迭代过程中，将上一次估计的作为权重比用常数作为权重更好。随着迭代的不断进行，对于真实中为零的变量的权重会趋于无穷，而对于真实中非零变量的权重会趋于一个常数。由于BAR 方法使用的惩罚是惩罚，因此，每一步迭代都能产生显式解。文献 14 中将岭估计bR=(XX+I)1XTY 0bj=gbj1作为初始值，式中，是一个正数，I 是单位矩阵。因此，上述提出的估计即为融合熔断自适应岭估计(Fused-BAR)，最终估

18、计可以通过迭代算法的极限求出来，即bFused-BAR=limjbj（3）定义M=110001100010.0001(p1)p是一个的矩阵，则式(2)可以写成g()argminYX2+1TH1()+2TMTH2()M（4）其中H1()=diag(2i),H2()=diag(M)2i)（5）X=I如果要解决的是信号处理、基因检测以及图像去噪等问题，只要令即可。式(4)中目标函数用的是平方损失，当响应变量中存在异常值时，该损失函数会放大异常值的影响。受到文献 17-18 的启发，本文用绝对值损失代替平方损失，得到最小一乘融合熔断自适应岭估计模型(LAD-Fused-BAR)为g()argminYX

19、1+1TH1()+2TMTH2()M（6）3 算法求解由于本文的方法是将文献 14 中的平方损失246上海理工大学学报2023年第45卷替换成了绝对值损失，在目标函数中多了一项非光滑项，使得在每一次迭代过程中无法求出显式解。当数据规模很大时，最小角回归以及内点法计算复杂度高。Boyd 等21在 2010 年提出了 ADMM算法，通过选取一个光滑函数来逼近模型的非光滑项，并且 ADMM 方法在大规模数据上计算效率高。除此之外，ADMM 算法在处理该问题时，使得每一步迭代都有显式解，这充分地保障了 ADMM求解 LAD-Fused-BAR 问题的有效性。为了应用交替方向乘子方法，引入辅助变量，则式

20、(6)等价于min,1+1TH1()+2TMTH2()Ms.t.YX=（7）式(7)的增广拉格朗日形式为Lu(,)=1+1TH1()+2TMTH2()M+u2?YXu?212u22（8）的更新为k+1=argmin1TH1()+2TMTH2()M+u2?YXkku?2（9）令式(9)右端微分为 0 得到k+1=(21H1()+22MTH2()M+uXTX)1XT(uYukk)（10）的更新为k+1=argminu2?YXk+1ku?2+1（11）该优化问题可以用软阈值算法进行求解得到，即k+1=sign(YXk+1ku)max0,?YXk+1ku?1u（12）的更新为k+1=ku(YXk+1k

21、+1)（13）运用算法 ADMM 求解本文 LAD-Fused-BAR 模型的具体流程如下：xi,yini=1,1,2,b0,(0,0)=(0,0)输入k=0=b0，?ck?while=bkH1()=diag(2i)H2()=diag(M)2i)?j+1j?whilej+1=argmin1TH1()+2TMTH2()M+u2?YXjju?2j+1=sign(YXj+1ju)max0,?YXj+1ju?1uj+1=ju(YXj+1j+1)endwhileendwhileck输出 4 收敛性证明文献 23 已经给出了关于 ADMM 收敛性的一个框架。为了建立 ADMM 算法的收敛性，以

22、算法的第 k+1 次迭代值作为一个变分 VI 问题23，可以得到下面引理。其中，k 表示迭代次数。下面 4个引理在文献 23 中已经得到证明，本文不再赘述。wk=k,k,kk=k,k引理 1令表示由算法产生的序列，有wk=k,k,k(k+1)TH(kk+1)(wk+1w)T(k,k+1)（14）其中H=Im001Im，(k,k+1)=XTITm0(kk+1)wk=k,k,kk=k,k引理 2令，表示由算法产生的序列，以及，有(wk+1w)T(k,k+1)=(kk+1)T(kk+1)（15）以及(kk+1)T(kk+1)0（16）wk=k,k,kk=k,k引理 3令，表示由算法产生的序列，以及，

23、有(k+1)TH(kk+1)0,V（17）第3期胡毓榆，等：一种有效且稳健的变量选择方法247wk=k,k,kk=k,k引理 4令，表示由算法产生的序列，以及，有?k+1?2H?k?2H?kk+1?2H,V（18）?k+1?2H=(k+1)TH(k+1)其中，。(0,0,0)Tuwk=k,k,k定理 1给定任意起始点，对任意的，由 ADMM 算法产生的序列w=(,)收敛于稳健 LAD-fused-BAR 模型的解。证明由引理 4 中的不等式?k+1?2H?k?2H?kk+1?2H,VkHkH 0kHkk+12Hk2Hkk+12Hkk+1HkHk+1Hk kk+1H 0limkkk

24、+1H=0可以得到是一个单调递减的序列，又因为，所以是一个有界序列，从而得到也是有界的。再由不等式可以得到，。不等式两边同时且，得到，那么就有limk?kk+1?=0limk?kk+1?=0k=(,)0由单调有界定理得到，收敛至，根据式（10）得到收敛至，证毕。5 数值模拟真实的如下所示生成：=(0.6,0.6|z 50,0|z 450.7,0.7|z 50,0|z 45)n=200,p=100,xij N(0,1),1 i n1 j pi其中，非零系数的个数为 10，。服从均值为 0，yc%c%i标准差为 0.01 的正态分布，由式(1)生成。为了研究稳健性，

25、选取的数据进行污染，通过将的换成服从均值为 30、标准差为 0.1 的正态分布的噪声值，下文分别以 c=0，5，10 进行模拟。，1，21，212，1，2uRu1212u在 Fused-BAR 程序中，对这 3 个参数进行调节。参数选择和文献 14 一样，的选择用 5 折交叉验证的方法。对于的选择，用网格搜索的方法进行筛选，将和取0.0001,0.001,0.01,0.1,1,10，然后通过 5 折交叉验证来选取最优参数。LAD-Fused-BAR 方法里面有4 个超参数：，初始值的选取和 Fused-BAR 采取相同的方式。若同时遍历余下的 3 个超参数，计算时间较慢。因此，采取先固定然

26、后利用 5 折交叉验证的方法选取最优的和，然后再固定和来选取最优的。关于指标选取，既要考虑估计的偏差又要考虑变量选择的准确率。因此采用平均绝对误差来表示估计的偏差，即wMAE=ni=1|ii|nwMAE式中，为平均绝对误差。TPFPFTFNACC=TP+TNTP+TN+FP+FNPRE=TPTP+FPREC=TPTP+FNF1=2TP2TP+FP+FN假设为正确估计为非零的个数，为错误估计为非零的个数，为正确估计为零的个数，为错误估计为零的个数，则可以用准确率、精确率、召回率、指标来判别变量选择的能力。将数据划分成 50 份，其中一份作为测试集，余下部分作为训练集。运行50 次后分别求出平均值

27、如表 1 所示。从表 1 可以看出，在没有污染的情况下，表 1 模拟结果Tab.1 Simulation result参数无污染污染5%污染10%LAD-Fused-BARFused-BARLAD-Fused-BARFused-BARLAD-Fused-BARFused-BARMAE91045.411051.571032.561022.421023.96102ACC1.001.001.000.981.000.97PRE1.001.001.000.911.000.83REC1.001.001.001.001.000.94F11.001.001.000.921.000.89248上海理工大学学报2

28、023年第45卷LAD-Fused-BAR 和 Fused-BAR 估计的准确率都为1，两种方法都能全部准确地估计出真实的。虽然 Fused-BAR 估计的偏差会比 LAD-Fused-BAR 更小，但差距并不是很大，这证明了 LAD-Fused-BAR 在无污染情况下估计的有效性。然而，在有污染的情况下，LAD-Fused-BAR 的平均绝对误差比 Fused-BAR 小，并且其他指标都比 Fused-BAR要大。这说明 LAD-Fused-BAR 在当数据有异常值的时候表现更稳健，估计准确率和精度都要比Fused-BAR 更优秀。进一步，用不同污染情况下的系数分布来直观地表示两种方法变量选

29、择的能力，如图 13 所示。图 1 也说明了在无污染的情况下，Fused-BAR和 LAD-Fused-BAR 都能将估计出来，但是当数据有污染时，Fused-BAR 的估计值出现偏差，不能将真实的准确估计出来，而 LAD-Fused-BAR方法依然能将真实的估计出来，说明在数据有异常值的情况下，LAD-Fused-BAR 方法更稳健。020406080100预测变量0.60.40.200.20.40.6系数真实系数估计系数020406080100预测变量0.60.40.200.20.40.6系数真实系数估计系数(a)Fused-BAR(b)LAD-Fused-BAR图 1 无污染情况下 Fu

30、sed-BAR 与 LAD-Fused-BAR 方法的估计Fig.1 estimation of Fused-BAR and LAD-Fused-BAR without pollution020406080100预测变量0.60.40.200.20.40.6系数真实系数估计系数020406080100预测变量0.60.40.200.20.40.6系数真实系数估计系数(a)Fused-BAR(b)LAD-Fused-BAR图 2 5%污染情况下 Fused-BAR 与 LAD-Fused-BAR 方法的估计Fig.2 estimation of Fused-BAR and LAD-Fused-

31、BAR under 5%pollution020406080100预测变量0.60.80.40.200.20.40.6系数真实系数估计系数020406080100预测变量0.60.40.200.20.40.6系数真实系数估计系数(a)Fused-BAR(b)LAD-Fused-BAR图 3 10%污染情况下 Fused-BAR 与 LAD-Fused-BAR 方法的估计Fig.3 estimated of Fused-BAR and LAD-Fused-BAR under 10%pollution第3期胡毓榆，等：一种有效且稳健的变量选择方法249 6 实证分析在癌症研究中，拷贝数变异数据(

32、CNV)是一个很重要的数据集，该数据集具有相邻关系。也就是说，CNV 通常是各种长度的线段的形式24。比较基因组杂交(CGH)阵列是扫描基因组中 CNV的一个很有效的工具。可以通过 CGH 扫描 CNV来检测基因是否发生改变，即 DNA 拷贝数的缺失和增加。为了更方便地检测基因是否改变，通常将 CGH 数据阵列设置为肿瘤细胞中的 DNA 拷贝数与正常或参考细胞中的 DNA 拷贝数的 log2 比率。因此，当 CGH 为正值时表示 DNA 拷贝数增加，而当其为负值时，表示DNA 拷贝数缺失。CGH 通常由具有零值分段区域的分段常数序列或函数逼近。d%d%近年来，有许多方法已经对 CGH 数据进行

33、研究。例如 EM 算法25、隐马尔可夫方法26、Fused-LASSO27以及 Fused-BAR14。这些方法可以用于CGH 的可视化以及用于 CGH 分段值的推断。本文分别采用Fused-BAR 和LAD-Fused-BAR 来分析CGH数据，CGH 数据的获得来自于 R 包 cghFlasso。为了验证稳健性，将的数据进行污染，通过将的数据加上5。在本文中d 分别取0，3，5 进行实验。参数选择和模拟时一样采取网格搜索的方式，该实验解决了一个信号去噪的问题。因此，将数据的奇数行作为训练集，偶数行作为验证集，用两折交叉验证选取最优参数。实验结果如表 2 和图 46 所示。由表 2 可见，当

34、数据不加污染时，虽然 Fused-BAR 方法估计的 MAE 比 LAD-Fused-BAR 方法的要小，但差别不大，说明在无污染的情况下，LAD-Fused-BAR 估计是有效的。但是当数据有一部分被污染时，LAD-Fused-BAR 方法估计的 MAE 要比 Fused-BAR 更小，说明 LAD-Fused-BAR 在数据有污染时更稳健。从图 4 可以看出，在无污染的情况下，Fused-BAR 方法能够将 CGH 非零片段识别出来，LAD-Fused-BAR 方法也能将非零片段识别出来。而 LAD-Fused-BAR 识别出来的不像Fused-BAR 是一条直线，这是因为

35、本文算法求的是近似解，因此，在噪声比较大的情况下估计的信号会有波动。但是，当数据被污染时，LAD-Fused-BAR 估计的 MAE 比 Fused-BAR 方法的要小，说明在有污染的情况下，LAD-Fused-BAR 方法更稳健。表 2 MAE 实验结果Tab.2 Experimental results of MAE无污染3%污染5%污染LAD-Fused-BARFused-BARLAD-Fused-BARFused-BARLAD-Fused-BARFused-BAR0.3370.3020.4090.5230.5130.61402004006008001 000基因组顺序420246810

36、对数比例真实系数估计系数(a)Fused-BAR02004006008001 000基因组顺序420246810对数比例真实系数估计系数(b)LAD-Fused-BAR图 4 无污染情况下的 Fused-BAR 与 LAD-Fused-BAR 估计Fig.4 Estimation of Fused-BAR and LAD-Fused-BAR without pollution从图 5 和图 6 可以看出，相比于图 4，尽管BAR 方法能够估计出一条直线，但是在有污染的情况下 Fused-BAR 方法估计的系数绝大部分都被压缩到 0，体现不出分段常数的形式。这说明Fused-BAR 估计在有异常

37、值的情况下不稳健。由于本文方法求的是近似解而不是解析解，所以当250上海理工大学学报2023年第45卷噪声比较大时，不能估计出一条分段直线的形式。但是，LAD-Fused-BAR 方法还是能够判断出估计的信号是呈分段常数的形式，这说明LAD-Fused-BAR 在数据中有异常值的情况下更稳健。7 总结和展望在 Fused-BAR 变量选择的框架下提出了一种稳健且有效的变量选择方法，通过把平方损失替换成绝对值损失从而达到稳健的效果。然而，将平方损失替换成绝对值损失后，导致要优化的目标函数无法求出显式解。因此，采用 ADMM 进行求解，并且证明了 ADMM 算法的收敛性。模拟结果以及实证分析显示，

38、与 Fused-BAR 方法相比，LAD-Fused-BAR 方法在数据有异常值的情况下更稳健。在面对噪声比信号大的情况时，本文提出的算法由于得到的是近似解，偏差较大，后续可以考虑改进算法和其他稳健的损失函数。参考文献：CHENCLP,ZHANGCY.Data-intensiveapplications,challenges,techniquesandtechnologies:asurveyonBig1DataJ.InformationSciences,2014,275:314347.AKAIKEH.Informationtheoryandanextensionofthemaximumlike

39、lihoodprincipleM/PETROVBN,CSAKIF.Proceedings of the 2nd International Symposium onInformation Theory.Budapest:Akademiai Kiado,1973:267281.2SCHWARZ G.Estimating the dimension of a modelJ.TheAnnalsofStatistics,1978,6(2):461464.3NATARAJANBK.SparseapproximatesolutionstolinearsystemsJ.SIAM Journal on Com

40、puting,1995,24(2):227234.4TIBSHIRANI R.Regression shrinkage and selection viathelassoJ.JournaloftheRoyalStatisticalSociety:SeriesB(Methodological),1996,58(1):267288.5FAN J Q,LI R Z.Variable selection via nonconcavepenalizedlikelihoodanditsoraclepropertiesJ.Journalofthe American Statistical Associati

41、on,2001,96(456):13481360.6ZOU H.The adaptive lasso and its oracle propertiesJ.Journal of the American Statistical Association,2006,101(476):14181429.7CANDS E J,WAKIN M B,BOYD S P.Enhancingsparsity by reweighted 1 minimizationJ.Journal ofFourierAnalysisandApplications,2008,14(5):877905.80200400600800

42、1 000基因组顺序420246810对数比例真实系数估计系数(a)Fused-BAR02004006008001 000基因组顺序420246810对数比例真实系数估计系数(b)LAD-Fused-BAR图 5 3%污染情况下的 Fused-BAR 与 LAD-Fused-BAR 估计Fig.5 Estimation of Fused-BAR and LAD-Fused-BAR under 3%pollution02004006008001 000基因组顺序42024681012对数比例真实系数估计系数(a)Fused-BAR02004006008001 000基因组顺序4202468101

43、2对数比例真实系数估计系数(b)LAD-Fused-BAR图 6 5%污染情况下的 Fused-BAR 与 LAD-Fused-BAR 估计Fig.6 Estimation of Fused-BAR and LAD-Fused-BAR under 5%pollution第3期胡毓榆，等：一种有效且稳健的变量选择方法251ZHANG C H.Nearly unbiased variable selection underminimax concave penaltyJ.The Annals of Statistics,2010,38(2):894942.9XUZB.Datamodeling:vi

44、sualpsychologyapproachandL1/2regularizationtheoryC/ProceedingsoftheInternational Congress of Mathematicians 2010(ICM2010).Hyderabad:WorldScientific,2010:31513184.10TIBSHIRANI R,SAUNDERS M,ROSSET S,et al.SparsityandsmoothnessviathefusedlassoJ.Journalofthe Royal Statistical Society：Series B(Statistica

45、lMethodology),2005,67(1):91108.11TIBSHIRANIRJ,TAYLORJ.ThesolutionpathofthegeneralizedlassoJ.TheAnnalsofStatistics,2011,39(3):13351371.12DAILL,CHENKN,SUNZH,etal.BrokenadaptiveridgeregressionanditsasymptoticpropertiesJ.JournalofMultivariateAnalysis,2018,168:334351.13DAILL,CHENKN,LIG.Thebrokenadaptiver

46、idgeprocedure and its applicationsJ.Statistica Sinica,2020,30(2):10691094.14钟先乐,樊亚莉,张探探.基于 t 函数的稳健变量选择方法 J.上海理工大学学报,2017,39(6):542548.15FAN Y L,QIN G Y,ZHU Z Y.Variable selection inrobustregressionmodelsforlongitudinaldataJ.JournalofMultivariateAnalysis,2012,109:156167.16WANG H S,LI G D,JIANG G H.Ro

47、bust regressionshrinkage and consistent variable selection through theLAD-LassoJ.JournalofBusiness&EconomicStatistics,2007,25(3):347355.17张环.Fused-LASSO 惩罚最小一乘回归的统计分析与优化算法 D.北京:北京交通大学,2016.18EFRONB,HASTIET,JOHNSTONEI,etal.LeastangleregressionJ.The Annals of Statistics,2004,32(2):19407499.KIM S J,KOH

48、 K,LUSTIG M,et al.An interior-pointmethodforlarge-scale1-regularizedleastsquaresJ.IEEEJournal of Selected Topics in Signal Processing,2007,1(4):606617.20BOYD S,PARIKH N,CHU E,et al.Distributedoptimization and statistical learning via the alternatingdirectionmethodofmultipliersJ.FoundationsandTrendsi

49、nMachineLearning,2011,3(1):1122.21GLOWINSKIR,MARROCOA.Surlapproximation,parlmentsfinisdordreun,etlarsolution,parpnalisation-dualit dune classe de problmes de Dirichlet nonlinairesJ.RevueFranaisedautomatique,Informatique,et Recherche Oprationnelle.Analyse Numrique,1975,9(R2):4176.22何炳生.凸优化和单调变分不等式收缩算

50、法的统一框架 J.中国科学：数学,2018,48(2):255272.23RIPPE R C A,MEULMAN J J,EILERS P H C.VisualizationofgenomicchangesbysegmentedsmoothingusinganL0penaltyJ.PLoSOne,2012,7(6):e38230.24MYERSCL,DUNHAMMJ,KUNGSY,etal.Accuratedetection of aneuploidies in array CGH and geneexpression microarray dataJ.Bioinformatics,2004,

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 一种有效稳健变量选择方法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。