超高维生存数据中基于相关性秩排序的变量筛选法和FDR控制.pdf
《超高维生存数据中基于相关性秩排序的变量筛选法和FDR控制.pdf》由会员分享,可在线阅读,更多相关《超高维生存数据中基于相关性秩排序的变量筛选法和FDR控制.pdf(6页珍藏版)》请在咨信网上搜索。
1、理 论 探 讨统计与决策2023年第19期总第631期0引言随着科学技术的快速发展,超高维数据的降维问题逐渐成为机器学习、计算机科学、统计学等领域的热点话题。超高维数据中往往包含许多冗余信息,在推断他们与响应变量的统计关系时,通常很难保证统计分析的准确性、模型的可解释性以及算法的稳定性。针对超高维数据带来的挑战,有效的解决方法之一是先过滤掉一些不相关的协变量,使维数从超高维降至相对高维,然后再对剩余的协变量进行正则化处理来选取重要变量。在生物医学和临床试验中,经常会收集到超高维生存数据,但生存数据通常存在删失,传统的处理超高维完全数据的变量筛选法大多不再适用,这就使得研究超高维生存数据的变量筛
2、选法成为迫切需求。已有文献中关于变量筛选法的研究成果十分丰富。例如,Zhao和Li(2012)1提出了一种基于标准化边际极大似然估计的Cox模型变量筛选法,简称P-SIS。为了放松Cox模型的假设条件,Gorst-Rasmussen和Scheike(2013)2基于FAST统计量提出了适用于所有单指标危险率模型的变量筛选法,简称FAST-SIS。通过对Kendall s相关系数作逆概率加权,Song等(2014)3提出了一种对异常值点稳健且不依赖于模型的变量筛选法,简称 CRIS。张婧(2018)4提出了一种基于相关性秩排序的独立筛选法CR-SIS,该方法以协方差为切入点来计算每个协变量对应的
3、边际效应大小,并以此来衡量协变量的重要程度,保留与响应变量相关程度高的协变量。大多数变量筛选法往往依赖于一些阈值参数来控制重要变量和不重要变量之间的界限,并选取与响应变量相关程度较高的协变量作为重要变量,以达到降维的目的5。这些降维方法能以较高的概率保留所有重要变量,即具有确定筛选性能,提高了模型的可解释性,却未能很好地控制错误发现率(FDR),降低了稳定性,所以若能寻找一种可以平衡模型的可解释性和稳定性的降维方法,则对超高维生存数据的处理有着极大的帮助,能科学地利用所获取到的数据,更好地让试验数据发挥统计预测的功能。Fixed-X Knockoff 过滤器最早是由 Barber 和 Cand
4、s(2015)6提出的,它是一种新的能控制FDR的变量选择过程,其主要思想是构造原始协变量的仿制变量(即Knockoff协变量)。在有条件地基于原始协变量的前提下,Knockoff协变量与响应变量无关,并模仿原始变量中的相关结构,从而实现FDR控制。Fixed-X Knockoff过滤器实现了在数据维度小于或等于样本量的低维情况下对有限样本的精确FDR控制,保证了有限样本容量下变量选择的准确性。为了解决无法利用Fixed-X Knockoff过滤器对超高维数据进行降维的问题,Barber和Cands(2019)7开发了一个用于检测高维线性模型中相关性的新框架。在这个框架中,完整样本被分为两个不
5、相交的子样本,样本大小分别为n1和n2=n-n1。降维过程分两步进行:第一步,采用变量筛选法将数据维数降至n2以下,并保留与响应变量超高维生存数据中基于相关性秩排序的变量筛选法和FDR控制潘莹丽1a,1b,赵晓洛1a,1b,张淑莹2,刘展1a,1b(1.湖北大学a.数学与统计学学院;b.应用数学湖北省重点实验室,武汉 430062;2.中南财经政法大学 统计与数学学院,武汉 430073)摘要:由于超高维生存数据存在删失,因此处理超高维完全数据的变量筛选法大多不再适用。大多数变量筛选法虽能以较大的概率保留所有重要变量,即具有确定筛选性,但却未能很好地控制错误发现率(FDR),所以寻找一种可以平
6、衡模型的可解释性和稳定性的降维方法显得尤为重要。文章探讨了超高维生存数据中基于相关性秩排序且不依赖于模型的变量筛选法和FDR控制,提出了一种使用Knockoff协变量指定变量筛选阈值的两步过程,可以将FDR控制在预先指定的水平下。数值模拟和实证分析的结果表明,在FDR水平大于或等于1 s(s是重要变量数量)的情况下,提出的两步CR-Knockoff过程同时具有确定筛选和FDR控制的性能。关键词:相关性秩;无模型筛选;Fixed-X Knockoff过滤器;超高维生存数据;CR-Knockoff中图分类号:O212文献标识码:A文章编号:1002-6487(2023)19-0047-06基金项目
7、:科技大数据湖北省重点实验室(中国科学院武汉文献情报中心)开放基金课题资助课题(E3KF291001);湖北大学专业学位研究生课程案例库建设项目(104017544)作者简介:潘莹丽(1987),女,河南商丘人,博士,副教授,研究方向:应用统计。赵晓洛(1998),女,河南漯河人,硕士,研究方向:应用统计。张淑莹(2000),女,河南浚县人,硕士,研究方向:应用统计。(通讯作者)刘展(1981),女,湖北宜昌人,博士,教授,研究方向:应用统计。DOI:10.13546/ki.tjyjc.2023.19.00847理 论 探 讨统计与决策2023年第19期总第631期相关程度高的协变量;第二步,
8、利用Fixed-X Knockoff过滤器为选中的每个协变量构造Knockoff协变量,他们能很好地模拟原始协变量之间的相关结构,并且可以作为控制变量来衡量原始变量的重要性。综上,将 Fixed-XKnockoff过滤器应用于数据分析的效果有一定的理论支撑。鉴于此,本文将超高维生存数据的变量筛选法和Fixed-X Knockoff过滤器结合起来(简记为CR-Knockoff)解决超高维生存数据的降维问题,以确保模型的可解释性和稳定性,拓宽降维方法的实际应用范围。若将完全数据视为删失率为0的生存数据,则该过程同样也适用于完全数据的降维。此外,本文提出的CR-Knockoff两步过程同时具有确定筛
9、选和FDR控制的性能。1基于相关性秩排序的变量筛选法和FDR控制1.1CR-Screen过程令y 为生存时间,C为删失时间,y=min()y C表示实际观测的生存时间,D=I()y C为删失指示变量,I()为示性函数。假设数据是完全随机删失的,即给定p维协变量x=()x1xp,删失时间C和生存时间y 是相互独立的。假定对于给定的协变量x,y 的条件分布函数为:F()h|x=P()y h|x在不指定任何模型的假设前提下,定义重要协变量指标集为:=j:F()h|x 依赖于xj j=1p重要变量的数量为s=|,其中,|表示集合中元素的个数。用的补集c来表示不重要变量指标集。假设所有协变量均已中心化,
10、即对j=1p均有E(xj)=0,若协变量不满足这个假设条件,则可以先对其进行中心化处理。令G()h=P()y h为响应变量y 的分布函数,定义R()xy =ExG()y。令R()xjy 是R()xy 的第j个元素,则:R()xjy =ExjG()y=Cov()xjG()y(1)其中,xj为x的第j个元素。对j=1p定义:CR()xjy =R()xjy 2=E()xjG()y 2(2)其中,CR()xjy 代表第j个协变量xj所对应的边际效应。给定来自总体yx的随机样本YX,其中,Y=()Y1YnT,设计矩阵X=()X1Xp且Xj=(X1j)XnjT,j=1p=()D1DnT。由于响应变量y 为
11、删失数据,则可以用Kaplan-Meier估计来得到生存函数G()h的估计值,其具体定义如下:G()h=1-i=1n1-1j=1nI()YjYiDiI()Yih(3)进一步得到CR()xjy 的估计值为:CR()XjY=1ni=1nXijG()Yi2(4)将CR()XjY:1jp中的协变量按从大到小排序,排在前面的估计值对应的协变量被视为重要变量。因此,重要变量指标集可被定义为:=j:CR()XjY cn-1jp其中,cn-为常数阈值。1.2基于Knockoff协变量的FDR控制过程Fixed-X Knockoff 过滤器最早是由 Barber 和 Cands(2015)6针对确定性设计矩阵提
12、出的,它是一种新的带有FDR控制的变量选择方法。令y=()y 1y nT为响应变量的n次观测向量,x=()x1xp表示p维协变量。本文采用SDP方法6来构造p维协变量x=()x1xp的Knockoff协变量x=()x1xp,基于xx y 定义如下统计量:Wj=CR()xjy -CR()xjy j=1p(5)其中,CR()xjy 的定义如式(2)所示,CR()xjy =E()xjG()y 2。通过下面的式子:Wj=CR()XjY-CR()XjY j=1p(6)得到Wj的估计值Wj,其中,CR()XjY由式(4)所定义,CR()XjY=1ni=1nXijG()Yi2。令()01表示预先指定的FDR
13、水平,理论上选出的重要变量是Wj的取值相对较大且为正数的指标集所对应的协变量。参考Liu等(2020)8的研究思路,定义如下阈值参数T:T=mint:1+#j:Wj-t#j:Wjt(7)其中,#表示集合中元素的个数,=|Wj:1jp/0,当上述集合为空时,T=+。本文约定0 0=0,且式(7)中分子上额外的1使得T的选择更为保守一些。基于T选出的重要变量指标集可被定义为:=j:WjT1jp。然而,当采用Fixed-X Knockoff过滤器进行变量选择和 FDR 控制时,参数的维度要小于样本量的大小。为了解决超高维生存数据的降维和FDR控制的问题,本文基于简单样本分割的思想,提出两步CR-Kn
14、ockoff过程。1.3CR-Knockoff过程采用简单样本分割思想,将完整样本随机拆分为两个不重叠的、样本量分别为n1和n2=n-n1的子样本集。不妨令X(1)n1p和X(2)n2p是X的随机拆分,并且对48理 论 探 讨统计与决策2023年第19期总第631期Y进行相同的拆分,则可以将X和Y分别写成:X=X(1)X(2),Y=Y(1)Y(2)CR-Knockoff过程的两个步骤如下:(1)CR-Screen步骤依据CRX()1jY()1的取值大小将p个协变量按降序排列,在满足2dn2的前提下,选出前d个协变量,并将初步选出的重要变量指标集命名为1,用1的补集c1来表示不重要变量的指标集。
15、(2)Knockoff步骤令X(2)=(X(2)1X(2)c1),依据SDP思想构造Knockoff协变量,对X(2)中的重要协变量X(2)1构造对应的Knockoff协变量X(2)1,进一步,可以得到Wj的估计值如下:Wj=CR(X(2)1jY(2)-CR(X(2)1jY(2)j=1d(8)其中,X(2)1j和X(2)1j分别是X(2)1和X(2)1的第j列。在此,仍用符号Wj来代表统计量Wj的估计值。对于一个预先指定的FDR水平,基于式(8)中的统计量Wj,根据式(7)来选出阈值T,并通过:(T)=j:j1WjT(9)选出最终的重要变量指标集(T)。基于选出的指标集(T),错误发现率(FD
16、R)可定义为:FDR=E#j:j(T)c#j:j(T)1(10)其 中,ab=maxab。基 于 重 要 变 量 指 标 集(T),功效(Power)可定义为:Power=E#j:j(T)#j:j(11)2数值模拟2.1CR-Screen筛选性能本文通过数值模拟实验评估CR-Screen的有限样本性能,并将其与另外三种处理超高维生存数据的变量筛选法进行比较,他们分别是Zhao和Li(2012)1提出的一种基于标准化边际极大似然估计的Cox模型变量筛选法,简称P-SIS;Gorst-Rasmussen和Scheike(2013)2基于FAST统计量提出的适用于所有单指标危险率模型的变量筛选法,简
17、称FAST-SIS;Song等(2014)3提出的一种对异常值点稳健且不依赖于模型的变量筛选法,简称CRIS。考虑如下三种模型:模型1:假设生存时间y 服从如下线性模型:log y=xT+其中,协变量x=()x1xp由均值为0、协方差矩阵为=(0.5|i-j)(ij=1p)的多元正态分布生成;回归参数=(1T50Tp-5)T,即只有前5个协变量为重要变量,其他p-5个协变量均为不重要变量;误差项服从标准正态分布;删失时间C服从参数为的指数分布,通过调整使删失率接近 20%。考虑样本量n=100、协变量的维数p=5000的情况。模型2:假设生存时间y 服从如下Cox比例风险模型:(y|x)=0(
18、y)exp(xT)其中,基准危险率函数0(y)=(y-0.5)2,剩余设置同模型1。模型3:假设生存时间y 服从如下非线性模型:logy=x1+(1+sinx2)2+x3+(x42+x4-1)-1+x53+其中,协变量x、误差项和删失时间的设置同模型1。在数值模拟实验中,为了比较各种方法的效果,采用三个评价指标进行评价,定义如下:(1)最小模型大小。通过200 次模拟实验所得到值的 5%、25%、50%、75%、95%分位数来衡量此变量筛选法所选出模型的复杂程度。(2)Pe:给定模型大小d=n logn,在200次模拟实验中每个重要变量单独被选出来的概率,其中 x代表x的整数部分。(3)Pa:
19、给定模型大小d=n logn,在200次模拟实验中所有重要变量同时被选出来的概率。表1汇总了200次模拟实验中最小模型大小的5%、25%、50%、75%、95%分位数。表1200次模拟实验中最小模型大小的5%、25%、50%、75%、95%分位数模型模型1模型2模型3方法CR-ScreenCRISP-SISFAST-SISCR-ScreenCRISP-SISFAST-SISCR-ScreenCRISP-SISFAST-SIS5%5.005.005.005.005.005.005.005.005.006.005.005.0025%5.006.005.005.005.007.005.005.005
20、.0022.755.005.0050%5.0026.505.005.005.0020.005.005.006.00231.006.006.0075%5.00257.755.005.006.00102.255.005.0010.001110.5020.7516.0095%7.002053.007.007.0528.051065.159.1011.0054.504464.20122.70123.65由表1可知,CR-Screen在模型1和模型3中的表现均优于其他三种变量筛选法。就模型1而言,CR-Screen、P-SIS和FAST-SIS在的5%、25%、50%和75%分位数处均为真实模型大小(5
21、),但是CR-Screen和P-SIS在的95%分位数处表现较好。在模型2中,变量筛选法P-SIS和 FAST-SIS 的表现较好,CR-Screen、P-SIS 和 FAST-SIS在的5%、25%和50%分位数处均为5,但是CR-Screen在的75%和95%分位数处的表现不如P-SIS和FAST-SIS,49理 论 探 讨统计与决策2023年第19期总第631期主要原因是P-SIS和FAST-SIS是基于Cox比例风险模型的某些特征和特殊结构提出的。观察模型3的结果可知,CR-Screen的表现优于另外三种方法。表2汇总了200次模拟实验中每个重要变量单独被选出的概率Pe和所有重要变量同
22、时被选出的概率Pa。表2200次模拟实验中每个重要变量单独被选出的概率Pe和所有重要变量同时被选出的概率Pa模型模型1模型2模型3方法CR-ScreenCRISP-SISFAST-SISCR-ScreenCRISP-SISFAST-SISCR-ScreenCRISP-SISFAST-SISPeX10.9950.6600.9900.9900.9650.7200.9900.9950.9400.4350.8350.845X21.0000.8651.0001.0001.0000.9301.0001.0000.9950.6650.9850.990X31.0000.8901.0001.0001.0000.
23、9551.0001.0000.9950.6350.9800.975X41.0000.8951.0001.0001.0000.9401.0001.0000.9600.5150.9300.955X50.9950.6201.0001.0000.9750.7251.0000.9951.0000.5600.9850.985Pa0.9900.4950.9900.9900.9400.5150.9900.9900.8950.2450.7500.790由表2可知,在模型1中,CR-Screen的确定筛选性能与P-SIS、FAST-SIS相差不大,均能以接近于1的概率选出所有重要变量。在模型2中,CR-Scree
24、n、P-SIS和FAST-SIS均能以接近于1的概率选出所有重要变量,这三者的表现明显优于CRIS。就模型3的结果而言,与其他三种方法相比,CR-Screen能够以0.895的概率保留所有重要变量,具有较强的确定筛选性能。2.2CR-Knockoff筛选和FDR控制性能本文通过数值模拟实验评估CR-Knockoff过程的变量筛选性能和FDR控制性能。考虑三个不同的模型,具体为:模型4:模型设置同模型1,唯一区别在于回归参数=(1T100Tp-10)T,即前 10 个协变量是重要变量,剩余的p-10个变量都是不重要变量。此外,考虑样本量n=2000、协变量的维数p=5000的情形。在每次模拟实验
25、中,均按照随机原则将样本分为两个不重叠的子样本,其中CR-Screen筛选步的样本量和目标维数分别设定为n1=500 和d=200,用于构建 Knockoff 协变量的样本量n2=1500。模型5:模型设置同模型2,唯一区别在于回归参数=(1T100Tp-10)T。此外,样本量、参数维数和样本的分割的设置同模型4。模型6:假设生存时间y 来自如下模型:log y=x1+(1+sinx2)2+x3+(x42+x4-1)-1+x5+x6+x7+x8+x9+x10+其中,所有剩余设置同模型3。此外,样本量、参数维数和样本的分割的设置同模型4。为了评估CR-Knockoff的变量筛选和FDR控制性能,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 超高 生存 数据 基于 相关性 排序 变量 筛选 FDR 控制
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。