纵向数据下存在测量误差的单指标模型的估计及应用.pdf
《纵向数据下存在测量误差的单指标模型的估计及应用.pdf》由会员分享,可在线阅读,更多相关《纵向数据下存在测量误差的单指标模型的估计及应用.pdf(16页珍藏版)》请在咨信网上搜索。
1、应用概率统计第 39 卷第 4 期2023 年 8 月Chinese Journal of Applied Probability and StatisticsAug.,2023,Vol.39,No.4,pp.561-576doi:10.3969/j.issn.1001-4268.2023.04.007纵向数据下存在测量误差的单指标模型的估计及应用林红梅张少东彭宜洛杜金艳(上海对外经贸大学统计与信息学院,上海,201620)摘要:纵向数据是一类在社会学、经济学、生物医学、传染病学等领域有着广泛应用的重要的数据类型.然而在实际问题中,人们会经常遇到变量维数很高且关心的变量不能直接观测也即存在测量
2、误差的情形.为了解决此类问题,本文研究存在测量误差的纵向数据下单指标模型的估计问题.基于局部线性光滑法和模拟外推(SIMEX)法,本文构造了估计单指标参数和非参连接函数的新方法.通过蒙特卡罗数值模拟验证所提估计方法的有效性,与忽略测量误差的 Naive 估计以及忽略个体内部相关性的估计相比,本文所构造的估计具有更小的均方误差.最后,我们将本文方法应用到上市公司投资需求的实际数据分析中,结果表明在实际问题中测量误差对参数估计影响显著.关键词:单指标模型;纵向数据;测量误差;局部线性估计;SIMEX 法中图分类号:O212.1英文引用格式:LIN H M,ZHANG S D,PENG Y L,et
3、 al.A new estimation for single index modelwith longitudinal data in the presence of measurement errorsJ.Chinese J Appl Probab Statist,2023,39(4):561576.(in Chinese)1引言单指标模型是一类重要的半参数模型,能够有效地克服维数祸根的问题同时又起到降维的作用,因此被广泛应用于金融经济、生物医学等领域.单指标模型的一般形式为Y=g(TX)+,(1)其中 Y 是响应变量,X 是 p1 维协变量,g()是未知连接函数,=(1,2,p)T是未知
4、指标系数,是随机误差项且 E()=0.为了保证模型的可识别性,这里假设 =1 且1 0.目前已有许多文献研究单指标模型并提出了估计指标系数 和未知连接函数 g()的方法.如 Duan 和 Li1提出的切片逆回归方法,H ardle 和 Tsybakov2提出的平均导数方法等.Carroll 等3使用局部线性方法估计广义部分线性单指标模型的指标系数 和未知连接函数 g(),Naik 和 Tsai4提出了单指标模型的偏最小二乘估计量.Xia 和 H ardle5国家自然科学基金面上项目(批准号:12171310)、上海市自然科学基金面上项目(批准号:20ZR1421800)、2022 年度“曙光计
5、划”自然科学类项目(批准号:22SG52)和统计与数据科学前沿理论及应用教育部重点实验室(华东师范大学)项目资助.通讯作者,E-mail:.本文 2021 年 8 月 30 日收到,2022 年 3 月 14 日收到修改稿.562应用概率统计第 39 卷提出了最小平均方差估计(minimum-variance estimator,MAVE),它所构造的估计具有n 的一致收敛性.纵向数据是对一组观测对象内的个体在不同时间点上重复观测的数据,它综合了截面数据和时间序列的特点,因此在社会学、经济学以及生物医学等领域有着广泛的应用.关于纵向数据下单指标模型的估计问题,最早是出现在经济学的文献中用以分析
6、更一般化的纵向数据面板数据的实际问题6.基于惩罚样条和二次推断函数,Bai 等7限制在广义线性模型的框架下给出了纵向数据下单指标模型中指标系数 和连接函数 g()的估计,此方法需假设响应变量的方差函数是已知的.Jiang 和 Wang8将 MAVE 方法拓展到了函数型数据单指标模型,为了刻画指标系数的动态影响,在其模型中假设连接函数是一个关于时间 t 和指标项 TX 的二元函数,导致此估计方法比一般的 MAVE 估计法更复杂.在现实生活中收集纵向数据时,人们往往会受到主客观因素等的影响,如测量方法、测量精度、人为原因和变量无法直接测量等,这些因素均会导致所收集到的数据与真实值之间存在测量误差.
7、在单指标模型(1)中,当协变量 X 存在测量误差时,即有形式W=X+U,其中 W 是观测协变量,随机误差项 U 是服从期望为 0,方差为 u的正态分布,且与(X,Y)相互独立.对于一类广义线性测量误差模型,Stefanski9、Nakamura10使用矩恒等式方法构建了修正得分函数,Yang 等11进一步提出了修正经验似然法.Cook和 Stefanski12提出了 SIMEX(simulation-extrapolation)方法来校正存在测量误差的估计.Carroll 等13 进一步研究了 SIMEX 估计量的渐近分布.当纵向数据中存在测量误差时,我们不仅要考虑纵向数据个体内部的相关性,还
8、需要对测量误差进行处理从而消除测量误差对统计推断产生的影响.Shen 和 Chen14针对纵向数据中响应变量存在缺失值和协变量存在测量误差的情况,提出了一个新的模型选择准则广义纵向信息准则.张涛和魏斯怡15考虑纵向数据下协变量存在测量误差的边际模型,利用 SIMEX 法估计回归参数,并证明了估计参数的渐近正态性.Lin 等16研究了响应变量存在缺失值和协变量存在测量误差的部分线性模型的稳健估计(robust estimation),提出的稳健估计优点在于不需要指定协变量的分布,并且在计算上易于实现.Zhang 等17针对纵向数据分析中的存在测量误差和异常值的问题,使用稳健估计方法,通过重复测量
9、来减少测量误差引起的偏差,同时利用协变量矩阵来校正由异常值引起的误差.本文将基于 Cholesky 分解、模拟外推(SIMEX)法以及局部线性方法,解决实际生活中纵向数据下存在测量误差的问题.纵向数据下存在测量误差的单指标模型的形式为yij=g(xTij)+ij,wij=xij+uij,i=1,2,n,j=1,2,J,(2)其中 yij表示的是第 i 个个体第 j 次的响应变量的观测值,xij Rp是第 i 个个体第 j 次的协变量的观测值,wij是 xij的观测协变量,g()是未知连接函数,=(1,2,p)T是 p维未知参数向量,ij是随机误差项且满足E(ij)=0,uij是随机测量误差项,
10、uij N(0,u)第 4 期林红梅,等:纵向数据下存在测量误差的单指标模型的估计及应用563且与(xij,yij)不相关.为了保证模型的识别性,假定 =1 且 1 0.在本文中,为了简单清晰地呈现我们的主要估计方法,我们考虑 u已知的情形,u的估计可以通过重复观测来实现,具体方法可参见文献 18.本文第 2 节构建了纵向数据下存在测量误差的单指标模型的估计方法,解决了纵向数据下个体内部具有相关性和观测协变量带有测量误差的问题,并归纳出估计的算法.在第3 节我们通过大量的蒙特卡洛数值模拟验证本文所提出的估计方法的有效性,结果表明本文所提出的估计方法能够有效的处理存在测量误差的纵向数据的问题,与
11、忽略测量误差的Naive 估计和忽略个体内部相关性的估计相比,本文所构造的估计具有更小的偏差.第 4 节运用本文的估计方法分析了五家公司投资需求的数据,结果显示考虑了测量误差的公司前一年的市场价值与存货和设备的价值对投资总额的影响显著.最后我们总结了本文的方法以及未来的研究方向.2估计方法关于纵向数据下存在测量误差的单指标模型(2)的估计问题,本文主要需要解决两个难点问题:一是纵向数据下个体内部的相关性,这里我们运用 Cholesky 分解处理随机误差项的协方差矩阵;二是协变量存在测量误差,这里我们运用 SIMEX 方法来消除测量误差对估计的影响.为了方便理解,这一节分别介绍了两个问题的解决方
12、法并给出了整个估计过程的算法.2.1组内相关性的处理为了便于呈现,本文考虑平衡数据的情形,即 J 取有限值.令 i=(i1,i2,iJ)T,表示第 i 个个体的组内随机误差,xi=(xi1,xi2,xiJ)T是第 i 个个体的 J 次观测协变量,N=n J,Cov(i|xi)=.根据 Cholesky 分解法,对于协方差矩阵 存在一个主对角元素全为 1 的下三角矩阵,使得 Cov(i)=T=D 成立,其中D=diagd21,d22,d2J.令 ei=(ei1,ei2,eiJ)T=i,则有ij=j1k=1j,kik+eij,i=1,2,n,j=1,2,J,其中 j,k为矩阵 中位置(j,k)元素
13、的相反数,eij是不相关的随机误差项且 Var(eij)=d2j,特别地,当 j=1 时0k=11,k1k=0.在实际中 ik是不可观测的需要对其进行初始估计,本文采用的方法是假定模型(2)满足随机误差项独立同分布且不考虑测量误差时,通过局部线性估计方法得出 g(xTij)的估计 e g(xTije),则 ik的初始估计为 e ik=yik e g(xTije).通过 Cholesky 分解,将原本存在个体组内相关性的随机误差项分解为线性部分j1k=1j,kik564应用概率统计第 39 卷和不相关的随机误差项 eij,即有yij=g(xTij)+j1k=1j,ke ik+eij.(3)此时,
14、模型(3)可以看作一个随机误差项不相关的部分线性单指标模型.在此模型中,我们需要估计的有指标参数、线性参数 j,k和连接函数 g().令Y=(y11,y12,ynJ)T,X=(x1,x2,xn)T,=(1,2,p)T,e=(e12,e13,enJ)T,=(21,31,JJ1)T,bFij=(0T(j2)(j1)/2,e i1,e i2,e i(j1),0TJ(J1)/2j(j1)/2)T,模型(3)矩阵形式为Y=g(XT)+bFb+e,(4)其中bFb=(bF12,bF13,bF1J,bFnJ)T.对于模型(4),需要估计的参数和非参数为,g().至此,我们完成了对随机误差项组内相关性的处理.
15、考虑协变量存在测量误差之前,我们需要给出模型(4)的初始估计,基于文献 5 中的最小平均方差估计法(MAVE)易得,g()的初始相合估计,记为(b,b,b g().本小节主要解决纵向数据中组内相关性的问题,对于协变量 xij是否存在测量误差的情况均适用.2.2测量误差的处理SIMEX 法在估计过程中,由于协变量 X 无法直接被观测到,而只能得到带有误差项的观测协变量 W,如果忽略测量误差直接使用 W 进行估计会影响参数估计的准确性和有效性,从而影响分析结果.本文采用 SIMEX 法对测量误差进行处理,对,g()进行再估计,其步骤如下:Step 1:重抽样对于每个个体 i=1,2,n,产生一系列
16、协变量wijb()=wij+(u)1/2ijb,j=1,2,J,b=1,2,B,其中 ijb N(0,Ip),Ip是 p p 单位矩阵,=1,2,M,本文 取 0 到 2,B代表重复抽样的次数,在数值模拟和实际应用中通常取 50200 之间的正整数,即对于每一个 重复产生 B 次数据.Step 2:非参部分 g()的再估计给定参数部分的估计b、b,假设 g,b()存在连续的二阶导数,那么在 t 的某个小邻域的任意一点 v,g,b()可以局部近似为 g,b(v)g,b(t)+g,b(t)(v t),基于此并使用重抽第 4 期林红梅,等:纵向数据下存在测量误差的单指标模型的估计及应用565样产生的
17、数据 wijb,我们关于 =(a,c)T最小化目标函数ni=1Jj=1yij a c(wTijbb t)2Kh(wTijbb t)/bd2j,(5)其中 yij=yij FTijb,bd2j是 d2j的任意相合估计,a=g,b(t),b=g,b(t),Kh()表示的是核函数.记 b a(t;b,b)和 b c(t;b,b)为最小化目标函数(5)的估计结果,则估计量 b g,b(t;b,b)=b a(t;b,b),b g,b(t;b,b)=b c(t;b,b),求平均可得:b g(t;b,b)=1BBb=1b g,b(t;b,b),b g(t;b,b)=1BBb=1b g,b(t;b,b).St
18、ep 3:参数部分 的再估计为了保证可微性,通常采用“去一分量”方法19.令(r)=(1,2,r1,r+1,r+2,p)T为删去 第 r 个分量的 p 1 维向量.不失一般性,假定 的第 r 个分量 r大于 0,否则我们可以考虑令 r=(1 (r)2)1/2,=(r)=(1,2,r1,(1 (r)2)1/2,r,r+1,p)T,(6)参数(r)满足(r)2 1,因此 在(r)的邻域上是可微的.关于(r)求导可得 Jaco-bian 矩阵为J(r)=(r)=(1(r),2(r),p(r)T=(1,2,p)T,其中 s(1 6 s 6 p,s=r)是第 s 个分量为 1,其余分量为 0 的(p 1
19、)维向量,r=(1 (r)2)1/2(r).基于 Step 2 所得的 b g(t;b,b)和 b g(t;b,b),这里对 和 再次估计,目标函数为ni=1Jj=1yij b g(wTijb()bFTij2/bd2j,(7)最小化目标函数(7)可得 关于 的估计量bb().Step 4:目标函数(7)中对 和 的估计的求解对目标函数(7)关于(r)和 求导并令其等于 0,我们可以得到估计方程为QNb(r),;)=ni=1Jj=1ijb(r),;)=0,(8)其中ijb(r),;)=1bd2jyij b g(wTijb()bFTij(b g(wTijb()JT(r)wijb()bFij),wT
20、ijb()=(w(r)ijb)T(r)+(1 (r)2)1/2wijb,r(),566应用概率统计第 39 卷w(r)ijb()=(wijb,1(),wijb,2(),wijb,r1(),wijb,r+1(),wijb,r+2(),wijb,p()T.显然 QNb(r),;)是目标函数(7)的梯度向量,最小化目标函数(7),从而得到的(r)和 就是估计方程 QNb(r),;)=0 的解,这样我们可以得到估计b(r)b()、b1,进一步根据式(6)得到估计bb().由于这里估计方程(8)没有解析解,我们需要分两步进行估计,具体如下:a.对 的估计使用加权最小二乘法估计:b1=(bFTbDbFb)
21、1bFTbDY1,其中Y1=y12b g(wT12b()b),y13 b g(wT13b()b),ynJ b g(wTnJb()b)T,D=diag1/bd22,1/bd2J,1/bd22,1/bd2J.b.基于b1使用 Newton-Raphson 算法求解 步骤如下:1.选择 的初始值用bb(),b=1,2,B.2.迭代bb()=eb()/eb(),其中eb()=bb()+Jb(r)b()B1Nb(b(r)b(),)QNb(b(r)b(),b1;),BNb(r),)=1Nni=1Jj=1JT(r)wijb()b g2(wTijb()bb()wTijb()J(r).3.重复步骤 2,直至收敛
22、.Step 5:的最终估计基于重抽样所得的数据,重复 Step 3 和 Step 4,我们可以得到一系列估计bb(),b=1,2,B,求平均得到 的最终估计为b()=1BBb=1bb().Step 6:外推对于外推步骤,我们选择广泛使用的二次函数拟合b():(,)=1+2+32,=(1,2,3)T,基于(,)对 b(),进行拟合,得到二次函数的参数 b.所以 的 SIMEX 估计量为bSIMEX=(1,).当 =0 时,可以得到基于原数据的估计量bNaive=(0,),即不考虑纵向数据的测量误差项时的估计量.同理,对于连接函数 g()的 SIMEX 估计 b gSIMEX(t),使用bSIME
23、X代替 Step 2 中的 得到 b gb(;t).选择不同的带宽 h,重复估计 B 次,则可得到 b g()关于 的估计量为b g(;t)=1BBb=1b gb(;t),第 4 期林红梅,等:纵向数据下存在测量误差的单指标模型的估计及应用567得到 b g(;t),.拟合如下目标函数:b g(;t)(,)2,其中=(1,2,3)T,极小化目标函数可得估计 b.令=1,可得连接函数g()的SIMEX估计为 b gSIMEX(t)=(1,b).2.3算法为了更好地说明如何具体实施我们提出的估计方法并为模拟和实例分析给出指导,我们在这一节给出详细的算法,具体如下:第一步:根据 2.2 节中的估计方
24、法,我们首先将随机误差项具有相关性的单指标模型转化为随机误差项相互独立的部分线性单指标模型(4),基于模型(4)使用 MAVE 方法得到初始估计(b,b).为了保证模型的可识别性,对b 进行标准化处理.第二步:基于 SIMEX 重抽样的一系列新的协变量和上一步给出的初始参数估计b、b对连接函数 g()重新估计,根据 2.2 节 Step 2 中的方法得到 b g(t;b,b)、b g(t;b,b).在此步算法中,需要选择合适的窗宽来优化估计效果,这里我们使用 CV 方法得到bh.第三步:基于 b g(t;b,b),b g(t;b,b)获得参数部分(,)的再估计.根据 2.2 节中的Step 3
25、 和 Step 4 的具体方法,即估计方程法和牛顿迭代法得到(bb(),b1).对于不同的,使用重抽样得到的观测数据重复估计然后取均值得到 b(),.第四步:基于上一步得到的 b(),根据 2.2 节中 Step 6 的方法使用二次函数拟合b()获得参数 的 SIMEX 估计量bSIMEX.第五步:估计 b g()时,用bSIMEX代替b 并且选取合适的窗宽 h,通过获得一系列估计b gb(;t)进而得到 b g(;t),进一步拟合如下目标函数:b g(;t)(,)2,极小化目标函数可得估计 b.令 =1,可得连接函数 g()的 SIMEX 估计为 b gSIMEX(t)=(1,b).注记 1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 纵向 数据 下存 测量误差 指标 模型 估计 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。