Eichhorn模型中缺失数据的一类比插补方法.pdf
《Eichhorn模型中缺失数据的一类比插补方法.pdf》由会员分享,可在线阅读,更多相关《Eichhorn模型中缺失数据的一类比插补方法.pdf(5页珍藏版)》请在咨信网上搜索。
1、收稿日期:2023-02-21;修订日期:2023-04-19作者简介:李珊珊(1985),女,硕士,副教授,主要从事应用概率统计的教学与研究。基金项目:河套学院科学技术研究项目(HYZY202107)。通信作者:刘 迪(1990),女,硕士,讲师,主要从事计算机科学与技术的教学与研究。E-mail:463532318 。第 41 卷 第 4 期2023 年 8 月江 西 科 学JIANGXI SCIENCEVol.41 No.4Aug.2023 doi:10.13990/j.issn1001-3679.2023.04.003Eichhorn 模型中缺失数据的一类比插补方法李珊珊1,2,刘 迪
2、1(1.河套学院数学与计算机系,015000,内蒙古,巴彦淖尔;2.内蒙古工业大学理学院,010051,呼和浩特)摘要:对于数量特征敏感问题调查的项目无回答问题,恰当地使用辅助信息可以提高调查效率。已有多种利用辅助信息的比插补方法,提出一类简单、实用的比插补方法,构造最优估计量,对总体敏感指标进行估计,得出了估计量的均方方差,通过理论比较和数值模拟得出提出的估计量的效率优于传统的估计量。关键词:项目无回答;比率插补;Eichhorn 模型;缺失数据中图分类号:O212.4 文献标识码:A 文章编号:1001-3679(2023)04-630-05A Class Ratio Imputation
3、 Method for Missing Data in the Eichhorn ModelLI Shanshan1,2,LIU Di1(1.Department of Physiology,Hetao College,015000,Bayannur,Inner Mongolia,PRC;2.College of Sciences,Inner Mongolia University of Technology,010051,Hohhot,PRC)Abstract:The appropriate use of auxiliary information can improve the effic
4、iency of the survey for i-tem non-response questions on quantitative characteristic sensitive surveys.There are several meth-ods of ratio imputation using auxiliary information,and to summarise some of them,a simple and practical type of ratio imputation method is proposed to estimate the sensitive
5、indicators of the popu-lation,and the mean squared error of the estimated quantity is derived,and the efficiency of the proposed estimator is higher than that of the traditional estimator through theoretical comparison and numerical simulation.Key words:item-nonresponse;ratio imputation;Eichhorn mod
6、el;missing data0 引言在统计调查中,针对数量特征敏感性问题,如隐性收入、偷漏税金额等,由于这类问题常涉及到被调查者的隐私,常采用随机化回答模型,设法消除被调查者的顾虑,使其能如实回答。这在一定程度上提高了被调查者参与调查的配合度,提高回答率,但即使采用了该模型,由于被调查者拒绝回答,受访对象不匹配,工作失误等原因,数据缺失现象是普遍存在的。造成缺失数据的原因之一是调查中的项目无回答。项目无回答是指被调查者只提供了部分信息,另一部分信息缺失。处理无回答现象通常利用回答值和辅助变量得出比率估计量对缺失数据进行插补,从而提高调查结果的准确性。针对项目无回答的比率插补法,国外许多学者进
7、行了广泛讨论和改进。例如 1994 年 Lee等1对缺失数据提出了比率插补方法。2000 年Singh 和 Horn2利用均值与比率插补的线性组合对缺失数据进行插补。2008 年 Toutenburg 和Srivastava3同样讨论了比率插补估计量的性质。Singh4发展了 Toutenburg 提出的方法,总结出一种新的比率插补方法。国内学者田兵等5利用辅助变量均值、变异系数、偏度、峰度提出了新的比插补方法。完颜华6在缺失随机化回答时,采用比插补方法处理缺失数据,得到了敏感指标总体均值估计量。金勇进等7在著作缺失数据的统计处理中,对利用辅助信息构造插补值进行了介绍。2008 年 Yan8将
8、 Lee 提出的比率插补方法应用在 Eichhorn9模型中处理缺失数据问题。本文将 Singh 等10中的插补方法应用在具有项目无回答数据的 Eichhorn 模型中,讨论了 2 种估计量的估计效率,并与文献8中的方法进行比较。1 Eichhorn 模型Eichhorn 和 Hayre 介绍了扰动随机化模型:设敏感变量 X 的均值 X-,方差 Var(X)=2X,假设扰动变量 S 的分布已知,其均值为 S,方差为Var(S)=2S,按照简单有放回的抽样方式抽取 n个样本,第 i 个回答值为 zi=XiSi,均值 z-,敏感变量均值 X-的估计量为 X-E=Z-S,其方差为 Var(X-E)=
9、1n(2X+C2S(2X+X-2),C2S=2S2S。2 比插补方法回顾文献8提出的插补方法:按简单随机不放回的方式从总体 N 中抽取容量为 n 的样本,辅助变量 T 可由直接回答得出,回答值为 t1,t2,tn,t-n=1nni=1ti。样本包括 2 个集合:大小为 r 的回答指标集合 R 和另一个大小为 n-r 的缺失数据指标集合 RC,得到的完全回答值为(z1,t1),(z2,t2),(zr,tr),t-r=1rri=1ti。当无回答的值被舍弃,习惯上用 z-=1rri=1zi估计总体均值 X-,当无回答的值不被舍弃,采用一些插补方法,完全的数 据 集 表 示 为y1,y2,yn,其 中
10、yi=zi,i Rzi,i RC,总体均值 X-由 y-=1nni=1yi=1n(iRzi+iRCzi)来估计,其中 zi=(jRzj/jRtj)ti,提出的估计量为:z-Y=z-t-rt-n。定理 1:z-Y的一阶近似均方误差为MSE(z-Y)=X-2C2Sr(1+C2X)+(1r-1N)C2X-1rNC2SC2X+(1r-1n)C2T-2(1r-1n)XTCXCT.(1)其中,S2U=1N-1Ni=1(Ui-U-)2,U=X,T,SXT=1N-1Ni=1(Xi-X-)(Ti-T-),XT=SXTSXST,CU=SU/U-,U=X,T,CU表示变量的变异系数。3 提出比插补方法在 Singh
11、 和 Priyanka 提出方法的基础上,构造关于 X-的估计量,当辅助变量 T-已知的情况下,有以下 2 种形式:z-d1=z-(A+C)T-+fBt-r(A+fB)T-+Ct-r ,z-d2=z-(A+C)T-+fBt-n(A+fB)T-+Ct-n 其中 A=(d-1)(d-2),B=(d-1)(d-4),C=(d-2)(d-3)(d-4),d 0。表 1d=1,2,3,4 时包含的估计量d1234z-d1z-T-t-nz-t-rT-z-NT-nt-rT-N-n()T-z-z-d2z-T-t-nz-t-rT-z-NT-nt-nN-n()T-z-引入记号 z-=X-(1+1),x-=X-(1
12、+2),t-r=136第 4 期 李珊珊等:Eichhorn 模型中缺失数据的一类比插补方法T-(1+3),t-n=T-(1+4),1=fBA+fB+C,2=CA+fB+C,=1-2,可得 E(1)=E(2)=E(3)=E(4)=0,E(13)=(1r-1N)XTCXCT,E(23)=(1r-1N)C2T,E(24)=(1n-1N)C2T,E(34)=(1n-1N)C2T,V(1)=C2Sr(1+C2X)+(1r-1N)C2X-1rNC2SC2X。定理 2:z-d1的一阶近似均方误差为MSE(z-d1)=X-2C2Sr(1+C2X)+(1r-1N)C2X-1rNC2SC2X+2(1r-1N)X
13、TCXCT+2(1r-1N)C2T(2)证明:z-d1=X-(1+1)(1+13)(1+23)-1=X-(1+1)(1+13)(1-23+2223+)MSE(z-d1)=E(z-d1-X-)2X-2E1+(1-2)32 X-2E21+(1-2)223+2(1-2)13 X-2V(1)+2(1-2)(1r-1N)XTCXCT+(1-2)2(1r-1N)C2T X-2V(1)+2(1r-1N)XTCXCT+2(1r-1N)C2T。定理 3:z-d1的一阶近似最优均方误差记为MSE(z-d1)min,MSE(z-d1)min=MSE(z-d1)=X-2C2Sr(1+C2X)+(1r-1N)C2X-1
14、rNC2SC2X-(1r-1N)(XTCX)2.(3)证明:对 z-d1的均方误差关于 求偏导即MSE(z-d1)=0,则 =fB-CA+fB+C=-XTCXCT,把 代入到式(2)可得:MSE(z-d1)=X-2C2Sr(1+C2X)+(1r-1N)C2X-1rNC2SC2X-(1r-1N)(XTCX)2。定理 4:z-d2的一阶近似均方误差为MSE(z-d2)=X-2C2Sr(1+C2X)+(1r-1N)C2X-1rNC2SC2X+2(1n-1N)XTCXCT+2(1n-1N)C2T。证明:z-d2=X-(1+1)(1+14)(1+24)-1=X-(1+1)(1+14)(1-24+2224
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Eichhorn 模型 缺失 数据 一类 方法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。