Eichhorn模型中缺失数据的一类比插补方法.pdf

上传人：自信****多点

文档编号：524946

上传时间：2023-11-06

格式：PDF

页数：5

大小：1.39MB

《Eichhorn模型中缺失数据的一类比插补方法.pdf》由会员分享，可在线阅读，更多相关《Eichhorn模型中缺失数据的一类比插补方法.pdf（5页珍藏版）》请在咨信网上搜索。

1、收稿日期:2023-02-21;修订日期:2023-04-19作者简介:李珊珊(1985),女,硕士,副教授,主要从事应用概率统计的教学与研究。基金项目:河套学院科学技术研究项目(HYZY202107)。通信作者:刘迪(1990),女,硕士,讲师,主要从事计算机科学与技术的教学与研究。E-mail:463532318 。第 41 卷第 4 期2023 年 8 月江西科学JIANGXI SCIENCEVol.41 No.4Aug.2023 doi:10.13990/j.issn1001-3679.2023.04.003Eichhorn 模型中缺失数据的一类比插补方法李珊珊1,2,刘迪

2、1(1.河套学院数学与计算机系,015000,内蒙古,巴彦淖尔;2.内蒙古工业大学理学院,010051,呼和浩特)摘要:对于数量特征敏感问题调查的项目无回答问题,恰当地使用辅助信息可以提高调查效率。已有多种利用辅助信息的比插补方法,提出一类简单、实用的比插补方法,构造最优估计量,对总体敏感指标进行估计,得出了估计量的均方方差,通过理论比较和数值模拟得出提出的估计量的效率优于传统的估计量。关键词:项目无回答;比率插补;Eichhorn 模型;缺失数据中图分类号:O212.4 文献标识码:A 文章编号:1001-3679(2023)04-630-05A Class Ratio Imputation

3、 Method for Missing Data in the Eichhorn ModelLI Shanshan1,2,LIU Di1(1.Department of Physiology,Hetao College,015000,Bayannur,Inner Mongolia,PRC;2.College of Sciences,Inner Mongolia University of Technology,010051,Hohhot,PRC)Abstract:The appropriate use of auxiliary information can improve the effic

4、iency of the survey for i-tem non-response questions on quantitative characteristic sensitive surveys.There are several meth-ods of ratio imputation using auxiliary information,and to summarise some of them,a simple and practical type of ratio imputation method is proposed to estimate the sensitive

5、indicators of the popu-lation,and the mean squared error of the estimated quantity is derived,and the efficiency of the proposed estimator is higher than that of the traditional estimator through theoretical comparison and numerical simulation.Key words:item-nonresponse;ratio imputation;Eichhorn mod

6、el;missing data0 引言在统计调查中,针对数量特征敏感性问题,如隐性收入、偷漏税金额等,由于这类问题常涉及到被调查者的隐私,常采用随机化回答模型,设法消除被调查者的顾虑,使其能如实回答。这在一定程度上提高了被调查者参与调查的配合度,提高回答率,但即使采用了该模型,由于被调查者拒绝回答,受访对象不匹配,工作失误等原因,数据缺失现象是普遍存在的。造成缺失数据的原因之一是调查中的项目无回答。项目无回答是指被调查者只提供了部分信息,另一部分信息缺失。处理无回答现象通常利用回答值和辅助变量得出比率估计量对缺失数据进行插补,从而提高调查结果的准确性。针对项目无回答的比率插补法,国外许多学者进

7、行了广泛讨论和改进。例如 1994 年 Lee等1对缺失数据提出了比率插补方法。2000 年Singh 和 Horn2利用均值与比率插补的线性组合对缺失数据进行插补。2008 年 Toutenburg 和Srivastava3同样讨论了比率插补估计量的性质。Singh4发展了 Toutenburg 提出的方法,总结出一种新的比率插补方法。国内学者田兵等5利用辅助变量均值、变异系数、偏度、峰度提出了新的比插补方法。完颜华6在缺失随机化回答时,采用比插补方法处理缺失数据,得到了敏感指标总体均值估计量。金勇进等7在著作缺失数据的统计处理中,对利用辅助信息构造插补值进行了介绍。2008 年 Yan8将

8、 Lee 提出的比率插补方法应用在 Eichhorn9模型中处理缺失数据问题。本文将 Singh 等10中的插补方法应用在具有项目无回答数据的 Eichhorn 模型中,讨论了 2 种估计量的估计效率,并与文献8中的方法进行比较。1 Eichhorn 模型Eichhorn 和 Hayre 介绍了扰动随机化模型:设敏感变量 X 的均值 X-,方差 Var(X)=2X,假设扰动变量 S 的分布已知,其均值为 S,方差为Var(S)=2S,按照简单有放回的抽样方式抽取 n个样本,第 i 个回答值为 zi=XiSi,均值 z-,敏感变量均值 X-的估计量为 X-E=Z-S,其方差为 Var(X-E)=

9、1n(2X+C2S(2X+X-2),C2S=2S2S。2 比插补方法回顾文献8提出的插补方法:按简单随机不放回的方式从总体 N 中抽取容量为 n 的样本,辅助变量 T 可由直接回答得出,回答值为 t1,t2,tn,t-n=1nni=1ti。样本包括 2 个集合:大小为 r 的回答指标集合 R 和另一个大小为 n-r 的缺失数据指标集合 RC,得到的完全回答值为(z1,t1),(z2,t2),(zr,tr),t-r=1rri=1ti。当无回答的值被舍弃,习惯上用 z-=1rri=1zi估计总体均值 X-,当无回答的值不被舍弃,采用一些插补方法,完全的数据集表示为y1,y2,yn,其中

10、yi=zi,i Rzi,i RC,总体均值 X-由 y-=1nni=1yi=1n(iRzi+iRCzi)来估计,其中 zi=(jRzj/jRtj)ti,提出的估计量为:z-Y=z-t-rt-n。定理 1:z-Y的一阶近似均方误差为MSE(z-Y)=X-2C2Sr(1+C2X)+(1r-1N)C2X-1rNC2SC2X+(1r-1n)C2T-2(1r-1n)XTCXCT.(1)其中,S2U=1N-1Ni=1(Ui-U-)2,U=X,T,SXT=1N-1Ni=1(Xi-X-)(Ti-T-),XT=SXTSXST,CU=SU/U-,U=X,T,CU表示变量的变异系数。3 提出比插补方法在 Singh

11、和 Priyanka 提出方法的基础上,构造关于 X-的估计量,当辅助变量 T-已知的情况下,有以下 2 种形式:z-d1=z-(A+C)T-+fBt-r(A+fB)T-+Ct-r ,z-d2=z-(A+C)T-+fBt-n(A+fB)T-+Ct-n 其中 A=(d-1)(d-2),B=(d-1)(d-4),C=(d-2)(d-3)(d-4),d 0。表 1d=1,2,3,4 时包含的估计量d1234z-d1z-T-t-nz-t-rT-z-NT-nt-rT-N-n()T-z-z-d2z-T-t-nz-t-rT-z-NT-nt-nN-n()T-z-引入记号 z-=X-(1+1),x-=X-(1

12、+2),t-r=136第 4 期李珊珊等:Eichhorn 模型中缺失数据的一类比插补方法T-(1+3),t-n=T-(1+4),1=fBA+fB+C,2=CA+fB+C,=1-2,可得 E(1)=E(2)=E(3)=E(4)=0,E(13)=(1r-1N)XTCXCT,E(23)=(1r-1N)C2T,E(24)=(1n-1N)C2T,E(34)=(1n-1N)C2T,V(1)=C2Sr(1+C2X)+(1r-1N)C2X-1rNC2SC2X。定理 2:z-d1的一阶近似均方误差为MSE(z-d1)=X-2C2Sr(1+C2X)+(1r-1N)C2X-1rNC2SC2X+2(1r-1N)X

13、TCXCT+2(1r-1N)C2T(2)证明:z-d1=X-(1+1)(1+13)(1+23)-1=X-(1+1)(1+13)(1-23+2223+)MSE(z-d1)=E(z-d1-X-)2X-2E1+(1-2)32 X-2E21+(1-2)223+2(1-2)13 X-2V(1)+2(1-2)(1r-1N)XTCXCT+(1-2)2(1r-1N)C2T X-2V(1)+2(1r-1N)XTCXCT+2(1r-1N)C2T。定理 3:z-d1的一阶近似最优均方误差记为MSE(z-d1)min,MSE(z-d1)min=MSE(z-d1)=X-2C2Sr(1+C2X)+(1r-1N)C2X-1

14、rNC2SC2X-(1r-1N)(XTCX)2.(3)证明:对 z-d1的均方误差关于求偏导即MSE(z-d1)=0,则 =fB-CA+fB+C=-XTCXCT,把代入到式(2)可得:MSE(z-d1)=X-2C2Sr(1+C2X)+(1r-1N)C2X-1rNC2SC2X-(1r-1N)(XTCX)2。定理 4:z-d2的一阶近似均方误差为MSE(z-d2)=X-2C2Sr(1+C2X)+(1r-1N)C2X-1rNC2SC2X+2(1n-1N)XTCXCT+2(1n-1N)C2T。证明:z-d2=X-(1+1)(1+14)(1+24)-1=X-(1+1)(1+14)(1-24+2224

15、+)MSE(z-d2)=E(z-d2-X-)2X-2E1+(1-2)42 X-2E21+(1-2)224+2(1-2)14 X-2V(1)+2(1-2)(1n-1N)XTCXCT+(1-2)2(1n-1N)C2TX-2V(1)+2(1n-1N)XTCXCT+2(1n-1N)C2T。定理 5:z-d2的一阶近似最优均方误差记为MSE(z-d2)min,MSE(z-d2)min=MSE(z-d2)=X-2C2Sr(1+C2X)+(1r-1N)C2X-1rNC2SC2X-(1n-1N)(XTCX)2(4)4 效率比较4.1 比较 z-与 z-Y,z-d1,z-d2的一阶近似均方误差z-的均方误差与估

16、计量 z-Y、z-d1和 z-d2的一阶近似均方误差的差为(z-,z-Y)=V(z-)-MSE(z-Y)=X-2(1r-1n)CT(2XTCX-CT);(z-,z-d1)=V(z-)-MSE(z-d1)=X-2(1r-1N)(XTCX)2;236江西科学2023 年第 41 卷(z-,z-d2)=V(z-)-MSE(z-d2)=X-2(1n-1N)(XTCX)2。满足条件2XT CX/CT,MSE(z-Y)V(z-),同时注意到提出方法的 MSE(z-d1)与 MSE(z-d2)都优于估计量 z-。4.2 比较 z-Y,z-d1 与 z-d2的一阶近似均方误差比较 MSE(z-Y)和 M

17、SE(z-d1)的大小,即(z-Y,z-d1)=MSE(z-Y)-MSE(z-d1)=X-2(1r-1n)C2T-2(1r-1n)XTCXCT+(1r-1N)(XTCX)2=X-2(1r-1N)(CT-XTCX)2 0 估计量 z-d1的均方误差优于 z-Y的均方误差,而估计量 z-d2的均方误差不一定优于 z-Y的均方误差。(z-d1,z-d2)=MSE(z-d1)-MSE(z-d2)=X-2(1n-1N)(XTCX)2-(1r-1N)(XTCX)2 0 估计量z-d1的均方误差优于 z-d2的均方误差。5 数值模拟通过 Monte Carlo 模拟比较提出比插补方法与文献8中比估计方法

18、及直接删除缺失数据方法的效率大小。假设总体样本容量 N=500,超总体模型为 X=3T+,X 敏感变量,辅助变量 T 服从均匀分布 U1,7,扰动变量服从均匀分布U3,21,敏感变量与辅助变量的相关系数 XT=0.707 2,扰动变量 S 是服从均匀分布 U4,6。采用简单随机不放回抽样分别取样本 50,100,缺失数据分别取 5,10。对于每一组样本和缺失值,重复计算1 000 次。由于参数的值是未知的,在计算过程中可用 1=-t-rszts2tz-r或 2=-t-nszts2tz-r代替=-XTCXCT,其中 szt=1(r-1)ri=1(zi-z-)(ti-t-),s2t=1(r-1

19、)ri=1(ti-t-)2,s2t=1(n-1)ni=1(ti-t-)2,由 1运用牛顿迭代法确定 d1的值,同理由 2确定 d2的值。当 =i,i=1,2 时分别按照式(3)与式(4)计算估计量 z-d1、z-d2的近似方差,及按照式(1)计算 z-Y的近似方差如表 2 所示,表 3 列出了的估计量 z-Y、z-、z-d1、z-d2在 d=d1的相对均方误差(RRMSE),MSE()=1nni=1(-)2,RRMSE=MSE()/。表 2 当 =i,i=1,2 时估计量 z-di,i=1,2,和 z-Y公式方差n-rn12z-d1z-d2z-d1z-d2z-Y5500.785 290

20、.848 880.786 210.849 701.356 151000.337 320.352 630.337 500.352 790.583 4310500.890 641.033 730.893 861.036 251.530 791000.359 060.391 390.359 270.391 580.620 35 通过数值模拟可以得出:由表 2 可知,=1 2 种估计量的一阶近似方差比 =2时的小,当=1时提出 2 种估计量中 z-d1的方差优于 z-d2的,它们的效率比直接删除缺失值的效率要高,验证了第4 部分理论比较的正确性.表3 显示当 d=d1时提出估计量相对均方误差都小于删除

21、缺失数据Eichhorn 模型和文献8提出比插补估计量的相对均方误差,提出的 2 种比插补方法的效率较高。表3 当 d=d1时估计量 z-di,i=1,2,z-Y和 z-的相对均方误差n-rnz-d1z-d2z-Yz-5500.036 480.038 180.047 380.048 301000.024 220.024 650.031 860.031 7710500.039 370.041 540.051 030.050 451000.024 670.025 930.031 520.032 13(下转第 677 页)336第 4 期李珊珊等:Eichhorn 模型中缺失数据的一类比插补方法p

22、hysiological and biochemical attributes of kiwifruit(Actinidia deliciosa)cv.Allison J.Fruits,2011,67(1):13-22.8HE J L,WU D T,ZHANG Q,et al.Efficacy and mechanism of cinnamon essential oil on inhibition of Colletotrichum acutatum isolated from“Hongyang”kiwifruit J.Frontiers in Microbiology,2018,9:128

23、8-1231.9ZOLFAGHARI M,SAHARI M A,BARZEGAR M,et al.Physicochemical and enzymatic properties of five kiwifruit cultivars during cold storage J.Food&Bioprocess Technology,2010,3(2):239-246.10 LI H,ZHU Y,LUO F,et al.Use of controlled atmos-pheres to maintain postharvest quality and improve storage stabil

24、ity of a novel red-fleshed kiwifruit J.Journal of Food Processing&Preservation,2015,39(6):907-914.11 DENG L,JIANG C Z,MU W L,et al.Influence of 1-MCP treatments on eating quality and consumer pref-erences of“Qinmei”kiwifruit during shelf life J.Journal of Food Science and Technology,2015,52(1):335-3

25、42.12 龙明秀,谭书明.固载二氧化氯猕猴桃保鲜剂的研制与应用J.贵州农业科学,2013,41(4):130-133.13 梁春强,吕茳,靳蜜静,等.草酸处理对采后猕猴桃冷害、抗氧化能力及能荷的影响J.园艺学报,2017,44(2):279-287.14 ZHENG F L,ZHENG W W,LI L M,et al.Chitosan controls postharvest decay and elicits defense response in kiwifruit J.Food and Bioprocess Technology,2017,10(11):1937-1945.15 李波

26、,郑凯茜,皇甫露露,等.苯乳酸在食品保鲜中的应用研究进展J.包装工程,2022,43(15):129-136.16 卞一凡,刘姝晗,张贝萌,等.微生物合成 2-苯乙醇研究进展J.中国生物工程杂志,2022,42(8):128-136.(上接第 633 页)利用辅助变量信息,改进估计形式可以提高比插补的精度。构造 2 种比插补估计模型,计算估计量的一阶近似均方误差,通过理论比较与数值模拟,验证了估计量的有效性。参考文献:1LEE H,RANCOURT E,SARNDAL C E.Experi-ments with variance estimation from survey data with

27、 imputed values J.Journal of Official Statistics,1994,10(3):231-243.2SINGH S,HORN S.Compromised imputation in sur-vey samplingJ.Metrika,2000,51,266-276.3TOUTENBURG H,SRIVASTAVA V K.Amputation versus imputation of missing values through ratio meth-od in sample surveysJ.Statistical Papers,2008,49:237-

28、247.4SINGH S.A new method of imputation in survey sam-plingJ.Statistics,2009,43(5):499-511.5田兵,常秋胜,闫在在.新的比型插补与比插补效率的比较J.统计与决策,2019,35(13):37-39.6完颜华.随机化调整中缺失数据统计分析D.呼和浩特:内蒙古工业大学,2007.7金勇进,邵军.缺失数据的统计处理M.北京:中国统计出版社,2009.8YAN Z Z,WANG J Y,LAI J F,et al.Ratio imputation method for handling item-nonrespo

29、nse in Eichhorn modelJ.Model Assist Stat App,2008,3(2):89-98.9EICHHORN B H,HAYRE L S.Scrambled randomized response methods for obtaining sensitive quantitative dataJ.Journal of Statistical Planning and Inference,1983,7(4):307-316.10SINGH G N,PRIYANKA K,KIM J M,et al.Estima-tion of population mean using imputation techniques in sample surveysJ.Journal of the Korean Statistical Society,2010,39(1):67-74.11冯士雍,施锡铨.抽样调查理论、方法与实践M.上海:上海科学技术出版社,1996.776第 4 期章帅文等:猕猴桃致腐菌的筛选鉴定及保鲜剂对其抑制效果研究

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: Eichhorn 模型缺失数据一类方法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。