人口普查覆盖误差估计方法研究.pdf
《人口普查覆盖误差估计方法研究.pdf》由会员分享,可在线阅读,更多相关《人口普查覆盖误差估计方法研究.pdf(9页珍藏版)》请在咨信网上搜索。
1、收稿日期:2023-03-29基金项目:重庆市社会科学规划重点委托项目(2020WT24);国家社科基金后期资助暨优秀博士论文一般项目(21FTJB002);教育部人文社会科学研究项目(20YJA910002);2022 年重庆工商大学研究生创新型科研项目(yjscxx2022-112-76)作者简介:胡桂华(1963),男,教授,博士,博士生导师,主要从事人口普查质量评估研究.第 38 卷第 2 期徐 州 工 程 学 院 学 报(自 然 科 学 版)2023 年6 月Vol.38 No.2Journal of Xuzhou Institute of Technology(Natural Sc
2、iences Edition)Jun.2023人口普查覆盖误差估计方法研究胡桂华,吴 笛,迟璐婕(重庆工商大学 数学与统计学院,重庆 400067)摘要:采取文献解读法和数理模型法研究人口普查覆盖误差的估计量.研究结果表明:双系统估计量和合成漏报估计量须在等概率人口层建立,而多报估计量在总体类构造;分层刀切法适合于人口普查覆盖误差估计量的方差估计.创新性提出的合成漏报估计量益于人口普查覆盖误差估计量在政府统计部门中的推广应用.关键词:人口普查净误差估计;人口普查多报估计;人口普查漏报估计中图分类号:O212 文献标志码:A 文章编号:1674-358X(2023)02-0008-09人口普查质
3、量评估的主要工作是估计人口普查覆盖误差1-5,包括净误差及普查多报与漏报.关于人口普查净误差估计,净误差定义为漏报与多报之差,或总体实际人口数与普查登记人口数之差,目前使用双系统估计量估计目标总体实际人口数6-8.我国在 2000 年将常住人口漏报率与多报率之差作为常住人口净误差率,在 2010 年将常住人口、户籍人口和现有人口的漏报率与多报率之差作为常住人口、户籍人口和现有人口的普查净误差率9.采用这种方法估计净误差的优势是减少净误差计算的工作量,便于相关人员集中精力估计普查多报与漏报,发现本次普查登记中存在的问题,为下次普查操作方案的制订提供有价值的参考依据;其劣势是未提供全国实际人口数估
4、计值.为避免这个劣势,我国在 2020 年净误差估计中使用双系统估计量提供实际人口数及净误差估计值.假定有总体 2 次全面调查结果资料,即人口普查资料和人口普查质量评估调查对普查日追溯的全面调查资料,那么仿照捕获-再捕获模型(用第 1 次捕到的鱼的数目与第 2 次捕到的鱼的数目的乘积除以在 2 次捕捞中都出现的鱼的数目作为池塘中鱼的数目的估计)就可以写出总体人口数估计量,即双系统估计量.然而,人口调查比鱼池中捕鱼情况要复杂得多,为了把人口调查资料与捕获-再捕获模型对应起来,需要做若干进一步的讨论:1)调查项目登记过少的登记属于无效的普查登记,将其从普查登记中剔除;2)从普查登记人口数中剔除不属
5、于总体的登记才能与第 1 次捕到的鱼的数目在概念上相对应;3)对于调查项目较少的普查登记,在质量评估工作阶段,通过后续调查把遗漏的信息补充完整,以区分其是否属于总体,对于仍然遗漏信息的那部分人口数则按一定的比例将其分配为属于和不属于总体的两部分人口数;4)从普查日到质量评估调查日,这段时间内人口会有迁移变动,因此要对质量评估调查日看到的人口数作必要的调整换算,才能得到与第 2 次捕到的鱼的数目在概念上相对应的追溯的普查日人口数;5)为了得到与 2 次捕捞中都出现的鱼的数目在概念上相对应的人口数,需比较普查登记人口名单与质量评估调查登记人口名单,找出 2 个名单之间匹配的部分(2 个名单中都登记
6、的那些人)并对其计数.经过上面工作,就可以根据捕获-再捕获模型构造双系统估计量.这些是为了便于说清楚双系统估计量的构造原理,假定质量评估调查为全面调查.然而,在实际工作中,质量评估调查是抽取样本来进行的,通常使用“大折刀”方法(又称刀切法)计算双系统估计量的方差.用“大折刀”方法估计双系统估计量的方差所需要的计算程序相当纷繁复杂,故而有必要把它们交代清楚.完成此种任务最好的办法是,将数字资料中的数据代入,进行实际计算.为此,给出了 1 个假设的在某个省进行的双系统估计量案例,利用模拟数据演示了双系统估计量方差的完整计算过程.8在人口普查漏报估计中,加拿大等国采用逆记录检查估计量,我国采用未匹配
7、估计量,美国采用平衡推算估计量10-11.逆记录检查估计量为未匹配样本个人与抽样权数的线性估计量,而未匹配样本个人为从逆记录检查抽样框抽取的样本个人,未能在本次普查微观数据库找到;未匹配估计量为质量评估调查人口数估计量与同时登记在普查名单和质量评估调查名单的人口数估计量之差;平衡推算估计量为净误差估计量与多报估计量之和.这三个普查漏报估计量的共同优势是计算较为简单,共同缺陷是未包括总体全部漏报人口,低估了漏报人口数.人口普查多报包括重报和其他多报估计.美国采用多报人数普通估计量估计重报和其他多报12-14,其优势是直接利用样本多报人口及其抽样权数估计总体多报人口数,劣势是如果样本小区的多报人口
8、很少甚至为 0,可能低估总体普查多报人口数.瑞士采用基于普查正确登记的多报估计量估计重报15,其优势是不受样本多报人口数目的限制,劣势是可能高估普查多报人口数.我国只估计重报,虽然重报多于其他多报,但忽略其他多报人口,则必然低估总体普查多报人口总数16.1 相关理论1.1 双系统估计量及其抽样方差估计双系统估计量建立在捕获-再捕获模型上,西方学者曾经使用捕获-再捕获模型估计 1 个池塘鱼的数目,用 N1+、N+1和 N11分别表示第 1 次、第 2 次和同时 2 次捕获的鱼的数目,N 表示池塘鱼的数目.这个例子具备2 个条件:一是池塘中的每条鱼游动能力大致相同,有同样的概率在第 1 次或第 2
9、 次捕获到,用 Pi1+表示总体中第 i 条鱼在第 1 次捕获的概率,用 Pi+1表示总体中第 i 条鱼在第 2 次捕获的概率,那么 Pi1=P1+,Pi+1=P+1;二是 2 次捕获独立进行.在这 2 个条件同时具备的情况下,N 的估计量N=N1+N+1N11.(1)为了将式(1)变为双系统估计量,需要在式(1)与人口普查质量评估之间建立对应关系.式(1)中的N1+、N+1、N11分别对应于人口普查质量评估中的普查正确登记人口数 CE,质量评估调查人口数 P,同时在 2项调查中登记的人口数 M.另外,估计池塘鱼的数目的 N对应于估计总体实际人口数的双系统估计量(dual system est
10、imator,简称 DSE).由于式(1)中的 3 个指标其实都是对池塘中的鱼进行全面捕获的结果,所以CE、P、M 也应该都是对总体人口全面登记的结果.做了这些处理后,式(1)变为DSE=CEPM.(2)式(2)称为理论双系统估计量,默认了这样 1 个假设,即在人口普查标准日与质量评估调查日之间没有人口移动.实践证明,这一假设是很难成立的.事实上,在这 2 个时间之间不可避免有人口移动.对某一个普查小区来说,可能有人迁入,也可能有人迁出,还可能有人一直居住其中.此时,式(2)变为DSE=CENn+NiMn+Mi,(3)式中 Nn、Ni、Mn、Mi分别表示无移动人口数、向内移动人口数、无移动匹配
11、人口数、向内移动匹配人口数.对 Mi,使用向外移动者的匹配率 Mo/Nc(Mo、No分别表示向外移动者匹配人数和向外移动者人数)来估计.此时,式(3)变为DSE=CENn+NiMn+(Mo/No)Ni.(4)式(4)中的每一个指标都是对总体全面登记的结果.虽然质量评估调查理论上可以对全国每一个普查小区的全部人口再进行 1 次全面登记,即再进行 1 次人口普查,但考虑到成本及人力,每个国家都是进行质量评估抽样调查.因此,式(4)需要用有限总体概率样本来估计.此时,式(4)变为DSE=CENn+NiMn+(Mo/No)Ni.(5)9胡桂华,等:人口普查覆盖误差估计方法研究 式(5)称为实际双系统估
12、计量,式中的 CE使用式(6)来计算,即CE=CCENe,(6)将式(6)代入式(5),得到DSE=CCENeNn+NiMn+(Mo/No)Ni,(7)式中:C不是普查登记人口数,而是从普查登记人口数中剔除监狱、养老院、医院等群体住处的普查登记人口数;CE为普查正确登记人口数估计量,正确登记是指在普查日登记在常住地所在的普查小区,并且质量评估调查证实他或她确实在普查日居住在本普查小区或其周围普查小区;Ne为普查登记人口数估计量;Nn为无移动者人口数估计量;Ni为向内移动者人口数估计量;No为向外移动者人口数估计量;Mn为与普查匹配的无移动者人口数估计量,匹配是指同一样本普查小区的质量评估调查人
13、口名单的人在普查人口名单中找到了与其相同的人;Mo为向外移动者匹配人口数估计量.由于捕获-再捕获模型要求池塘中的每一条鱼有同样的概率在第 1 次或第 2 次中捕获,这就需要使用体现登记概率大小的性别等特征将总体中特征大致相同的人放在同一层.这样的层称为等概率层,用 v 表示.这样,式(7)变为DSEv=CvCEvNevNnv+NivMnv+(Mov/Nov)Niv.(8)现在统一使用分层二重抽样法下的式(9)构造 CEv、Nv,e、Nv,n、Nv,i、Nv,o、Mv,n、Mv,o的线性估计量,即Yv=Hh=1Gg=1nhi=1hgixhgiIhgiyvhi,(9)式中:yvhi为层 h 的样本
14、普查小区 i 在等概率人口层 v 的普查正确登记人数、普查登记人数、匹配人数等;xhgi、Ihgi分别表示样本普查小区 hi 进入层 g 和第二重样本的示性函数,若进入取值 1,否则取值 0;hgi为样本普查小区 hgi 的抽样权数,即hgi=Nhnhnhgrhg,(10)式中:Nh、nh分别表示层 h 的普查小区总数和样本普查小区数,nhg、rhg分别表示层 hg 的普查小区总数和样本普查小区数.使用刀切法计算双系统估计量的方差17-19.刀切掉一个普查小区后,其余普查小区的抽样权数会随着其余普查小区与刀切掉的普查小区的关系而发生变化.被刀切掉的普查小区的抽样权数为 0.不难看出,每刀切掉第
15、 1 重抽样层 f 的第 1 重样本普查小区 j,式(8)的 7 个线性估计量就变为 CE(fj)v、N(fj)v,e、N(fj)v,n、N(fj)v,i、N(fj)v,o、M(fj)v,n、M(fj)v,o.相应地,就可以计算 1 个复制双系统估计量 DSE(fj)h,即DSE(fj)v=CvCE(fj)vN(fj)evN(fj)nv+N(fj)ivM(fj)nv+(M(fj)ov/N(fj)ov)N(fj)iv.(11)式(11)中除 Cv外的每一个构成部分由下式统一计算,即Y(fj)v=Hh=1Gg=1nhi=1(fj)hgixhgiIhgiyvhi,(12)01徐州工程学院学报(自然科
16、学版)2023 年第 2 期式中(fj)hgi分不同情况取不同的值.如果 h=f,i=j,那么(fj)hgi=0;如果 h=f,xfgj=1,Ifgj=1,ij,那么(fj)hgi=rhg/(rhg-1)(nhg-1)/nhgnh/(nh-1)hgi;如果 h=f,xfgj=1,Ifgj=0,ij,那么(fj)hgi=(nhg-1)/nhgnh/(nh-1)hgi;如果 h=f,xfgj=0,ij,那么(fj)hgi=nh/(nh-1)hgi;如果 hf,那么(fj)hgi=hgi.式(8)的刀切方差估计量Var(DSEv)=Hf=1nhj=1nf-1nfDSE(fj)v-DSEv()2.(1
17、3)如果总体等概率人口层共有 V 个,那么总体的双系统估计量DSE总体=Vv=1DSEv.(14)式(14)的方差估计量Var(DSE总体)=vvCov(DSEv,DSEv),(15)式中 v、v表示等概率层.Cov(DSEv,DSEv)=Var(DSEv),(16)Cov(DSEv,DSEv)=Hf=1nhj=1nf-1nfDSE(fj)v-DSEvDSE(fj)v-DSEv.(17)1.2 人口普查漏报估计量及其抽样方差估计等概率人口层 v 的普查漏报估计量 COMv由两部分构成:1)登记在质量评估调查但未登记在人口普查的漏报估计量 X01;2)同时未登记在这 2 项调查的漏报估计量 X1
18、0X01/X11.如果将质量评估调查人口分为无移动人口(non-movers)和向外移动人口(out-movers),则漏报估计量COMv=(X01n,v+X01o,v)+(X01n,v+X01o,v)(X10n,v+X10o,v)(X11n,v+X11o,v).(18)在分层二重抽样下,式(18)等号右边中的每个估计量使用式(9)构造.总体的普查漏报估计量为所有等概率人口层的漏报估计量之和.普查漏报估计量的抽样方差与双系统估计量一样采取分层刀切法近似计算.1.3 人口普查多报估计量及方差估计仍然使用分层二重抽样,使用 hgi、xhgi、Ihgi分别表示第 1 重抽样层 h 进入第 2 重抽样
19、层 g 的样本普查小区 hgi 的抽样权数及示性函数.进一步分别使用 c1hgi、c2hgi、c3hgi表示样本小区 hgi 的重报人口数、其他多报人口数及总多报人口数,c3hgi=(c1hgi+c2hgi).EE1表示普查重报估计量,EE2表示普查其他多报估计量,EE3为普查总多报估计量.由于普查多报估计量为线性估计量,故使用分层刀切法的等价公式构造其方差估计量.普查重报估计量及其抽样方差估计量分别为:EE1=Hh=1Gg=1nhi=1hgixhgiIhgic1hgi,(19)VarEE1()=Hh=1Ghg=11-nhNh()nhnh-1()nhi=1hgixhgiIhgic1hgi-1n
20、hnhi=1hgixhgiIhgic1hgi()2.(20)普查其他多报估计量及其抽样方差估计量分别为:EE2=Hh=1Gg=1nhi=1hgixhgiIhgic2hgi,(21)VarEE2()=Hh=1Ghg=11-nhNh()nhnh-1()nhi=1hgixhgiIhgic2hgi-1nhnhi=1hgixhgiIhgic2hgi()2.(22)11胡桂华,等:人口普查覆盖误差估计方法研究 普查总多报估计量及其抽样方差估计量分别为:EE3=Hh=1Gg=1nhi=1hgixhgiIhgic3hgi,(23)VarEE3()=Hh=1Ghg=11-nhNh()nhnh-1()nhi=1h
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人口普查 覆盖 误差 估计 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。