人口普查中行业和职业编码智能化——国际经验与中国进程_孙望书.pdf
《人口普查中行业和职业编码智能化——国际经验与中国进程_孙望书.pdf》由会员分享,可在线阅读,更多相关《人口普查中行业和职业编码智能化——国际经验与中国进程_孙望书.pdf(10页珍藏版)》请在咨信网上搜索。
1、第 40 卷第 3 期 统计研究 Vol.40,No.3 2023 年 3 月 Statistical Research Mar.2023 人口普查中行业和职业编码智能化*国际经验与中国进程 孙望书 孙 旭 内容提要:行业和职业编码是人口普查中行业和职业信息采集与量化分析之间必要的资料整理环节。随着信息技术的快速发展及其在社会管理工作中的广泛应用,人口普查行业和职业编码走上了智能化探索之路。智能化计算机编码极大减少编码工作对人工的依赖,显著降低编码成本,提高数据的时效性,控制编码环节的再生性误差。本文结合国内外相关研究,总结计算机编码的两种基本实现思路,阐述字典编码方法和模型编码方法的原理、技
2、术及其在人口普查编码实践中的应用。我国在前六次人口普查中,行业和职业编码均由人工完成,第七次全国人口普查采用计算机辅助编码技术,初步实现行业和职业编码智能化。未来可以有针对性地借鉴其他国家社会调查编码工作的先进经验,向全面智能化方向迈进,进一步提高计算机编码方式在我国社会精准化管理中的服务水平。关键词:行业和职业编码;人口普查;信息技术;文本检索;机器学习 DOI:10.19343/ki.111302/c.2023.03.012 中图分类号:C812 文献标识码:A 文章编号:10024565(2023)03015110 *基金项目:全国统计科学研究项目“大型社会调查中行、职业编码的智能化及质
3、量控制研究”(2022LZ25);国家社会科学基金一般项目“人工智能驱动的职业流动模拟及2035年劳动力市场技能短缺状况预估研究”(22BTJ032)。Research on Automated Coding of Industries and Occupations in the Population Census:International Experience and the Process in China Sun Wangshu&Sun Xu Abstract:Industry and occupation coding is the necessary stage between
4、data collection and quantitative analysis in the population census.With the rapid development of information technology and its wide application in social management,the industry and occupation coding in the census is developing towards intelligence.The application of automated coding significantly
5、reduces the human input,coding time and costs,and especially the reproducibility error.Combined with relevant domestic and foreign research,this paper summarizes two basic methods of automated coding,and expounds the principles and techniques of dictionary coding method and model coding method with
6、their application in the census coding.In the first six population censuses of China,industry and occupation coding was all completed manually,till the seventh census which initially applied automated and intelligent coding.In the future,it is beneficiary to draw on the advanced experience of social
7、 survey coding in other countries in a targeted manner,move forward in the direction of comprehensive intelligence,and further improve the service level of automated coding in the precise management of Chinas society.Key words:Industry and Occupation Coding;Population Census;Information Technology;T
8、ext Retrieval;Machine Learning 152 统计研究 2023 年 3 月 一、人口普查中行业和职业信息的开放式采集与编码(一)人口普查中的行业和职业开放题 人口普查是国家了解人口结构与人口发展变化的重要途径,为政府制定政治措施提供重要依据。人口普查通过普查表采集信息,普查表中设置的问题从形式上可分为封闭题和开放题:封闭题在提问的同时给出若干答案,要求被调查者根据实际情况从中进行选择;开放题则只提出问题,不设答案,由被调查者根据自身情况自由填报。封闭题备选答案简短明确,便于统计处理和定量分析,是人口普查中大部分项目的信息采集方式;开放题主张采集独立真实、生动丰富的非结
9、构化信息,是人口普查中比重较轻但必要的信息采集方式。行业和职业项目是开放题中的典型代表。行业和职业信息是支持社会精准化管理、服务经济高质量发展的必要统计信息,行业和职业开放题是人口普查的关键项目。人口普查表中设置“单位详细名称”“主要产品或主要业务”“本人从事的具体工作”或措辞类似的开放题。利用开放题采集行业和职业信息主要考虑以下两个因素,第一,行业和职业类别过多。行业和职业是社会劳动分工的产物,人口普查中涉及的行业和职业类型繁多,结构和功能复杂。行业分类体系根据经济活动的同质性将国民经济行业划分为门类、大类、中类和小类4级,职业分类体系根据工作性质的相似性将职业划分为大类、中类、小类、细类4
10、层。人口普查中以多达数百种的中类和小类标准分别采集行业和职业信息,普查表有限的版面不足以一一列举各行业和职业。第二,被调查者对行业和职业项目的了解程度不足。开放题不要求被调查者了解行业和职业分类体系,也不需要被调查者对所处的行业和从事的职业加以归纳总结,被调查者只需具备基本的表达能力,能够使用自然语言独立阐述其行业和职业即可。利用开放题采集行业和职业信息是国际劳工组织倡导的调查方式,也是我国在人口普查的行业和职业项目中采用的方式。(二)行业和职业编码:开放题填报文字的必要整理环节 人口普查表采集的行业和职业填报文字是一种非结构化的文本型数据,为便于量化处理、汇总和分析,必须将其转换成结构化的数
11、值型数据。人口普查中的行业和职业编码就是依照指定的行业和职业分类标准,将行业和职业填报文字转换为对应的数值型行业和职业代码的过程。编码是人口普查中行业和职业信息采集与量化分析之间必要的资料整理环节,实践经验表明职业编码的复杂性略高于行业编码,因此下文关于行业和职业编码问题的讨论中将以职业编码为主要对象,行业编码可以依此类比。开展职业编码有三个基本要素:待编码的职业信息、职业编码表和编码规则(边燕杰等,2006)。待编码的职业信息即为人口普查中职业填报文字,职业编码表和编码规则均来自普查指定的职业分类标准,其规定了全社会职业的分类结构和类别,指定各类职业的名称、代码并说明主要工作内容。其中,职业
12、编码表由职业分类标准中统一规范的职业代码构成,是职业填报文字将被转换成的全部数值型职业代码的集合;编码规则为职业分类标准中职业名称、代码与职业描述的对应关系。各国职业分类标准是多样化的,中国、美国、俄罗斯、日本等许多国家自行制定了符合本国国情、本国管理使用需要的职业分类体系,一些国家还存在两种及以上的职业分类标准。国际劳工组织编制修订的国际标准职业分类(International Standard Classification of Occupation,ISCO)为全球各国制定或修订本国的职业分类标准提供了基础,也为职业量化分析的国际比较创造了基本条件。我国于2020年开展的第七次人口普查规
13、定职业填报文字依据中华人民共和国职业分类大典(GB/T 6565-2015)编码,该标准采用线分类法将全社会职业划分为8个职业大类、75个职业中类和434个职业小类,职业代码为5位数字层次码,第1位代码表示大类,第23位代码表示中类,第45位代码表第 40 卷第 3 期 孙望书 孙 旭:人口普查中行业和职业编码智能化 153 示小类。(三)行业和职业编码的误差来源与质量检验 实际编码工作中,编码员赋予行业和职业填报文字的代码并不总是对应被调查者最恰当的行业和职业类别。因此,编码是人口普查数据再生性误差的来源之一,误差产生的原因复杂多样。以职业编码为例,第一,待编码职业信息不足或表述模糊。众多职
14、业填报文字长度参差不齐,从几个字到几十个字不等,加之被调查者对职业分类原则和标准认识不足,无法在近似职业类别间做出准确的区分和描述。第二,职业分类标准与现实匹配度还有待完善。职业分类标准并非客观存在,而是人为将复杂异构的职业聚合为有限类别。然而现实经济社会中职业的多样性、复杂性和可变性,使得职业分类标准往往难以囊括所有职业,职业类别的边界可能重叠或模糊,还需不断调整和更新以适应经济社会发展。职业填报文字与职业分类标准之间很难实现完全匹配或一一对应。第三,编码结果受编码员的知识、经验和工作态度影响。编码工作依赖编码员对填报文字的理解和对职业分类标准的掌握来完成,对于同一填报文字,缺乏训练的编码员
15、和训练有素的编码员赋码结果可能并不一致。事实上,即便在经验丰富的编码专家之间,赋码结果不一致的现象也时有发生,甚至同一编码员在不同时期的编码结果也可能不一致。为检验编码工作的总体质量,普查机构通常运用抽样和再次编码,对样本赋码结果的可靠性和有效性进行检验。职业的可靠性检验又称信度检验,指职业填报文字经同一编码员或多名编码员多次重复赋码结果的一致程度;职业的有效性检验又称效度检验,指编码员赋码结果与填报文字的“正确”职业类别的吻合程度。样本赋码结果的可靠性和有效性越高,估计总体的编码质量越高,编码环节的数据再生性误差就越小。(四)编码方式的发展:从人工到智能 人口普查工作中,行业和职业填报文字的
16、编码是一项紧张繁重的工作。20世纪80年代之前,编码工作均由人工完成。为保证普查数据的时效性,普查机构需要预先选调大量编码员,并进行行业和职业分类原则、体系和方法等方面的培训。编码工作过程中,编码员依据对行业和职业分类标准的主观理解和掌握,为填报文字手动赋码。整个编码工作投入大量人力和物力,编码过程耗费时间,成本较高。同时,由于参与工作的编码员众多,编码的可靠性和有效性无法保障。事实上,各国的调查项目中编码质量有较大差异,美国1970年和1980年人口普查的行业编码有效性分别为90.9%和93.1%,职业编码有效性分别为86.7%和91.9%;瑞典1975年人口普查的行业和职业编码有效性分别为
17、96.5%和92.2%(Biemer和Lyberg,2003)。Mannetje和Kromhout(2003)报告英国1989年至2003年的4项研究的行业编码可靠性分布在59%98%之间。Elias(1997)报告英国1981年至1990年的6项社会调查的职业编码可靠性在66%78%之间。随着信息技术的快速发展及其在社会调查工作中的应用,从20世纪80年代开始,美国、英国、加拿大等国家的官方普查机构以及多所知名大学的研究机构开始探索行业和职业编码智能化。计算机编码方式是编码智能化的核心内容,利用计算机语言将行业和职业编码规则编写成特定的运算指令,再由计算机(“机器编码员”)自主读取识别行业和
18、职业填报文字,执行编码指令,输出编码结果。计算机编码的兴起部分解决了人工编码存在的问题。首先,计算机编码最鲜明的优势在于大大减少编码环节对人工的依赖,从而大幅降低编码成本;其次,计算机执行编码指令的速度远远高 有效性是一个具有主观意味的指标,这里的“正确”职业类别是指编码专家认定的填报文字职业类别。关于行业和职业编码质量的公开数据较少,特别是近几十年来计算机和人工编码方法混合使用之后,相关数据更为少见。154 统计研究 2023 年 3 月 于人工,计算机编码方式取代人工编码将有效地缩短编码时间,提升人口普查数据的时效性;最后,计算机的编码操作是标准化的,控制了部分可变误差,既定编码规则下计算
19、机编码的可靠性为100%。人口普查编码工作中计算机的应用,将人工从大量重复性劳动中释放出来,编码员和研究者的工作重心转移到计算机环境下的自然语言语义分析和编码规则运算指令编制。进入21世纪,机器学习、文本挖掘等领域的技术创新与发展,进一步促进计算机编码智能化水平的不断提升。二、人口普查中行业和职业的计算机编码方法与技术(一)基于字典检索的计算机编码规则 OReagan(1972)最早提出计算机职业编码方法,是基于文本检索技术,以“如果那么”的布尔逻辑组织编码规则,实现计算机的自动编码。该编码方法的基础是构建一个“职业特征字典”,因此这一编码方法被称为字典型编码或规则型编码。早期的字典型计算机编
20、码遵循文本精准检索思想,可以实现填报文字与唯一职业代码相匹配。随着数据库和信息处理技术的发展,在模糊检索匹配算法的推动下,字典型编码方法的智能化水平不断提高,呈现如分词字典、同义字典、加权职业特征字典等多种功能和内容的组合模式。分词字典将职业填报文字拆分为细粒度的字和词语,同义字典随即对这些检索词进行必要的标准化同义转换。加权职业特征字典中,各职业类别下的特征词依据其反映该职业特性的能力被指定相应权重。职业填报文字检索词可能与字典中多个职业类别下的某些职业特征语句匹配,利用统计计量方法计算和比较职业文本与这些潜在匹配职业的匹配概率,可以从中确定最恰当的职业类别。如Thompson等(2012)
21、在美国社区调查(American Community Survey,ACS)的行业和职业计算机编码工作中,将每个潜在职业下的全部匹配特征语句的权重进行简单加总,再构建以被调查者个人特征及语句权重加总结果为自变量且以潜在职业为因变量的多类别Logit回归模型,基于模型系数计算各潜在职业匹配概率,并按照从大到小的顺序将其与对应的职业代码一并输出。字典模糊匹配的优势在于将精准匹配中“一致与否”的简单判断逻辑延伸为“匹配概率”的定量计算,使字典型编码功能从“查找匹配唯一职业类别”扩展为“模糊匹配多个潜在职业类别”,这不仅大大提高字典型计算机编码方法在社会调查实践中的实用性,也能够从知识和概念的层面提供
22、关于职业填报文字更丰富的编码信息集合,更好服务于编码处理、检验和分析。目前,许多国家的普查机构开发了基于行业和职业特征字典的计算机编码工具。1982年,美国开发了行业和职业的自动化编码系统(Automated Industry and Occupation Coding Software,AIOCS),并应用于1990年的美国人口普查。这是计算机编码方式在人口普查中的首次实践,取得了很好的成效(Knaus,1987;Kirk等,2001)。加拿大统计局在AIOCS系统的基础上,加强了自然语言文本的预处理,开发出通用性更强的文本检索编码软件ACTR(Wenzowski,1988;Tourigny
23、和Moloney,1997),并成功应用于加拿大1991年人口普查的行业和职业编码工作。意大利统计局引进了ACTR软件,将其改写为意大利语环境下的编码工具,并应用于1998年人口普查中(Ferrillo等,2008)。另一个著名的事后编码工具CASCOT由英国就业研究所和英国华威大学于1993年共同开发。CASCOT是一个开源系统,允许使用者修改或自定义编码规则,提供包括国际标准职业分类(ISCO)的多个职业分类标准编码表。CASCOT工具的多语言版本开发工作得到了欧盟社会科学和人文科学数据服务基础架构的资助,目前已开放支持英文、荷兰文、芬兰文、法文、德文、意大利文、葡萄牙文、斯洛伐 匹配概率
24、在一定程度上反映了特征字典的适用性,如果与职业填报文字匹配的多个潜在职业类别的匹配概率彼此相近,意味着该特征字典不足以确立某些职业的边界,有必要进一步调整完善。第 40 卷第 3 期 孙望书 孙 旭:人口普查中行业和职业编码智能化 155 克文和西班牙文9种语言版本。2016年2月,CASCOT项目启动了阿拉伯语、中文、印地语、印度尼西亚语和俄语版本的开发工作,目前中文和印地语编码工具仍在调整之中。CASCOT编码工具目前已被来自不同国家的100多家企业和商业调查机构使用。字典是对行业和职业特征的知识性总结、概括和提炼,因此以字典为基础的计算机编码方法具有常识层面的可解释性和认同性。同时,字典
25、表现出较好的灵活性和扩展性,可以根据调查项目的对象、特点和目标的职业分类标准作出调整,适应不同时期、不同目的甚至不同语言环境的社会、经济和商业调查。在人口普查中,字典的质量很大程度上决定了计算机编码的性能,只有覆盖全社会经济活动的、详尽的字典才能服务于如此大规模的编码工作。然而,编制一部完备的行业和职业特征字典并非易事,既要囊括真实经济活动中各类别行业和职业的直观特征,还需挖掘其潜在性质。同时,字典的修订和维护是一项长期工作,需不断丰富细节,确立行业和职业特征的边界,并需敏锐捕捉行业和职业随社会发展表现出的融合和变迁,使特征字典能够适应各种生产形式和新兴职业活动。因此,尽管字典型计算机编码方法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人口普查 行业 职业 编码 智能化 国际 经验 中国 进程 孙望书
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。