![点击分享此内容可以赚币 分享](/master/images/share_but.png)
DB4208∕T 61-2024 《荆门城市大数据比对规范》(荆门市).pdf
《DB4208∕T 61-2024 《荆门城市大数据比对规范》(荆门市).pdf》由会员分享,可在线阅读,更多相关《DB4208∕T 61-2024 《荆门城市大数据比对规范》(荆门市).pdf(26页珍藏版)》请在咨信网上搜索。
1、ICS 35.24 0CCS L7 0荆 门DB42O8市 地 方 标 准DB 4208/T 612024代替 DB4 208/T 61-2017荆门城市大数据比对规范Data comparison criterion of Big Data in Jingmen city2024-02-01 发布2024-03-01 实施荆门市市场监督管理局发布DB4 208/T612024目 次前言.II引言.III1范围.12规范性引用文件.13术语和定义.14 总体架构.44.1 数据比对工作流程.44.2 数据比对操作过程.44.3 比对数据分析.54.3.1 数据来源.54.3.2 数据质量要求.
2、65技术规范.65.1 数据比对原则.65.2 数据比对规则库.65.2.1 表实体依赖.65.2.2 数据映射.75.2.3 比对规则建立.85.3 数据比对周期.85.3.1 历史数据和增量数据.85.3.2 比对调度.85.4 数据比对实施.85.4.1 数据核实.85.4.2 代码一致性处理.95.4.3 数据转换.95.5 数据比对结果.95.5.1 结果类型.95.5.2 数据装载.95.5.3 比对日志和异常反馈.10附录A(资料性附录)人口库数据比对实例.11附录B(资料性附录)法人库数据比对实例.16DB4 208/T 6120241Z,1刖 百本文件按照GB/T 1.120
3、20标准化工作导则 第1部分:标准化文件的结构和起草规则的规定 起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。本文件代替DB4 208/T 61-2017,与DB4 208/T 61-2017相比,除文件编号按照新要求更新外,主要技 术参数未发生变化。本文件由荆门市电子政务信息中心(荆门市大数据中心)提出。本文件由荆门市行政审批局归口。本文件起草单位:荆门市电子政务信息中心(荆门市大数据中心)。本文件主要起草人:胡玉荣、罗传军、肖立刚、杨金龙、刘波、田原、陆森、王娅纷、熊士杰、陈 永锋、李祥琴、游明坤、赖旭、武永成、董尚燕、张牧、吴际林、刘珊艳、余建国、方
4、靖、庄小林。本文件于2017年5月首次发布。本文件实施应用中的疑问,可咨询荆门市行政审批局,联系电话:(0724)2376309,邮箱:690882384 ;对本标准的有关修改意见建议请反馈至荆门市电子政务信息中心(荆门市大数据 中心),联系电话:(0724)2376119,邮箱:282685564 IIDB4 208/T612024引 言党中央、国务院高度重视大数据发展。国务院促进大数据发展行动纲要明确指出要“建立标准 规范体系,推进数据采集、政府数据开放、指标口径、分类目录、交换接口、访问接口、数据质量、数 据交易、技术产品、安全保密等关键共性标准的制定和实施。”荆门市以国家大数据战略为指
5、导,遵循“务求实效、急用先行”的原则,首次制定五个大数据标准 规范。标准规范的制定,对建设荆门城市大数据中心,规范数据处理流程,满足大数据中心建设和管理 的需要,促进“智慧荆门”建设具有重要意义。五个标准规范包括荆门城市大数据术语、荆门城市大数 据采集规范、荆门城市大数据清洗规范、荆门城市大数据比对规范和荆门城市大数据共享规范。荆门城 市大数据术语分为总论、数据采集、数据清洗、数据比对、数据共享和应用服务六大类,规定了荆门城 市大数据中心建设领域的术语和定义,其余四个标准规范则规定大数据中心数据采集、清洗、比对和共 享的总体框架和技术规范,涉及数据处理的整个流程:首先进行数据采集,然后通过数据
6、整合(包括数 据清洗和数据比对),将整合成功的数据装载到公共基础信息库,根据需要提供数据共享。五个标准规范的制定是荆门市电子政务信息中心(荆门市大数据中心)和全市信息行业人员的共同 愿望,具有鲜明的地方特色和时代特征,填补了荆门市大数据技术应用领域的一项空白,在湖北省乃至 国内具有较高的参考利用价值和指导意义。标准规范在使用过程中还需要不断完善,其中未涉及到的内 容遵循相关国家标准。IIIDB4 208/T61-2024荆门城市大数据比对规范1范围本文件规定了荆门城市大数据中心数据比对过程中应遵循的原则和要求。本文件适用于荆门市大数据中心建设过程中数据比对的技术要求和规范。2规范性引用文件下列
7、文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 2260中华人民共和国行政区划代码GB/T 2261.1个人基本信息分类与代码第1部分:人的性别代码GB/T 2261.2个人基本信息分类与代码第2部分:婚姻状况代码GB/I 3304中国各民族名称的罗马字母拼写法和代码GB/T 4658学历代码GB/T 4754国民经济行业分类GB/T 4762政治面貌代码GB/T 527 1.17信息技术词汇第17部分:数据库GB/T 10114县级以下行政区划代码编制规则GB 11643公民身份
8、号码GB 11714全国组织机构代码编制规则GB/r 12402经济类型分类与代码GB 32100法人和其他组织统一社会信用代码编码规则GA 214.12宗教信仰代码GA/T 2000.36公安信息代码 第36部分:兵役状况代码GS 15工商行政管理注册号编制规则MZ/T 012民政业务数据共享与交换编码DB4 208/T 58荆门城市大数据术语3术语和定义GB/T527 1.17和DB4 20800/T58确立的以及下列术语和定义适用于本文件。为了便于使用,以下重复 列出了以上标准中的某些术语和定义,未标明引用的均出自DB4 208/T58。3.1元数据 metadata关于数据和数据元素的
9、数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和 数据易变性的数据。1DB4 208/T 612024GB/T 527 1.17-2010,定义 17.06.053.2部门数据库 department database按部门或业务来源进行分类存储管理的数据库。其数据结构类似中心汇聚库,不同在于数据从中心 汇聚库传输到部门数据库的过程中,进行简单的清洗和相关类型识别转换等规整化操作,同时新旧数据 间存储是按时间切片或对应周期区隔切片存储的,数据存储量以时间切片为单位确定数据批次,来一批 累积一批。3.3公共基础信息库 public basic database由政府相关职能部门
10、组织建设并进行动态管理维护的数据库,它作为公共信息资源,在电子政务中 发挥基础保障作用。公共基础信息库包括但不限于法人基础信息库、人口基础信息库等。3.4大数据中心 big data center主要用于信息资源的存储和管理,可包括中心汇聚库、部门数据库、公共基础信息库等。3.5数据映射data mapping在两个不同的数据模型之间,建立彼此数据元的对应关系,最终使数据格式满足大数据中心数据标 准的过程。3.6规则rule数据存储和处理的规定及限制。3.7比对规则 comparison rule在进行数据稽核、校准的过程中,依次需要执行处理操作的集合。3.8规则库 rule database
11、存储和管理规则的数据库,如清洗规则库、比对规则库等。3.9数据比对 data comparison2DB4 208/T612024将有关联关系的数据进行稽核、校准的过程,特别是对来自不同数据源的同一属性数据,通过制定 的规则进行比较、核对其一致性。3.10比对日志 comparison log记录数据比对过程和结果的日志文件。3.11日志数据库log database存储和管理数据处理信息的数据库。如清洗日志数据库,用于记录清洗过程中依次执行的各种操作 和数据。3.12拉链表 zipper table数据库和数据仓库设计中表存储数据的一种方式,用于记录一个事物从开始到当前状态的所有变化 的历史
12、信息记录表。3.13未匹酉“言,息库 unmatched information database在数据比对过程中,存储和管理未匹配成功数据及造成未匹配成功原因的数据库。3.14人口基础信息 population basic information主要记录人的社会管理信息,反映人在社会活动中的状态,主要包括公民身份号码、姓名、曾用名、性别、民族、出生日期、籍贯:政治面貌、文化程度、婚姻状况等。3.15人口基础信息库 population basic database简称人口库,是由政府有关职能部门承担建设、管理及维护工作,采集、整理人口基本信息,供电 子政务应用系统共享使用的数据库。人口基础信
13、息库的主体包括公民身份号码、姓名、性别、民族、出 生地、出生日期等基本信息,还包括各部门业务系统在利用人口基本信息过程中产生的、其它部门存在 共享需求的人口信息。3.16法人基础信息 corporation basic information主要记录与法人密切相关的信息,反映法人的基本状态与特征,具有跨业务系统共享需求基础性和 普遍性的特点,主要包括统一社会信用代码(或组织机构代码)、组织机构名称、单位名称、登记机关、单位地址、企业类型、注册资本、法定代表人信息、成立日期等。3DB4 208/T6120243.17法人基础信息库 corporation basic database简称法人库,
14、是政府有关行政职能部门以组织机构代码及其数据库为基础,应用标准化手段,以组 织机构代码或统一社会信用代码为唯一标识,采集具有民事行为能力、依法独立享有民事权利和承担民 事义务的组织及分支机构的基础信息,而建立的政府公共基础信息数据库,并对其进行不间断地动态管 理与维护,直接为政府电子政务服务,是实现信息资源共享的必要技术手段和基础设施。注:考虑工商部门“五证合一”的工作需要,可在法人基础信息库中预留统一社会信用代码字段。4总体架构4.1 数据比对工作流程数据比对的工作流程见图1所示。工作流程描述如下:a)中心管理方根据比对质量标准与比对业务要求制定数据比对规则,并存储到比对规则库;b)中心管理
15、方根据业务需求配置相应的数据比对规则,将配置形成的比对任务提交系统执行比 对,比对完成后形成比对日志,保存到日志数据库。此过程中数据比对成功则进行入库操作,比对异常进入异常处理流程;c)数据提供方根据中心管理方在比对异常时反馈的信息,依据主管部门的要求进行相关数据的核 实,形成核实结果,等待进一步处理。4DB4 208/T 6120244.2 数据比对操作过程数据比对的具体操作过程,见图2所示。首先建立比对规则库,其建立过程为:提取并分析部门数据库与公共基础信息库中相应数据表的元 数据信息,建立部门数据库与公共基础信息库之间的数据映射,将映射形成的比对规则存入比对规则库。然后执行数据比对)当部
16、门数据库中有数据等待比对入库时,可为其配置相应比对规则,形成比对 任务,进行比对调度执行比对。若比对成功,则装载到公共基础信息库;若比对异常,则进入统计异常 数据的未匹配信息库。公共基础 信息库比对成功据 元据 数 元图2数据比对操作过程4.3 比对数据分析4.3.1 数据来源公共基础信息库在建设过程中,数据主要来源于各委办局,以人口基础信息库(以下简称人口库)和法人基础信息库(以下简称法人库)为例进行说明。4.3.1.1 人口库数据来源人口库,以荆门市公安局(以下简称公安局)的数据为基础,将荆门市人力资源和社会保障局(以 下简称人社局)、荆门市卫生和计划生育委员会(以下简称卫计委)、荆门市民
17、政局(以下简称民政局)等多个相关部门的数据进行比对,整合成完整、准确、动态更新的人口库。5DB4 208/T 612024人口库主要以人口的基本信息和扩展信息为轴,其中人口基本信息包括公民身份号码、姓名、性别、出生地、出生日期、民族和注销标识等。人口扩展信息包括社保信息、职业信息、家庭信息、健康信息、婚姻信息、教育信息、生育信息、救助信息、不动产信息、照片信息、公积金信息、收入信息、户籍迁 移信息、证件信息、驾驶证信息、车辆信息等。4.3.1.2 法人库数据来源法人库,以荆门市工商行政管理局(以下简称工商局)、荆门市质量技术监督局(以下简称质监局)、荆门市机构编制委员会办公室(以下简称编办)、
18、民政局的数据为基础,将荆门市地方税务局(以下简 称地税局)、荆门市国家税务局(以下简称国税局)、荆门市统计局(以下简称统计局)等多个相关部 门的数据进行比对,整合成完整、准确、动态更新的法人库。法人库主要以法人的基本信息和扩展信息为轴,其中法人基本信息包括法人统一社会信用代码、组 织机构代码、单位名称、法定代表人名称、注册日期、地址等。法人扩展信息包括税务登记信息、单位 社保信息、单位公积金信息、年报信息、国税开票信息、国税入库信息、国税退库信息、国税欠税信息、国税申报信息、地税申报信息、地税退库信息、单位职工社保信息、单位职工公积金信息等。4.3.2 数据质量要求数据比对完成后,装载到公共基
19、础信息库中的数据具备如下质量要求:a)完整性:指公共基础信息库中各数据不能存在缺失,且宜保留历史数据等;b)一致性:指公共基础信息库中的数据应遵循统一规范、统一编码,数据集合保持统一的格式;c)准确性:指公共基础信息库中的数据不应出现异常或错误。5技术规范5.1 数据比对原则数据比对遵循以下原则:a)待比对的数据,应是经过数据清洗后的数据;b)比对时所选择的关联字段宜是数据表的主键。如:法人库选择统一社会信用代码、组织机构代 码、注册登记号等;人口库选择公民身份号码;c)只有基本信息比对成功并装载到公共基础信息库后,才能开始扩展信息的比对和装载。5.2 数据比对规则库比对规则是数据比对的依据。
20、在进行数据比对之前,应先建立比对规则。依据数据映射的原理,并 在考虑表实体依赖关系的基础上,建立从部门数据库到公共基础信息库的映射,产生比对规则,形成比 对规则库。5.2.1 表实体依赖表实体依赖指数据比对时,公共基础信息库中各表之间存在依赖关系。以人口库和法人库为例表述 如下:a)人口库表实体依赖:对于同一自然人,只有当其人口基本信息比对成功并装载到人口库“公民 基本信息表”后,才能开始“公民扩展信息表”、“公积金-个人信息表”等表的比对和入库;表实体比对时依据的关联主键是公民身份号码;同理,只有当公积金个人信息比对成功并装载 6DB4 208/T612024到人口库“公积金-个人信息表”后
21、,才能开始“公积金-个人提取信息表”等表的比对和人 库,表实体比对时依据的关联主键是公积金账号。人口库的表实体依赖见附录A.1;b)法人库表实体依赖:对于同一法人,只有当其基本信息比对成功并装载到法人库“法人基本信 息表”后,才能开始“法人变更信息表”、“税务登记信息表”等表的比对和入库;表实体比 对时依据的关联主键依次可选择统一社会信用代码、组织机构代码、注册登记号;同理,只有 当法人税务基本信息比对成功并装载到法人库“税务登记信息表”后,才能开始“国税入库信 息表”、“地税申报信息表”等表的比对和入库,表实体比对时依据的关联主键依次可选择统 一社会信用代码、纳税人注册号。法人库的表实体依赖
22、见附录B.1。5.2.2 数据映射数据映射可包括三个层次:a)表层次:指一个目标表对应哪些源表,即目标表中的数据来自于哪些源表。如:作为目标表,人口库的“公民基本信息表”对应的源表有:公安局的“常住人口基础信息表”、民政局的“婚 姻登记信息表”、卫计委的“健康档案信息表”等;b)字段层次:指一个目标表中的字段对应源表中的哪些字段,以人口库为例,见图3。目标表的 字段映射到源表的字段,分几种情况:1)一对一:目标表的字段与源表的字段一一对应。如A表.姓名对应B表.姓名;2)多对一:目标表的多个字段对应于源表的一个字段。如A表.年,A表.月,A表.日三个字 段值来源于B表.日期;3)一对多:目标表
23、的某个字段的值由源表的多个字段综合而成。如A表.地址由B表们牌号、B表特道、B表.区三个字段值综合而成。人口库 公民基本信息表 公安局 常住人口基本信息表表名公民基本信息表表名常住人口基本信息表序号巾文名称字段类型字段长度序号中文名称.1公民身份号码varchai2181公民身份号码2姓名vai,char232-2姓名3曾用名varchar2323曾用名4相片varchar2324-4相片5性别varchar215性别6民族varchar2646民族7出生日期date.8籍贯varchar264民政局婚姻登记信息表9政治面貌vaixhai21610宗教信仰varchar264表名婚姐空记信息表
24、11文化程度vaichai264序号中文名称12婚姻状况varchar210-4-1公民身份号码13兵役状况vaixhai2122姓名14身高(cm)nunter5,2S婚姻状况15血型varchar212.-4变更时间16身份证签发机关varchar264.17身份证有败期起date卫计委健康档案信息表18身份证有效期止date表名健康档案信息表19住址varchar2128序号中文名称.20监护人varchar2641公民身份号码21人员分类varchar2322姓名22户号vai*char2113目高.4血型.7DB4 208/T 612024图3字段层次数据映射c)值域层次:指字段值的
25、映射,即源表的字段值到目标表的字段值的转换。值域的转换分几种情 况:1)因值域的表现形式不同需做的转换:如A表.性别字段的值域为I 0,1 0代表性别“男”,1代表性别“女”,而B表.性别字段的值域为男,女;2)因值域度量单位不同需做的转换:如A表.产值的度量单位是万元,而B表.产值的度量单 位是元;3)因值域的范围不同需做的转换:如A表.学历字段值域为I博士研究生,硕士研究生,本 科,专科,高中,而B表.学历字段值域为I博士研究生,硕士研究生,本科,专科,高中,其他1。5.2.3 比对规则建立比对规则建立方式包括:a)手工编码:手工编码是依据事先建立的映射,使用开发语言及SQL语句进行编码建
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 荆门城市大数据比对规范 DB4208T 61-2024 荆门城市大数据比对规范荆门市 DB4208 61 2024 荆门 城市 数据 规范 荆门市
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【曲****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【曲****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。