DB4208∕T 59-2024 《荆门城市大数据采集规范》(荆门市).pdf
《DB4208∕T 59-2024 《荆门城市大数据采集规范》(荆门市).pdf》由会员分享,可在线阅读,更多相关《DB4208∕T 59-2024 《荆门城市大数据采集规范》(荆门市).pdf(21页珍藏版)》请在咨信网上搜索。
1、ICS 35.240CCS L70荆 门DB42O8市 地 方 标 准DB 4208/T 592024代替 DB4208/T 59-2017荆门城市大数据采集规范Data acquisition criterion of Big Data in Jingmen city2024-02-01 发布2024-03-01 实施荆门市市场监督管理局发布DB4208/T 592024目 次前言.II引言.HI1范围.12规范性引用文件.13术语和定义.14总体架构.54.1 数据采集工作流程.54.2 数据采集处理架构.64.2.1 数据采集系统.64.2.2 消息服务.64.2.3 数据交换管理中心.
2、74.2.4 任务系统.74.2.5 运行与监控.74.3 数据采集网络架构.74.3.1 数据采集逻辑架构.74.3.2 数据采集物理部署.74.4 采集过程数据分析.84.4.1 数据类型.84.4.2 数据质量.84.4.3 数据存储.95技术规范.95.1 数据采集方案选择.95.1.1 数据库接入方式.95.1.2 文件接入方式.105.1.3 API接入方式.115.1.4 网页接入方式.125.1.5 流式接入方式.135.1.6 消息接入方式.135.2 数据采集周期.135.3 数据采集更新机制.135.3.1 全量抽取.135.3.2 增量抽取.135.4 数据采集实施.1
3、45.4.1 数据采集实施流程.145.4.2 任务分解.155.4.3 数据采集监控.16IDB4208/T 592024IIDB4208/T 592024-XJL.1刖 s本文件按照GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定 起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。本文件代替DB4208/T 59-2017,与DB4208/T 59-2017相比,除文件编号按照新要求更新外,主要技 术参数未发生变化。本文件由荆门市电子政务信息中心(荆门市大数据中心)提出。本文件由荆门市行政审批局归口。本文件起草单位:荆门市
4、电子政务信息中心(荆门市大数据中心)。本文件主要起草人:胡玉荣、罗传军、肖立刚、杨金龙、刘波、田原、陆森、王娅纷、熊士杰、陈 永锋、李祥琴、游明坤、赖旭、武永成、董尚燕、张牧、吴际林、刘珊艳、余建国、方靖、庄小林。本文件于2017年5月首次发布。本文件实施应用中的疑问,可咨询荆门市行政审批局,联系电话:(0724)2376309,邮箱:;对本标准的有关修改意见建议请反馈至荆门市电子政务信息中心(荆门市大数据 中心),联系电话:(0724)2376119,邮箱:IIIDB4208/T 592024引 言党中央、国务院高度重视大数据发展。国务院促进大数据发展行动纲要明确指出要“建立标准 规范体系,
5、推进数据采集、政府数据开放、指标口径、分类目录、交换接口、访问接口、数据质量、数 据交易、技术产品、安全保密等关键共性标准的制定和实施。”荆门市以国家大数据战略为指导,遵循“务求实效、急用先行”的原则,首次制定五个大数据标准 规范。标准规范的制定,对建设荆门城市大数据中心,规范数据处理流程,满足大数据中心建设和管理 的需要,促进“智慧荆门”建设具有重要意义。五个标准规范包括荆门城市大数据术语、荆门城市大数 据采集规范、荆门城市大数据清洗规范、荆门城市大数据比对规范和荆门城市大数据共享规范。荆门城 市大数据术语分为总论、数据采集、数据清洗、数据比对、数据共享和应用服务六大类,规定了荆门城 市大数
6、据中心建设领域的术语和定义,其余四个标准规范则规定大数据中心数据采集、清洗、比对和共 享的总体框架和技术规范,涉及数据处理的整个流程:首先进行数据采集,然后通过数据整合(包括数 据清洗和数据比对),将整合成功的数据装载到公共基础信息库,根据需要提供数据共享。五个标准规范的制定是荆门市电子政务信息中心(荆门市大数据中心)和全市信息行业人员的共同 愿望,具有鲜明的地方特色和时代特征,填补了荆门市大数据技术应用领域的一项空白,在湖北省乃至 国内具有较高的参考利用价值和指导意义。标准规范在使用过程中还需要不断完善,其中未涉及到的内 容遵循相关国家标准。IVDB4208/T 592024荆门城市大数据采
7、集规范1范围本文件规定了荆门城市大数据中心数据采集过程中应遵循的原则和要求。本文件适用于荆门市大数据中心建设过程中数据采集的技术要求和规范。2规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 5271.17信息技术 词汇 第17部分:数据库GB/T 17532GB/I,20520GB/T 22239GB/T 25647GB/T 29262DB4208/T 58术语工作计算机应用词汇信息安全技术公钥基础设施时间戳规范 信息安全技术信息系统安全等级保护基本要求 电子政务
8、术语信息技术 面向服务的体系结构(SOA)术语 荆门城市大数据术语3术语和定义GB/T 5271.17.GB/T 17532.GB/T 20520、GB/T 25647、GB/T 29262和DB420800/T 58确立的以及下 列术语和定义均适用于本文件。为了便于使用,以下重复列出了上述标准中的某些术语和定义,未标明 引用的均出自DB4208/T 58O3.1元数据 metadata关于数据和数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和 数据易变性的数据。GB/T 5271.17-2010,定义 17.06.053.2分布式存储 distributed st
9、orage通过计算机网络将物理上分散的存储资源构成一个虚拟的存储设备,集中管理数据的一种存储方 式。3.3流式 stream1DB4208/T 592024利用非结构化的流数据实现的一种无需完全下载便可以浏览数据,即一边下载一边浏览的数据组织 方式。3.4中心汇聚库 center convergence database主要用于存储和管理来自源系统最新数据的数据库。其数据结构类似于源系统,数据按来源部门或 业务领域进行分类,一旦新的数据进入,则旧的数据就被置换。3.5大数据中心 big data center主要用于信息资源的存储和管理,可包括中心汇聚库、部门数据库、公共基础信息库等。3.6数
10、据映射data mapping在两个不同的数据模型之间,建立彼此数据元的对应关系,最终使数据格式满足大数据中心数据标 准的过程。3.7日志数据库log database存储和管理数据处理信息的数据库。如清洗日志数据库,用于记录清洗过程中依次执行的各种操作 和数据。3.8结构化数据structured data数据元素之间具有统一和确定关系的数据,可以存储在数据库里,采用二维表结构逻辑表达与实现,如关系数据库的数据表。3.9非结构化数据un-structured data数据元素之间没有统一和确定关系的数据,其数据组织方式比结构化数据灵活,如视频、音频、图 像、文本等。3.10半结构化数据 se
11、mi-structured data介于结构化数据和非结构化数据之间,一般是自描述的,数据结构和内容混合在一起的数据,如 HTML文档、电子邮件等。3.11社会舆情数据 public sentiment data2DB4208/T 592024体现社会民众在一定时间和范围内,对社会中出现的特定事件或现象发生、发展和变化过程中所持 社会政治态度、信念价值观、倾向性等数据。3.12ETL全称Extract Transformation Load,用来描述从数据源抽取(extract)所需的数据,经过预处理后,按照 预先定义的数据仓库模型进行转换(transform),最终加载(load)到数据仓库
12、的过程。3.13数据采集 data acquisition收集数据或将数据装入、存储在数据处理系统中的过程。GB/T 17532-2005,定义 7.33.14轮询 rollpolling对数据进行周期性查询采集的方式。如根据数据更新频率,定期向数据源提出采集要求,当数据准 备完毕则进行采集。3.15数据实时采集 data real-time acquisition保证低延迟与稳定可靠的数据采集方式。以日志数据为例,由于分布式集群的广泛应用,数据分散 存储在不同的机器上,因此需要实时汇总来自不同机器上的日志数据。3.16数据交换平台 data interchange platform数据提供方
13、和中心汇聚库之间以及数据提供方之间进行信息交换的管理系统,它是信息资源交换体 系的核心部分。3.17消息服务 message service为应用系统提供的,实现消息通信功能的运行环境和可配置的服务调用或支持。GB/T 25647-2010,附录 A 定义 A.1.243.18前置机 front-end system数据交换平台中与数据提供方进行信息交换共享的前置系统。3.19前置数据库 front-end database3DB4208/T 592024简称前置库,是数据提供方与数据交换平台之间共享信息双向交换的中转数据库。3.20API全称Application Program Inter
14、face,即应用程序编程接口,是一组定义、程序及协议的集合,通过相 关接口实现计算机软件之间的相互通信,主要作用是提供通用功能。3.21数据采集适配器 data acquisition adapter负责对多种信息资源类型采集适配的程序,包括数据库适配器、文件适配器、API适配器等。3.22数据接入方式 data access method数据提供方与数据交换平台之间进行数据对接的方式,包括数据库接入方式、文件接入方式、消息 接入方式等。3.23触发器trigger响应插入、更新或删除等数据库事件而执行的过程。它类似于函数,定义数据库相关事件发生时应 采取的动作。3.24时间戳time sta
15、mp使用数字签名技术产生的数据,签名的对象包括了原始文件信息、签名参数、签名时间等信息。TSA(时间戳机构)对此对象进行数字签名产生时间戳,以证明原始文件在签名时间之前已经存在。GB/T 20520-2006,定义 3.13.25全量抽取 total extraction将数据源中的数据原封不动地从数据库中抽取出来,转换成ETL工具可识别格式的一种数据采集方 式,类似于数据迁移或数据复制。3.26增量抽取 incremental extraction抽取自上次数据采集后,数据库表中变化数据的一种数据采集方式。在ETL使用过程中,增量抽取 比全量抽取应用更广泛。3.27数据抽取 data ext
16、raction4DB4208/T 592024从数据源中进行数据采集的过程,包括全量抽取和增量抽取。3.28Web 服务 Web service一种应用编程接口或Web应用编程接口,通过标准的规约进行定义、并通过标准进行访问和使用。注:Web服务是实现SOA的典型技术之一。GB/T 29262-2012,定义 2.574总体架构4.1 数据采集工作流程数据采集工作流程见图1所示。图1数据采集工作流程5DB4208/T 592024数据采集工作流程描述如下:a)主管部门向数据提供方和中心管理方发送数据采集通知,统筹协调数据采集前所涉及工作安 排;b)中心管理方对已确定的待采集数据做好采集实施准备
17、;0 中心管理方提供数据采集方案,与数据提供方在主管部门的协调下进行对接,并签署实施方案 保密协议;d)中心管理方开展数据采集,将采集的数据保存至中心汇聚库,同时对本次数据采集进行日志备 案,将备案内容保存至日志数据库。4.2 数据采集处理架构数据采集是将数据提供方的数据通过数据交换平台采集到中心汇聚库,实现对各种政务信息资源的 汇聚,数据采集处理架构见图2所示。数据受工作业务、信息化程度和安全性等多种因素的限制,形态 呈多样化,如数据库、文件、网页等。实施数据采集,应在保证数据质量的前提下,提高数据采集效率,同时对整个数据采集流程进行监管。数据提供方业务数据(数据库、文件、接口、曹等)孰据采
18、集批据采集引据采集忌务并黑总服务运学监控数据数据采数据采数据采集系统数据交换管理中心V务并V汇番图2数据采集处理架构数据交换平台可由数据采集系统、消息服务、数据交换管理中心、任务系统和运行与监控等部分组 成。4.2.1 数据采集系统数据交换管理中心将采集任务下发给数据采集系统后,各采集节点将确定的待采集数据抽取到前置 机的共享库。数据采集系统主要处理:数据的适配与采集,适配与采集任务的调度管理、任务执行与监 控,数据流监控及与消息服务的通信,中心汇聚处理。4.2.2 消息服务在数据采集过程中,消息服务是数据采集系统与数据交换管理中心的消息通道,实现数据交互。消 息服务可由消息传输服务集群和消息
19、代理服务组成。6DB4208/T 5920244.2.3 数据交换管理中心对数据采集过程和平台运行进行管理与监控,对信息交换基础支撑和数据分拣处理中心等方面进行 管理。数据交换管理中心是数据交换平台的核心。4.2.4 任务系统实现多节点或多线程的采集,对任务进行分片、分布式处理操作,是数据采集系统与数据交换管理 中心进行后台任务处理的支撑。可由调度计划管理、任务管理、分布式运行支撑组件、异常处理、日志 处理及对外调用接口等功能组成。4.2.5 运行与监控实现监控整个数据采集运行、事件报警与异常处理,包括对整个平台的监控、数据流向的监控、任 务处理的监控、日志分析、事件报警与异常处理等。4.3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 荆门城市大数据采集规范 DB4208T 59-2024 荆门城市大数据采集规范荆门市 DB4208 59 2024 荆门 城市 数据 采集 规范 荆门市
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【曲****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【曲****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。