DB5120T 19.3-2023数据资源体系技术指南 第3部分:数据清洗加工规范.docx
《DB5120T 19.3-2023数据资源体系技术指南 第3部分:数据清洗加工规范.docx》由会员分享,可在线阅读,更多相关《DB5120T 19.3-2023数据资源体系技术指南 第3部分:数据清洗加工规范.docx(12页珍藏版)》请在咨信网上搜索。
1、ICS 35.040CCS L 71DB5120四 川 省 ( 资 阳 市 ) 地 方 标 准DB5120/T 19.32023数据资源体系技术指南 第 3 部分:数据清洗加工规范2023 - 12 - 22 发布2023 - 12 - 29 实施资阳市市场监督管理局发 布DB5120/T 19.32023目次前言II1 范围12 规范性引用文件13 术语和定义14 缩略语15 清洗目的26 管理职责27 清洗流程28 具体操作2附录 A(规范性) 典型业务数据清洗规则表7参考文献8I前言本文件按照 GB/T 1.12020标准化工作导则 第1部分:标准化文件的结构和起草规则的规定起草。请注意
2、本文件的某些内容可能涉及专利,本文件的发布机构不承担识别这些专利的责任。 本文件由资阳市政务服务和大数据管理局提出并归口。本文件由资阳市市场监督管理局批准并发布。本文件起草单位:资阳市大数据服务中心、资阳数智科技有限公司。本文件主要起草人:刘桄序、戢培全、邵柏华、袁嘉、刘光乾、杨建康、张亚琴、李爱民、刘西北、 郑雪梅、邓森林、彭国林、陈杜宇、杨通、李强、夏荣、张润泽、任良华、冷耀 、陈熙。本文件为首次发布。II数据资源体系技术指南第 3 部分:数据清洗加工规范1 范围本文件规定了资阳市域数据清洗加工相关术语和定义、缩略语、清洗目的、管理职责、清洗流程、 具体操作等工作规范。本文件适用于资阳市域
3、政务组织、非政务组织和个人信息资源数据清洗加工。2 规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T5271.1信息技术 词汇 第 1 部份:基本术语GB/T11457信息技术 软件工程术语GB/T18492信息技术 系统及软件完整性级别GB/T22032系统工程 系统生存周期过程GB/T25000系统与软件工程(所有部分)GB/T29264信息技术服务 分类与代码GB/T35295信息技术 大数据 术语GB/T 36625.3 智慧城
4、市 数据融合 第 3 部分:数据采集规范GB/T 38667 信息技术 大数据 数据分类指南GB/T 40094.2 电子商务数据交易 第 2 部分:数据描述规范GB/T 42450 信息技术 大数据 数据资源规划DB51/T 3056 政务数据 数据分类分级指南3 术语和定义GB/T 5271.1、GB/T 11457、GB/T 18492、GB/T 25000、GB/T 29264、GB/T 35295、GB/T 36625.3、GB/T 38667、GB/T 40094.2、GB/T 42450、DB51/T 3056界定的以及下列术语和定义适用于本文件。3.1数据清洗加工 data c
5、leaning and processing运用一定方法修正识别的数据问题,转化为满足数据质量要求或应用要求的数据的过程。4 缩略语下列缩略语适用于本文件。ETL:数据的抽取、转换和加载(Extract Transform Load)15 清洗目的数据清洗的目的是为了通过纠正不符合要求的数据来提高数据质量,满足数据质量标准要求。其中 不符合要求的数据主要有三类:a) 残缺数据:缺一些记录,或一条记录里缺一些值(空值),或两者都缺。b) 错误数据:数据没有严格按照规范记录,包括格式内容错误、逻辑错误、不合规等。 c)重复数据:出现多条相同的记录或多条记录代表同一实体。6 管理职责数据提供方:a)
6、数源单位需要参与数据清洗规则和错误处理策略的制定。b)数源单位需要参与数据转换规则的制定。c)数源单位针对重要数据缺失的错误,需要凭借业务经验对缺失数据进行补全。 数据管理方:a)数据管理方需要参与数据清洗规则和错误处理策略的制定。b)数据管理方需要参与数据转换规则的制定。7 清洗流程资阳市数据资源中心的数据清洗加工采用 ETL 架构的清洗流程,流程如附录 A 所示。8 具体操作8.1 定义规则分析抽取目标数据的范围体量、类型、内容、关系、质量等信息,全面识别数据情况。以需求为导向、应用为目标,考虑目标数据资源特点和工作复杂程度,结合业务要求或用户和其他 相关方的需求、期望,定义切实可操作的数
7、据清洗加工目标及规则。8.2 数据过滤数据过滤的任务是过滤那些不符合要求的数据,数据过滤包括以下操作:a)将非结构化和半结构化数据转化为结构化数据。b)对噪声数据进行删除。c) 对业务数据中不符合应用规则的数据进行删除。d) 过滤删除掉的数据应存入问题数据库表,便于后续查证或重新使用。注:噪声数据指存在错误或异常的数据,这些数据对数据的分析造成了干扰。8.3 数据检核8.3.1 检核要求数据检核应包括以下操作:a)非空检核:应在字段为非空的情况下,对该字段数据进行检核,数据不能为空值。 b)长度检核:数据长度应满足转换要求的字段长度。c)数据量检核:过滤后的数据总量应与原始抽取的数据总量吻合。
8、2d)数据类型和数据值检核:数据类型和值应能支持后续数据转换过程,如后续根据定义规则需要将时间字符串数据转换成时间类型时,还需检核时间字符串类型的数据,应符合时间格式。8.3.2 检核步骤数据检核步骤如下:a) 按检核要求检核数据资源是否满足要求。b) 当不满足检核要求时,应进行数据错误标识和错误处理。c)当满足检核要求时,直接进行数据转换。8.4 错误标识8.4.1 识别方法可采用统计学方法、数据挖掘方法、基于聚类的方法、基于距离的方法、基于分类的方法、基于关 联规则的方法、业务区分等方式分析数据,从而识别出数据的错误类型。8.4.2 标识步骤错误标识步骤如下:a)按识别方法推荐的方法,分析
9、筛选出数据资源中存在的数据问题。 b)按错误的类型,对数据问题进行分类并标识错误。8.5 错误处理8.5.1 由数源单位进行错误处理的情况,建议数源单位在业务系统中更正数据,并把更正后的数据更 新推送到前置库。8.5.2 残缺数据处理a) 处理策略按照字段缺失比例和字段重要性,分别制定策略:a) 对重要性高、缺失率高的残缺数据,采用以下策略: 1)尝试从其他渠道取数据补全;2) 使用其他字段通过计算获取;3) 去除该字段,并在结果中标明。b) 对重要性低、缺失率高的残缺数据,去除该字段。c)对重要性高、缺失率低的残缺数据,采用以下策略:1) 通过计算进行填充;2) 通过经验或业务知识估计。d)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB5120T 19.3-2023数据资源体系技术指南 第3部分:数据清洗加工规范 19.3 2023 数据 资源 体系 技术 指南 部分 清洗 加工 规范
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Fis****915】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Fis****915】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。