《数据清洗》课件 第6章 数据转换与加载.pdf
《《数据清洗》课件 第6章 数据转换与加载.pdf》由会员分享,可在线阅读,更多相关《《数据清洗》课件 第6章 数据转换与加载.pdf(48页珍藏版)》请在咨信网上搜索。
1、数据清洗大数据应用人才培养系列教材第六章数据转换与加载6.1 数据清洗转换6.2 数据质量评估6.3 数据加载6.4 上机练习月实训 习题6.1数据清洗转换第六章数据转换与加载1.数据清洗确定数据清洗的规模,通常采取RDBMS和文本为清洗载体,常见的数据清洗范围包 含:缺失值清洗格式内容清洗逻辑错误清洗,6.1数据清洗转换第六章数据转换与加载(1).缺失值清洗在各类数据源系统中,缺失值的问题时常发生,在一定程度上,造成缺失值的原因在于 系统的不完备性和故障。具体原因较多,主要分为系统原因和人为原因确定范围计算源端数据中字段缺失值比例,之后根据缺失率和重要性分别制 定策略。对于重要性高和缺失率高
2、的数据,可采取数据从其他渠道 补全、使用其他字段计算获取和去掉字段,并在结果中制定策略进 行清洗;对于重要性高但缺失率较低的数据,可采取计算填充、经 验或业务知识估计等策略进行清洗;对于重要性低、缺失率高的数 据,可采取去除该字段的策略进行清洗;对于重要性低且缺失率低 的数据,可以不做处理,6.1数据清洗转换第六章数据转换与加载(1).缺失值清洗确定范围重要性高特征:重要性高,缺失率低 策略:1.通过计算进行填充2.通过经验或业务知识估计低特征:重要性低,缺失率低策略:不做处理或简单填充特征:重要性高,缺失率高策略:1.尝试从其他渠道取数补全2.使用其他字段通过计算获取3.去除字段,并在结果中
3、标明缺失率同I特征:重要性低,缺失率高策略:去除该字段低,6.1数据清洗转换第六章数据转换与加载(1).缺失值清洗去除重要性低的字段重要性低的字段,且缺失严重,可以采取将数据抽取 的结果放入一中间临时库中,在数据清洗之前,先备 份临时库数据,然后直接删除不需要的字段。填充缺失内容某些缺失值补齐采取一定的值去填充缺失项,从而使 数据完备化。通常基于统计学原理,根据决策表中其 余对象取值的分布情况来对一个空值进行填充,例如 用其属性的平均值来进行补充等,6.1数据清洗转换第六章数据转换与加载(2).格式内容清洗数据源系统若为业务系统,则该系统的数据通常由用户填 写,在用户填写数据的过程中,存在全角
4、输入、半角输入、空格符号、错误字段格式等错误时间日期格式清洗当采取多个源端整合数据时,因源端系统的不够严谨,采取 了字符串类型作为数据的存储类型,可能在不同的源中存储 日期、时间的格式不一,导致数据多源抽取到临时表后存在 不同的日期格式,从而导致目标系统无法应用,6.1数据清洗转换第六章数据转换与加载(2).格式内容清洗全角半角清洗全角指一个字符占用两个标准字符位置,半角指一字符占用 一个标准的字符位置。在数据采集时,时常因输入法设置问 题,将字母或者数字输入存储为全角格式。故在对数据进行 ETL操作时,需要进行全角和半角转换,6.1数据清洗转换第六章数据转换与加载(2).格式内容清洗不应有的
5、字符在源端系统中,数据采集时因人为原因可能存在一些数据不 应有的字符,例如身份证号码出现非数字和X的情况,中国 人的姓名出现西文字符、阿拉伯数字等情况。此类问题的解 决需要采取半自动+人工方式相结合进行清洗,6.1数据清洗转换第六章数据转换与加载(2).格式内容清洗重新取数某些指标非常重要又缺失率高,且存在其他数据源可以获取,可采取重新抽取不同数据源的数据进行关联对比清洗,6.1数据清洗转换第六章数据转换与加载(2).格式内容清洗内容与字段不匹配端系统同样存在数据与该数据的字段表达意义不符的现象,该类问题主要来源于源端业务系统的缺陷,6.1数据清洗转换第六章数据转换与加载(3).逻辑错误清洗排
6、重清洗数据排重是指在数据中查找和删除重复内容,而不会影响其 保真度或完整性。数据排重需要技巧,首先一定要有信息去 识别一条数据的唯一性,也就是类似数据库中的主键,如果 唯一性都无法识别,排重也就无所依据,6.1数据清洗转换第六章数据转换与加载(3).逻辑错误清洗去除不合理值不合理数据指在业务系统中收录的部分数据存在不合理性,例如一个大学生的实际年龄不能为5岁。一个员工的年龄也 不可能超过200岁,QQ信息上好友的年龄为0岁等,导致此 类问题的原因可能是业务系统操作失误,也有可能是用户为 进行信息隐藏而故意错填数据。对于不合理的数据,在数据 采集时,若该数据不是很重要,建议直接删除,否则需要进
7、行人工干预或者引入更多的数据源进行关联识别,6.1数据清洗转换第六章数据转换与加载(3).逻辑错误清洗修正矛盾内容源端系统在提供数据时,存在部分信息可以相互验证的校验,例如,在某教务系统中,教师任课的编号由学期+教工号+课程代码+序号构成,则该号码能够有效地验证当前教师任 课信息中的学期信息、教师信息、课程信息等。同理,身份证 号码也能够有效验证当前人员的出生年月,从而能够推算该人 员的年龄。源端数据存在矛盾且可以利用规则判定的情况,能够通过ETL 工具的规则设置进行查找发现脏数据,从而达到更加容易 清洗的目的,6.1数据清洗转换第六章数据转换与加载2.数据校验数据检验是在数据清洗转换过程中,
8、通过对转换的数据项增加验证约束,实现对数据转换过程的有效性验证。可能存在的数据验证方法有数据项规 则设置、数据类型检验、正则表达式约束检验、查询表检验等。对数据执 行检验后,ETL工具提供验证结果的输出。在Kettle中,可以在数据转换过程中增加数据检验(Data Validator)步骤来完成数据的有效性校验。)6.1数据清洗转换第六章数据转换与加载在Kettle中,可以在数据转换过程中增加数据检验(Data Validator)步 骤来完成数据的有效性校验。Kettle中的数据校验3日期类型验证,6.1数据清洗转换第六章数据转换与加载在Kettle中,可以在数据转换过程中增加数据检验(Da
9、ta Validator)步 骤来完成数据的有效性校验。Kettle中的数据校验4日期类型验证5正则表达式验证,6.1数据清洗转换第六章数据转换与加载3.错误处理数据错误是指数据在转换过程中出现数据丢失、数据失效和数据的完整性 被破坏等问题。数据出现错误的原因五花八门,有存储设备的损坏、电磁 干扰、错误的操作、硬件的故障等。造成的后果就是会增加大量无用数据 甚至会造成系统瘫痪。因此,人们采取各种手段对数据转换进行优化,尽 可能避免错误产生,6.1数据清洗转换第六章数据转换与加载(1).转换过程错误在设计ETL过程中,存在一些设计未对转换过程进行错误处理,进而造成 ETL执行完成后,目标端的数据
10、未能按照约定数据标准进行组织存储,从 而导致脏数据进入目标端。转换过程错误是在执行ETL过程中发生的 转换错误,该错误一旦发生,应该进入错误处理环节,终止ETL转换,保 证进入目标系统的数据干净可靠。-自GSTART 转换一麴身银0由 中止作业转建1 转换26 6DUMMY中止作业1 中止作业2,6.1数据清洗转换第六章数据转换与加载例63设置定义错误处理作为错误处理方式(1”曾加Exce输出,重命名为Exce忤昔误输出”。(2)在表输出步骤上通过右键快捷菜单选择定义错误处理命令(如图6-17所示),打开步骤错误处理设置对话框获取变量新建节点连接 表编辑步骤编辑步骤描述日志:二步骤度量性能图
11、匡Metrics Preview data)0雌辘改变开始复制的数量复制到剪贴板 CTRL-C复制步骤删除步骤 DEL隐藏步骤分离步骤显示输入字段显演出字段Sniff Test During Execution费日日日志通道日志表|Metrics log table1 检查所选步骤)状态 读 写 更新 输入 输出 舍弃 错 定义错误处理Preview.对弁/分散Data Services根据目标步骤生成映射分区集群.)6.1数据清洗转换第六章数据转换与加载例63设置定义错误处理作为错误处理方式(3)设置步骤错误处理设置对话框的参数,指定目标步骤为 Exce忤昔误输出,并选中启用错误处理?复选框
12、,指定相关的错误字段值,6.1数据清洗转换第六章数据转换与加载例63设置定义错误处理作为错误处理方式(4)指定了Exce忤昔误输出后,表输出中遇到的错误就会直接转存到 Exce输出,除了在步骤错误处理设置中指定的字段名之外,表输出 中的字段名也会一并加入Exce输出中-获取变量I回表输入Excel错误输出,6.1数据清洗转换第六章数据转换与加载(2).转换数据错误所谓数据转换,从计算机审计的需求来讲,主要包括两个方面的内容:一 是将被审计单位的数据有效地装载到审计软件所操纵的数据库中;二是明 确地标识出每张表、每个字段的具体含义及其相互之间的关系。而转换数 据错误则出现在数据转换过程中,要想实
13、现严格的等价转换是比较困难的。两种模型在数据转换的过程中会出现各种语法和语义上的错误。命名错误:源端数据源的标识符可能是目的数据源中的保留字。格式错误:同一种数据类型可能有不同的表示方法和语义差异。结构错误:如果两种数据库之间的数据定义模型不同,如为关系模 型和层次模型,则需要重新定义实体属性和联系,以防止属性或联 系信息、的丢失。荽统输吴:不由数据库的同一种数据类型存在精度之间的差异。,6.1数据清洗转换第六章数据转换与加载(2).转换数据错误对于以上数据转换中的错误,可进行相应的处理。对于命名错误,可以先检查数据源中的保留字,建立保留字集合,对于保留字中的命名冲突,根据需要重新命名。对于格
14、式错误,可以从数据源的驱动程序中取出相对应的数据源的 数据类型后,对一些特定的类型进行特殊的处理。对于不同数据库的同一数据类型的精度冲突,类型转换中将类型和 精度结合起来决定源端数据类型和目标数据类型的映射关系。找出 目的数据源中与源端数据源类型的精度最匹配的数据类型作为默认 的映射关系。,6.1数据清洗转换第六章数据转换与加载(3).数据错误数据错误是数据工作者需要注意的指标之一,因为数据错误能导致完全错 误的分析结果。处理数据错误的方法取决于错误出现的原因。数据输入错误:人工在数据收集、记录、输入造成的错误,可能会成为数据中的异常值。测量误差:当使用错误的测量仪器测量时,通常会出现异常值。
15、数据处理错误:当进行数据分析时,错误的数据处理操作可能会造 成异常值。,6.1数据清洗转换第六章数据转换与加载(4).错误处理针对数据错误的处理方法是在转换环节增加数据检验,在执行数据检验过 程中,当检验错误发生时,可以采取如下方法进行错误处理:删除错误数据:如果数据错误是由于数据输入错误、数据处理错误 或数据错误数目很少造成的,可以采取直接删除错误数据的方式处 理。错i吴数据替换:类似于替换缺失值,我们也可以替换错误数据。可 以使用均值、中位数、众数替换方法。分离对待:如果数据错误的数目比较多,在统计模型中我们应该对 它们分别处理。一个处理方法是异常值一组,正常值一组,然后分 别建立模型,最
16、后对结果进行合并。大数据应用人才培养系列教材第六章数据转换与加载6.1 数据清洗转换6.2 数据质量评估6.4 上机练习与实训习题 6.2数据质量评估第六章数据转换与加载1.数据质量评估数据质量是保证数据应用的基础,我们提出了一些数据质量的评估指标。在进行数 据质量评估时,要根据具体的数据质量评估需求对评估指标进行相应的取舍。完整性2一致性3准确性及时性 6.2数据质量评估第六章数据转换与加载2审计数据审计数据就是对被审计单位的数据进行采集、预处理以及分析,从而发现审计线 索,获得审计证据的过程。审计数据有多种不同的处理方法数据查询审计抽样统计分析数值分析大数据应用人才培养系列教材第六章数据转
17、换与加载6数据清洗转换6.2 数据质量评值6.3 数据加载6.4 上机练习巨实训习题,6.3数据加载第六章数据转换与加载1.概念数据加载是继数据抽取和转换清洗后的一个阶段,它负责将从数据源中抽 取加工所需的数据,经过数据清洗和转换后,最终按照预定义好的数据仓 库模型,将数据加载到目标数据集市或数据仓库中去,可实现SQL或批量 加载。大多数情况下,异构数据源均可通过SQL语句进行insert、update.delete操作。而有些数据库管理系统集成了相应的批量加载方法,如SQL Server的bcp、bulk等,Oracle的sqlldr,或使用Oracle的plsql工具中的 import完成
18、批量加载。大多数情况下会使用SQL语句,因为这样导入有 日志记录,是可回滚的。但是,批量加载操作易于使用,并且在加载大量 数据时效率较高。当异构数据源浮中类繁多,且数据仓库模型复杂时,使用专业的ETL工具 必将事半功倍。,6.3数据加载第六章数据转换与加载2.数据加载方式与数据抽取方式类似,在数据加载到目标数据集市或数据仓库过程中,分 为全量加载和增量加载。全量加载是指全表删除后再进行全部(全量)数 据加载的方式;而增量加载是指目标表仅更新源表变化(增量)的数据。增量抽取机制比较适用于以下特点的数据表:数据量巨大的目标表。源表变化数据比较规律,例如按时间序列增长或减 少。源表变化数据相对数据总
19、量较小。目标表需要记录过期信息或者冗余信息。业务系统能直接提供增量数据。,6.3数据加载第六章数据转换与加载3.批量数据加载每种数据库都有自己的批量加载方法,Kettle为大多数DBMS如Oracle、MySQL、MS SQL Server等提供了批量加载方法。MySQL的批量加载MySQL是Kettle支持的从数据库批量加载到文件的DBMS。Kettle提供两个组件实现批量加载功能,一个是通过作业项把 文本文件批量加载到数据库,另外一个是转换里的批量加载 步骤。Oracle的批量加载Kettle的Oracle批量加载工具采用SQL loader,该组件功能 复杂,需要配置较多的参数,同时也需
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据清洗 数据清洗课件 第6章 数据转换与加载 数据 清洗 课件 转换 加载
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【曲****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【曲****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。