分享
分销 收藏 举报 申诉 / 35
播放页_导航下方通栏广告

类型《R语言》课件 第6章 数据探索.pdf

  • 上传人:曲****
  • 文档编号:231518
  • 上传时间:2023-03-21
  • 格式:PDF
  • 页数:35
  • 大小:1.03MB
  • 下载积分:15 金币
  • 播放页_非在线预览资源立即下载上方广告
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    R语言 《R语言》课件 第6章 数据探索 语言 课件 数据 探索
    资源描述:
    大数据应用人才培养系列教材第六章数据探索6.1 缺失值分析6.2 异常值分析6.3 不一致数据分析6.4 统计分析 习题6.1缺失值分析第六章数据探索在建模之前,可以通过数据探索来获得关于数据的基本认识。数据探索可以帮助我们了解数据的形状,数据的边界(最值),数 值特性和散布程度,发现有问题的数据,缺失的数据,噪声,有偏 的分布。数据探索是数据分析项目的基本步骤之一,通过探索得到的数 据变量概括和可视化的图形结果,让我们对数据集有一个基本的理 解,并选定合适的变换工具做进一步的分析。6.1缺失值分析第六章数据探索与缺失值相关的几个概念(DFLASE(假)FALSE表示逻辑假,是存在的真实值。计算时FALSE被当做0。(2)NA(缺失值)NA表示数据集中的该数据遗失、不存在。在针对具有NA的数据集 进行函数操作的时候,该NA参与运算,如。x-c(l/2,3,NA,4);mean(x)1 NA如果想去除NA的影响,需要显式告知mean方法,如 mean(xzna.rm=T)o(3)NULLNULL表示未知的状态,它不会在计算之中。例如,x irissample(l:nrow(iris)z 6),1 dim(iris)#查看它的样本数和变量数1 150 5sum(complete.cases(sleep)#查看完整样本个数library(VIM)xcolnames(x)aggr(x)#缺失值可视化6.1缺失值分析第六章数据探索I(X缺失值检测 1AAS S U O A E W q E。AAQ.IdAAS-_ co。soEo000 S6WSS-E JO uotodoQ-大数据应用人才培养系列教材第六章数据探索6.1 缺失值分析6.2 异常值分析63不一致数据分析6.4 统计分析 习题 6.2异常值分析第六章数据探索异常值(离群点)是指测量数据中的随机错误或偏差,包 括错误值或偏离均值的孤立点值。在数据处理中,异常值会极 大的影响回归或分类的效果。为了避免异常值造成的损失,需要在数据预处理阶段进行 异常值检测。另外,某些情况下,异常值检测也可能是研究的 目的,如数据造假的发现、电脑入侵检测等。6.2异常值分析第六章数据探索箱线图检测离群点在一条数轴上,以数据的上下四分位数(Q1-Q3)为界画一个 矩形盒子(中间50%的数据落在盒内);在数据的中位数位置 画一条线段为中位线;默认延长线不超过盒长的1.5倍,延长 线之外的点认为是异常值(用。标记)。6.2异常值分析第六章数据探索箱线图检测离群点检测数据的异常值使用函数是553$()函数实现,数据 仍采用622节数据,执行如下代码得到下图。yboxplot(xz2)#绘制箱线图想查看具体的异常值,执行如 下代码:y$out1 4.4 4.1 4.2 2.0想查看置信区间,执行如下代码:y$conf1 2.9 3.1 6.2异常值分析第六章数据探索散点图检测离群点#寻找a为异常值的坐标位置aa1 16 33 34 61#寻找b为异常值的坐标位置bb1 132dfplot(df)#绘制x,y的散点向p2points(dfp2l,col=red,pch=,x,cex=2)#标记异常值 6.2异常值分析第六章数据探索散点图检测离群点 6.2异常值分析第六章数据探索 LOF方法检测异常值局部异常因子法(LOF法),是一种基于概率密度函数识别异 常值的算法。LOF算法只对数值型数据有效。算法原理:将一个点的局部密度与其周围的点的密度相比较,若前者明显比后者小(LOF值大于1),则该点相对于周围的点来 说就处于一个相对比较稀疏的区域,这就表明该点是一个异常值。R语言实现:使用DMwR包中的函数lofactor(),基本格式为:lofactor(data k)其中,data为戴值型数据集;k为用于计算局部异常因子的邻 居数量。6.2异常值分析第六章数据探索 LOF方法检测异常值 library(DMwR)out.scores plot(density(out.scores)#绘制LOF值的概率密度图(如图6.5)#LOF值排前6的数据作为异常值,提取其样本号 order(out.scores,decreasing=TRUE)l:61 33 9 11 45 20 34 6.2异常值分析第六章数据探索 LOF方法检测异常值density.default(x=out.scores)N=50 Bandwidth=0.0218 6.2异常值分析第六章数据探索聚类方法检测异常值通过聚成类,将那些不属于任何一类的数据作为异常值。执 行如下代码,得到如图6.6。kk$cluster#输出聚类结果#centers返回每个样本对应的聚类中心样本 centers#计算每个样本到其聚类中心的距离distances#找到距离最大的6个样本,认为是异常值out out#异常值的样本号1 118 119 123 99 132 94大数据应用人才培养系列教材第六章数据探索6;缺失值分析6ZT常分析6.3 不一致数据分析6.4 统计分析 习题6.3不一致数据分析第六章数据探索作为一位数据分析人员,应当警惕编码使用的不一致问题 和数据表示的不一致问题,如格式不一致(日期“2018/05/25 和25/05/2018)、类型不一致、命名不 一致等。编而不一致和数据表示不一致的问题通常需要人工检测,当发现一定规律时可以通过编程进行替换和修改。若存在不一 致的数据是无意义数据,可以使用缺失值处理方法进行相应处 理。数据矛盾(不一致)还可能是由于被挖掘的数据来自不同 的数据源,对于重复存放的数据未能进行一致性更新造成的,类似于数据库参照完整性。例如,两张表中都存放了用户电话 号码,但在用户的电话号码发生给变时,只更新了一张表中的 数据,那么这两张表就有了不一致的数据。这要借助数据库的 完整性理论。大数据应用人才培养系列教材第六章数据探索6.1 缺失值分析6.2 异常值分析6.3 不一致数据分析6.4 统计分析习题 6.4统计分析第六章数据探索分布分析Q)定量数据的分布分析方法1:直方图将数据取值的范围分成若干等距区间,考察数据落入每一区间 的频数与频率,在每个区间上画一个矩形,它的宽度是组距,它的高度可以是频数,这种直方图可以估计总体的概率密度。在R语言中,使用hist()函数画出样本的直方图。方法2:核密度图与直方图相配套的是核密度图,其目的是用已知样本,估计其 密度,执行下面代码得到图6.6。set.seed(1234)xhist(x,breaks=10,freq 二 FALSE,col=gray)lines(density(x)zcol=redzlwd=2)6.4统计分析第六章数据探索分布分析Histogram of x 6.4统计分析第六章数据探索分布分析方法3:茎叶图与直方图比较,茎叶图更能细致地看出数据分布结构。R语言中使用 stem。函数绘制茎叶图,如:stem(islands)The decimal point is 3 digit(s)to the right of the|0 000000000000000000000000000001111112223382 074 6 85 8 410 5121416 0在茎叶图中,纵轴为测定数据,横轴为数据频数,数据的十分位表示 茎,作为纵轴的刻度;个位数作为叶,显示频数的个数,作用 与直方图类似。6.4统计分析第六章数据探索分布分析(2)定性数据的分布分析对于定性变量,常常根据分类变量来分组,可以采用饼图 来描述定性变量的分布。饼图的每一个扇形部分代表每一类型的百分比或频数,根 据定性变量的类型数目将饼形图分成几个部分,每一部分的大 小与每一类型的频数成正比。6.4统计分析第六章数据探索对比分析对比分析原理数据的趋势变化独立的看,其实很多情况下并不能说明问 题,比如如果一个企业盈利增长10%,我们并无法判断这个企 业的好坏,如果这个企业所处行业的其他企业普遍为负增长,则5%很多,如果行业其他企业增长平均为50%,则这是一个 很差的数据。对比分析,就是给孤立的数据一个合理的参考系,否则孤 立的数据毫无意义。6.4统计分析第六章数据探索对比分析(2)常用对比分析方法同比。同比(year-on-year)就是今年第n月与去年第n 月比,即同期相比。同比发展速度主要是为了消除季节变动的 影响,用以说明本期发展水平与去年同期发展水平对比而达到 的相对发展速度。如,本期2月比去年2月,本期6月比去年6月 等。其计算公式为:(本期数-同期数)/|同期数|xl00%。环比。年报的同比分析就是用报告期数据与上期或以往 几个年报数据进行对比。它可以告诉投资者在过去一年或几年 中,上市公司的业绩是增长还是滑坡。但是,年报的同比分析 不能揭示公司最近6个月的业绩增长变动情况,而这一点对投 资决策更富有指导意义。6.4统计分析第六章数据探索对比分析定基比。定基比的算法是环比指数的乘积,比如你要求 2012年8月的定基比,那么,你就要知道2012年1-8月份的环 比指数,然后得出的乘积就是定基比,别忘了。三者之间关系。统计指标按其具体内容、实际作用和表 现形式可以分为总量指标(同比)、相对指标(环比)和平均 指标(定基比)。同比和环比,这两者所反映的虽然都是变化 速度,但由于采用基期的不同,其反映的内涵是完全不同的;一般来说,环比可以与环比相比较,而不能拿同比与环比相比 较;而对于同一个地方,考虑时间纵向上发展趋势的反映,则 往往要把同比与环比放在一起进行对照。6.4统计分析第六章数据探索对比分析对比的参照物不同,得到的判断结论也就不同孩子考试考了95分,家长很高兴,因为知道满分是100分,有参照物。最近一次考试考了80分,家长会发火,因为过去的 95分成了新参照物。后来一问,发现这次卷子出难了,孩子已 经是班级第一了,就又转怒为喜,这里其他孩子就成了参照物。6.4统计分析第六章数据探索统计量分析Q)集中趋势度量均值中位数众数(2)离中趋势度量极差标准差变异系数四分位数间距 6.4统计分析第六章数据探索周期性分析周期性分析是探索某个变量是否随着时间变化而呈现出某 种周期变化趋势。时间尺度相对较长的周期性趋势有年度周期 性趋势、季节周期性趋势,相对较短的有月度周期性趋势、周 度周期性趋势,甚至更短的天、小时周期性趋势。例如,要对某单位用电量进行预测,可以先分析该用电单 位日用电量的时序图,以此来直观地估计其用电量变化趋势。6.4统计分析第六章数据探索相关分析(1)相关系数y(国 一三)(筋一 y)i=1 6.4统计分析第六章数据探索相关分析(2)相关分类完全正线性相关完全负线性相关大数据应用人才培养系列教材第六章数据探索6缺失值分析6:2异常值分析62不一致数强分析6.4统计分析习题习题:1.判断是否有缺失值的函数是_O2.对于缺失数据通常有三种应付手段:_和_o3.检测数据的异常值是使用函数_;如何判定离群?4 在田五中 诵堂他田 东画,右图5:当对赢进彳亍批量操南厂可以通过痣ii数返回值进行约束,根据是否提 示错误判断、是否存在数据不一致问题,可以通过_函数。感谢聆听
    展开阅读全文
    提示  咨信网温馨提示:
    1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
    5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

    开通VIP折扣优惠下载文档

    自信AI创作助手
    关于本文
    本文标题:《R语言》课件 第6章 数据探索.pdf
    链接地址:https://www.zixin.com.cn/doc/231518.html
    页脚通栏广告

    Copyright ©2010-2025   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:0574-28810668    微信客服:咨信网客服    投诉电话:18658249818   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   


    关注我们 :微信公众号  抖音  微博  LOFTER               

    自信网络  |  ZixinNetwork