《R语言》课件 第6章 数据探索.pdf
《《R语言》课件 第6章 数据探索.pdf》由会员分享,可在线阅读,更多相关《《R语言》课件 第6章 数据探索.pdf(35页珍藏版)》请在咨信网上搜索。
1、大数据应用人才培养系列教材第六章数据探索6.1 缺失值分析6.2 异常值分析6.3 不一致数据分析6.4 统计分析 习题6.1缺失值分析第六章数据探索在建模之前,可以通过数据探索来获得关于数据的基本认识。数据探索可以帮助我们了解数据的形状,数据的边界(最值),数 值特性和散布程度,发现有问题的数据,缺失的数据,噪声,有偏 的分布。数据探索是数据分析项目的基本步骤之一,通过探索得到的数 据变量概括和可视化的图形结果,让我们对数据集有一个基本的理 解,并选定合适的变换工具做进一步的分析。6.1缺失值分析第六章数据探索与缺失值相关的几个概念(DFLASE(假)FALSE表示逻辑假,是存在的真实值。计
2、算时FALSE被当做0。(2)NA(缺失值)NA表示数据集中的该数据遗失、不存在。在针对具有NA的数据集 进行函数操作的时候,该NA参与运算,如。x-c(l/2,3,NA,4);mean(x)1 NA如果想去除NA的影响,需要显式告知mean方法,如 mean(xzna.rm=T)o(3)NULLNULL表示未知的状态,它不会在计算之中。例如,x irissample(l:nrow(iris)z 6),1 dim(iris)#查看它的样本数和变量数1 150 5sum(complete.cases(sleep)#查看完整样本个数library(VIM)xcolnames(x)aggr(x)#缺
3、失值可视化6.1缺失值分析第六章数据探索I(X缺失值检测 1AAS S U O A E W q E。AAQ.IdAAS-_ co。soEo000 S6WSS-E JO uotodoQ-大数据应用人才培养系列教材第六章数据探索6.1 缺失值分析6.2 异常值分析63不一致数据分析6.4 统计分析 习题 6.2异常值分析第六章数据探索异常值(离群点)是指测量数据中的随机错误或偏差,包 括错误值或偏离均值的孤立点值。在数据处理中,异常值会极 大的影响回归或分类的效果。为了避免异常值造成的损失,需要在数据预处理阶段进行 异常值检测。另外,某些情况下,异常值检测也可能是研究的 目的,如数据造假的发现、电
4、脑入侵检测等。6.2异常值分析第六章数据探索箱线图检测离群点在一条数轴上,以数据的上下四分位数(Q1-Q3)为界画一个 矩形盒子(中间50%的数据落在盒内);在数据的中位数位置 画一条线段为中位线;默认延长线不超过盒长的1.5倍,延长 线之外的点认为是异常值(用。标记)。6.2异常值分析第六章数据探索箱线图检测离群点检测数据的异常值使用函数是553$()函数实现,数据 仍采用622节数据,执行如下代码得到下图。yboxplot(xz2)#绘制箱线图想查看具体的异常值,执行如 下代码:y$out1 4.4 4.1 4.2 2.0想查看置信区间,执行如下代码:y$conf1 2.9 3.1 6.2
5、异常值分析第六章数据探索散点图检测离群点#寻找a为异常值的坐标位置aa1 16 33 34 61#寻找b为异常值的坐标位置bb1 132dfplot(df)#绘制x,y的散点向p2points(dfp2l,col=red,pch=,x,cex=2)#标记异常值 6.2异常值分析第六章数据探索散点图检测离群点 6.2异常值分析第六章数据探索 LOF方法检测异常值局部异常因子法(LOF法),是一种基于概率密度函数识别异 常值的算法。LOF算法只对数值型数据有效。算法原理:将一个点的局部密度与其周围的点的密度相比较,若前者明显比后者小(LOF值大于1),则该点相对于周围的点来 说就处于一个相对比较稀
6、疏的区域,这就表明该点是一个异常值。R语言实现:使用DMwR包中的函数lofactor(),基本格式为:lofactor(data k)其中,data为戴值型数据集;k为用于计算局部异常因子的邻 居数量。6.2异常值分析第六章数据探索 LOF方法检测异常值 library(DMwR)out.scores plot(density(out.scores)#绘制LOF值的概率密度图(如图6.5)#LOF值排前6的数据作为异常值,提取其样本号 order(out.scores,decreasing=TRUE)l:61 33 9 11 45 20 34 6.2异常值分析第六章数据探索 LOF方法检测异
7、常值density.default(x=out.scores)N=50 Bandwidth=0.0218 6.2异常值分析第六章数据探索聚类方法检测异常值通过聚成类,将那些不属于任何一类的数据作为异常值。执 行如下代码,得到如图6.6。kk$cluster#输出聚类结果#centers返回每个样本对应的聚类中心样本 centers#计算每个样本到其聚类中心的距离distances#找到距离最大的6个样本,认为是异常值out out#异常值的样本号1 118 119 123 99 132 94大数据应用人才培养系列教材第六章数据探索6;缺失值分析6ZT常分析6.3 不一致数据分析6.4 统计分析
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- R语言 R语言课件 第6章 数据探索 语言 课件 数据 探索
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【曲****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【曲****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。