1、大数据应用人才培养系列教材第一章绪论1.1 为什么学习R语言1.2 正确的数据思维观 习题G)l.l为什么学习R语言第一章绪论 R是什么随着我们数据分析能力的不断提升,Excel渐渐无法满足 日常需求,我们需要更专业化的软件来帮助我们做数据分析。相应的问题就来了:统计学软件那么多:SPSS、R、Python.SAS、JMP、Matlab该选哪一个?目前市场上较为火热 的软件是R和Python。R语言是在统计和数据科学界广泛应用的编程语言和开发 环境,其免费、开源、灵活的特点与统计之都的文化不谋而 合。2008年起,统计之都在中国人民大学举办了第一届中国 R语言会议。自此R语言会议规模越来越大,
2、至今已成功举办 了 11 届。G)l.l为什么学习R语言第一章绪论 2014年数据分析 常用语言排行榜What programmingstatistics languages you used for an analytics I data mining I data science work in 2014?Language usedR(352 voters in 2014)%voters in 2014(719 total)%voters in 2013(713 total)%voters in 2012(579 total)49.0%60.9%52.5%SAS(262)Python(25
3、2)SQL(220)72.4%8.8%35.0%38.8%36.1%30.6%36.6%32.1%Java(89)Unix shell/awk/sed(63)Pig Latin/Hive/other Hadoop-based languages(61)SPSS(58)11.1%14.7%MATLAB(45)Scala(28)not asked notasked 63%3.9%2.2%2.4%3.6%C/C+(26G)l.l为什么学习R语言第一章绪论 R语言主要优势(1)作图美观,完全免费g 0 D Ucu2)o 4*电4:A ui.A 6a AqO 一0.r 81磅。O85 o cnoofac
4、tortvt)factor(cyl)G)l.l为什么学习R语言第一章绪论 R语言主要优势(2)算法覆盖广,软件扩展易作为统计分析工具,R语言几乎覆盖整个统计领域的前沿 算法。截止2017年2月 25 日,CRAN(Comprehensive R Archive Network)上已经有10162个可以获取的R扩展包,并且以每个月200多个包的速度发布,内容涉及各行各业,可 以适用于各种复杂的统计,如:贝叶斯推断、分类方法、计量 经济学、生态学、金融学、遗传学、机器学习、稳健统计、空 间统计、生存分析、时间序列等多个方面。数千个R包,上万 种算法,开发者都能找到可直接调用的函数实现。G)l.l为
5、什么学习R语言第一章绪论 R语言主要优势(3)算法覆盖广,软件扩展易G)l.l为什么学习R语言第一章绪论 R语言主要优势(4)强大的社区支持作为一个开源软件,R背后有一个强大的社区和大量的 开放源码支持,获取帮助非常容易。比如国外比较活跃的社区有GitHub和Stack Overflow等,通常R包的开发者会先将代码放到GitHub,接受世界各地的使用者提出问题,然后修改代码,等代码 成熟后再放到C RAN上发布。国内最活跃的R社区就属统计之都以及统计之都旗下的 COS论坛了。G)l.l为什么学习R语言第一章绪论 R语言主要优势(5)非过程模式Python虽然也支持命令模式,但是相对来说,更偏
6、向 于流程控制语句,也就是可以写一堆语句,然后执行。R本 身基本上不需要用到流程控制(当然,它也支持流程控 制)。G)l.l为什么学习R语言第一章绪论 R语言主要优势(6)交互性敲回车,出结果。但是又不像SPSS那种用鼠标扎针的 交互方式。大数据应用人才培养系列教材第一章绪论1.1 为什么学习R语言1.2 正确的数据思维观习题 1.2正确的数据思维观第一章绪论数学思维数学思维一方面体现在它的方向性,另一个重要特征是客观 性。数学思维它能够帮助你摒弃主观的偏见与看法。诸如遇到突 发事件能在第一时间冷静下来,抛去恐慌的情绪;对自己喜欢的 项目客观分析,不对数据进行修饰;对自己犯下的错误能客观评 论
7、,给出解决方法等。喜怒哀乐是每个人都会有的情绪,而对数 据分析师而言,一旦进入工作就要绝对理性与客观,这也是数据 分析师思考问题的前提。1.2正确的数据思维观第一章绪论统计思维相比于数学,统计学在日常生活中的应用要明显而又简单 得多。我们日常生活中接触的求和、平均值、中位数、最大值 等其实都是统计思维的一部分。统计思维可归类为:描述、概括、分析。1.2正确的数据思维观第一章绪论统计思维描述描述就是对事物或对象的直接描写,是对事物的客观印象。如果我们把描述概念对应到数据上,可以理解为这堆数据长 什么样,通过对数据的描述能够让人感悟到数据的真实长相。在统计学描述数据使用的指标通常是如下统计量:平均
8、数、众 数、中位数、方差、极差、四分位点,这些指标就好像是数据 的鼻子 眼睛 嘴唇 眉毛等。1.2正确的数据思维观第一章绪论统计思维(2)概括概括是形成概念的过程,把大脑中所描述的对象中的某些 指标抽离出来并形成一种认识,就好像对一个人气质的概 括,气质是基于这个人的谈吐 衣着 姿势 表 情等指标综合在一起,然后基于历史对气质这样的概念 得出结论,气质不可以依靠眼睛感受直接获取,而是需要 收集这个人的细节描述信息,形成对这个人的整体印象。1.2正确的数据思维观 第一章绪论统计思维(3)分析分析就是将研究对象的整体分为各个部分、方面、因素、层次,并加以考察的认知活动,也可以通俗地解释为发现隐藏
9、在数据中的模式和规则。1.2正确的数据思维观第一章绪论统计思维(4)三者之间关系通过描述获取数据的细节,通过概括得到数据的结构,通 过分析得到想要的结论。分析区别于描述和概括一个非常重要 的特征就是以目标为前提,以结果为导向。1.2正确的数据思维观第一章绪论逻辑思维逻辑思维是人的理性认识阶段,是人运用概念、判断、推理等 思维类型反映事物本质与规律的认识过程。它是人的认识的高级阶 段,即理性认识阶段。逻辑思维是一种确定的,而不是模棱两可的;前后一贯的,而 不是自相矛盾的;有条理、有根据的思维;在逻辑思维中,要用到 概念、判断、推理等思维形式和比较、分析、综合、抽象、概括等 思维方法,而掌握和运用
10、这些思维形式和方法的程度,也就是逻辑 思维的能力。1.2正确的数据思维观第一章绪论逻辑思维逻辑思维具体包括:Q)上取/T钻思维上取思维就是在看完数据之后,要站在更高的角度去看这些数 据,站在更高的位置上,从更长远的观点来看,从组织、公司的角 度来看,从更长的时间段(年、季度、月、周)来看,从全局来看,你会怎样理解这些意义呢?也许向上思维能让你更明白方向。下钻思维就是把事物切细了分析。数据是一个过程的结果反映,怎样通过看数据找到更多的原因隐藏在现象背后的真相,需要把事 物切细了分析。原理:显微镜原理。莫键;知看数范的*勾成、分解数据的手段、对分解后的数据的 重要程度的了解。1.2正确的数据思维观
11、第一章绪论逻辑思维(2)求同/求异思维求同思维就是,当一堆数据摆在我们面前时,表现出各异的形 态,然而我们却要在种种的表象背后,找出其有共同规律的特点。关键:找到共性的东西进行分析,要客观。求异思维就是在看到每一个数据都有相似之处同时,也要看到 他们不同的地方,特殊的地方。关键:对实际情况的了解,对日常情况的积累,对个体情况的 了解,对个体主观因素的分析。1.2正确的数据思维观第一章绪论逻辑思维(3)抽离/?关合思幺隹当你启不旁观者的角度不思考看待数据时,你往往能发现那 些经常让我们迷失方向的细枝末节并没有太多的意义,我们迷失方 向,忘记了自己的价值,同时深受情绪困扰。这时,你采用抽离思 维更
12、加能够帮助到你。关键:多种分析方法,多角度看问题,不要钻牛角尖,多学习 别人的好方法,学会集思广益,发散性思维。1.2正确的数据思维观第一章绪论逻辑思维(4)离开/接近思维通过数据分析,你发现你处在一个不太有利的地位,那么,此 时你就要有离开思维去替你想办法,离开困境。关键:学会自我调节,自我放松。要达成目标,实现销售增长,这时候你需要接近思维来帮助你O 关键:多接触你要解决的问题,花时间分析,你要的是方案,不是问题。1.2正确的数据思维观第一章绪论逻辑思维层次思幺隹7 可套差现是第一步,要怎样分析问题,找到真正的原因,那么 要熟练地运用理解层次。关键:你需要熟悉客观环境,员工的能力、行为的规
13、律、他需 要什么?问题的结构如同这座冰山初步的问题分析深层次的问题分析最终原因廿本大数据应用人才培养系列教材第一章大数据概述1.1 从数据库到大数据库1.2 大数据库的类型习题习题:1.正确的数据思维观包括:数学思维、()、逻辑思维。2.()是容易掌握的,但是()却是很难培养的。3.数学思维的两个特征是()和()o4.常用统计量包括()、()、()、()o5.从思维科学角度看统计思维可归类为()、()和()o6.把大脑中所描述的对象中的某些指标抽离出来并形成一种认识称为()o7.把事物切细了分析称为()思维。8.显微镜原理属于()思维。9.当一堆数据摆在我们面前时,表现出各异的形态,然而我们却要在种种的 表象背后,找出其有共同规律的特点。称为()思维。10.换位思考属于()思维。感谢聆听