1、大数据实践大数据应用人才培养系列教材第一章大数据概述1.1 从数据库到大数据库1.2 大数据库的类型1.3大数据库的应用习题G)i.i从数据库到大数据库第一章大数据概述传统关系数据库Oracle.SQL Server.MysqL DB2、SyBase、SqlLite0容易理解、使用方便、易于维护。难以满足高并发读写需求;难以满足海量数据的高效率读写;扩展性差。G)i.i从数据库到大数据库第一章大数据概述大数据库以NoSQL(Not Only SQL)为代表的用于存储、管理、分析海量数据的系统称为大数据库数据体量巨大;数据类型多样;处理速度快;价值密度低。NoSQL典型地遵循CAP理论和BASE
2、原则。CAP理论可简单描述为:一个分布式系统不能同时满足一致性(consistency)、可用性(availability)和分区容错性(partition tolerance)这三个需求,最多只能同时满足两个。BASE原则是指Basically Available(基本可用)、Soft State(软状态)和Eventually Consistent(最终一致性)。大数据应用人才培养系列教材第一章大数据概述1.1 从数据库到大数据库1.2 大数据库的类型1.3大数据库的应用习题1.2大数据库的类型第一章大数据概述按数据存储方式和处理数据的类型分类大类型小类型代表产品厂家1HbaseApach
3、e Software Foundationkey-columnCassandraApache Software Foundationkey-value 存储 数据库VoldemortAmazonkey-valueRedisRedis Labskey-value cacheGemFirePivotal IncMongoDBMongoDB Inckey-documentCouchDBApache Software FoundationMongoDBMongoDB Inc.文档数据库CouchDBApache Software Foundation图数据库Neo4jAllegroGraphNeo T
4、echnology IncFranz Inc.大数据应用人才培养系列教材第一章大数据概述1.1 从数据库到大数据库1.2 大数据库的类型1.3大数据库的应用习题大数据库的应用第一章大数据概述1.离线分析方面的应用,百度作业帮线上业务系统S-云主机BCC其他数据源日志服务BLS任务调度系统(1)线上业务系统用云主机解决负载均衡及海量存储问题。(2)将线上业务系统与离线数据平台分离。线上业务系统实时为用户提供服务,离线数据平台提 供报表分析等功能。(3)日志服务BLS收集运行数据,存储到BOS中,然后使用百度MapReduce对数据筛选、清理、存储,最后接入报表系统。百度MapReduce是Had
5、oop/Spark集群。2.实时事务处理的应用,腾讯点广通广点通利用HBase+Storm构建了广告日志实时处理平台,解决了实时娄第一章大数据概述回流请求题。7ir1.请求广告广告 选取3.返回广告url 用户广告 特征数据通道跨地域汇总JL JL JL6.点击广.看到广告记.曝,记 占用户 特征模型 更新o逻辑层日志关联 无状态服务器访问特性:写hbase:每天300亿+读hbase:每天200亿+,而且都是随机读!但是:-只有100多亿读操作是预期读到数据的-大部分数据写入到读取的时间延迟很小结果 流水重试 表去重对账mapreduce任务大数据库的应用第一章大数据概述3高并发,低延迟,实时事务应用,12116互联网售票系统年份尖峰曰PV值放票次数网络带宽订单处理(张/秒)2012201320142015 Gemfire可以将数十台或者数百台廉价PC服务器组建成一个集群。内存中进行计算。定期将数据以同步或异步方式写到磁盘。有磁盘数据作为备份。大数据应用人才培养系列教材第一章大数据概述1.1 从数据库到大数据库1.2 大数据库的类型1.3 大数据库的应用习题1.传统关系型数据库通常支持事务处理,数据库事务拥有四 个特性,习惯上被称之为ACID特性。查阅资料简述什么是 ACID特性。2.你认为大数据库能否取代传统关系数据库吗?简述理由。感谢聆听