1、数字资产下的数据存储实践葛双博阿里云数据库高级产品专家万物互联时代的浪潮20052010201520200.1ZB2 ZB,9%12 ZB,9%175 ZB,31%PC互联网移动互联网万物互联47 ZB,16%关系数据库关系数据库NoSQL结构化数据结构化数据半结构化数据集中存储分布式垂直化Lindorm云原生多模云原生多模2025海量多模型复杂查询人工智能智慧生活车联网数字资产数据存储的选择文件简单易用可靠性/可用性(硬件故障、数据备份)性能扩容文件存储内容检索取指定数据统计NASHDFS数据库MySQLLindorm简单易用/高可靠/扩容高可靠/扩容/数据处理数据库架构Lindorm DF
2、SLindorm DFS 存储存储标准标准/性能型存储性能型存储Lindorm MultiLindorm Multi-ModelModel 引擎引擎毫秒响应80%成本节约透明转存容量型存储容量型存储自适应透明压缩冷温热三层热度分离Serverless按需读写缓冲加速Hadoop Compatible Filesystem Protocol(100%HDFS兼容)LindormLindorm StreamStream 数据流订阅与计算数据流订阅与计算Lindorm APILindorm APIOpen Source API:HBase/CQL,OpenTSDB,Solr,HDFSLindorm
3、SQL在线扩容高吞吐低成本多模型高可靠IoT车联网、工业物联网互联网用户画像、广告信息金融账单、业务流水、影像宽表时序搜索文件适用于大规模的云原生多模数据库LindormLindorm电商订单、物流、日志数据库架构演进传统单机数据库单节点DB本地磁盘 部署简单 扩展性不足分库分表 一定程度上解决问题 数据不均衡、扩容操作复杂、运维困难分库分表中间件DBDBDB分布式数据库 一定程度上解决问题 数据不均衡、扩容操作复杂、运维困难LindormDBDBDB本地磁盘本地磁盘本地磁盘分布式存储数据库架构演进Gartner 2020 数据库魔力象限首家进入领导者象限的中国数据库公司阿里云数据库产品市场份
4、额亚太(Gartner 2021)全球(Gartner 2021)国内(IDC 2019 H2)150,000+700,000+企业级客户数据库实例上云1st1st4thLindorm在阿里巴巴15000+节点300PB+存储7亿+峰值请求Lindorm支付宝账单菜鸟物流Log监控,大屏,轨迹,设备状态消息,订单,Feed流 AI Storage蚂蚁智能风控推荐,搜索,BI报表阿里智能客服手淘消息生意参谋广告直通车GMV&光明顶大屏淘宝天猫支付宝菜鸟阿里云飞猪友盟钉钉阿里妈妈大文娱高德优酷盒马饿了么AE1688高可靠金融级自研内核高度可控Lindorm DFS 的特性低成本低成本高可靠高可靠在
5、线扩在线扩容容高性能高性能IPFS存储的挑战存储成本 把存储当算力,有效存储越大,算力越大。持续在线扩容 100PB以上规模存储,需要存储集群能无限扩展。扩容不影响封装数据的写入和时空证明高吞吐写入吞吐在1-100GB/s高可靠 磁盘故障、服务器故障,不影响封装数据写入和时空证明。封装数据写入和时空证明IO冲突。磁盘故障或者服务器故障时,Rebuild流量导致的IO冲突。元数据的可靠性保证。EC稳定:8+2p低成本:25+3p冗余度内磁盘或者节点故障不影响时空证明扩容不影响写入和时空证明子集群可无限扩展分布式集群带宽单节点 1GB/s随节点数线性增长,子集群最大1Tbps高可靠元数据1+2容灾
6、,允许故障2个节点智能调度读写冲突时,优先保证时空证明智能控制Rebuild带宽,保证时空证明客户端挂载提供文件操作接口支持系统版本:ubuntu 18.04 20.04 centos 7(如有其他系统支持需求可根据实际情况进行支持)限制项:单个LDFS集群挂载进程占用约10GB内存(可调)单个LDFS挂载进程并发打开文件句柄数不超过10万LDFS-FUSE-1LDFS-FUSE-2/ldfs-1/ldfs-2子集群 1子集群 2网络VFSAPP客户端节点LDFS集群部署形态接入交换机元数据节点元数据节点元数据节点存储节点存储节点存储节点存储节点网络核心接入交换机客户端节点接入交换机元数据节点
7、元数据节点元数据节点存储节点存储节点存储节点存储节点无限水平扩展 1个存储节点提供1GB/s带宽,按存储节点数量线性增长 存储节点总数无上线 每个子集群由3个元数据节点+最大120个存储节点(67PB)构成 子集群内扩容存储节点,应用无感知 元数据节点允许故障2台子集群 2子集群 1子集群 N子集群最小部署规模冗余策略部署方式冗余度最小数据节点数据节点故障容忍元数据节点故障容忍扩容步长8+2p(更可靠)推荐模式1.2510台2台2台=10台最小模式6台1台=6台25+3p(更低成本)推荐模式1.1228台3台2台=28台最小模式11台1台=11台扇形写入高效利用带宽LDFS提供客户端扇形写入能
8、力,无东西向流量转发,高效使用网络带宽,最大化封装能力,吞吐提升近1倍ClientLDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点.1/101/101/101/10Client存储节点.1/108Proxy/协议机(以EC 8+2举例)存储节点Proxy/协议机存储节点Proxy/协议机存储节点Proxy/协议机1/101/101/10以EC 8+2举例存储服务器in流量比例:1.25:2.25存储服务器out流量比例:0:1.25扇形写入模式Proxy转发模式8智能IO调度LDFS数据封装模式最大化写入能力,保证数据封装吞吐LDFSWindowPost模式磁盘IO调度,磁头优
9、先执行读请求。保障WindowPost稳定WindowPost请求封装流量封装流量智能识别切换故障自动容错Client数据副本数据副本数据副本数据副本Parity副本坏盘/慢盘宕机/网络故障Client数据副本数据副本数据副本数据副本Parity副本坏盘/慢盘宕机/网络故障部分节点(少于EC容忍度)损坏不影响数据读取,WindowPost丝般顺滑自动容忍数据RebuildLDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点1.以EC 8+2为例,可容忍两节点不可用LDFS存储节点LDFS存储节点LDFS存储节点LDFS
10、存储节点LDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点不可用节点集群剩余节点进行并行数据Rebuild2.不可用节点不影响数据在线读取。剩余节点进行并行数据Rebuild,rebuild速率随集群规模线性增长。数据Rebuild适用智能流控,避免Rebuild流量影响WindowPostLDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点3.Rebuild完成,数据恢复8+2。容灾能力恢复,可容忍两节点不可用。损坏节点维修后可重新加入集群
11、。LDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点LDFS存储节点单机指标指标项指标内容EC模式缺省8+2p(稳定),可调25+3p(低成本)磁盘水位96%出盘率(8/(8+2)*96%=76.8%,(25/(25+3)*96%=85.7%单独物理磁盘容量16TB*36=576TB单机可用逻辑容量442TB(1000进制)/402TiB(1024进制)单机可承载密封块402*1024/32=12864单机带宽1GB/s单机rebuild能力避免影响写入和post,限速
12、:60MB/s8+2p,消耗4Gb/s网络带宽GMRPORT阿里云Lindorm监控运维中心元数据节点托管机房监控数据回传端口映射存储节点公网监控数据采集阿里云机房异常巡检报警阿里云运维团队异常排查修复监控报警链路行情数据特点数字货币股票期货快照类行情数据逐笔航行数据开盘价/收盘价/最高价/最低价/成交量/时间戳股票ID+时间+K线颗粒度程序触发查询,并发度高3000+沪深两市:5000+全球:40000+年新增:100亿-1000亿,2TB-22TB 永久存储,不删除,总规模上百TB 程序触发,高并发查询,大范围查询 时间维度:最近的数据最热,最远的数据最冷 部分股票和K线颗粒度是数据热点
13、20%的热数据占了80%的QPS行情数据处理流程行情数据MySQLK线统计Redis成交量最大值最小值存储原始行情数据存储K线数据用户查询 同时引入MySQL和Redis,运维复杂 MySQL无法支撑海量存储和高并发查询 分库分表无法应对业务持续增长带来的扩容需求 分库分表方案无法应对单机热点数据 存储成本高行情数据LindormK线统计成交量最大值最小值存储原始行情数据存储K线数据用户查询 使用Lindorm替换MySQL和Redis,无需维护两套开源技术组件 Lindorm提供冷热分离能力,存储成本下降70%在线弹性扩容 数据自动均衡和单机抗热点 高性能,支持千万级QPS 支持二级索引和全
14、文检索,提供数据分析能力 金融级容灾(同城强一致和异地容灾)内存中计算结果写入异常时加载K线数据冷热分离 场景 数据按时间线写入,近线访问为主 价值 冷数据存储成本减少80%,热数据访问性能提升15%优势:即开即用,按表开启 应用零改造 冷热分隔线,灵活调整 自由设置冷热的存储介质、压缩算法CompactionHot Data FileWarm Data FileCold Data FileWarm Data FileWarm LayerWarm Data FileCold Data FileCold LayerCold Data FileHot Data FileHot LayerHot D
15、ata File冷热分离不压缩深度压缩MemstoreFlush1230Least Read 快速压缩标准型存储性能型存储容量型存储CompactionCompactionLindorm一体化冷热分离,数据自动分层热点应对Server 0Server 1Server 2HotKey探测模块Region汇报模块RegionRegionRegionLDMHotKey探测模块Region汇报模块RegionRegionRegionHotKey探测模块Region汇报模块RegionRegionRegion收集Region.钉钉Bot自定义报警推送move隔离.Server 3(隔离服务器)诉求当业务
16、存在访问热点时,可能打爆服务器,影响全局服务应对p 热点Key实时识别p 结合外部控制系统,自动隔离热点KeyLindorm的分析和检索能力行格式列格式Lindorm宽表引擎Lindorm搜索引擎SearchServerTableServerTableServerTableServerSearchServerSearchServerLindorm DFS 统一存储LindormSQL引擎(DDL/DQL/DML等统一接入)Lindorm 计算引擎FlameServerFlameServerFlameServer在线高并发请求(Serving)实时交互式分析(AP)联邦分析&ETL检索聚合查询简
17、单查询&写入&数据管理Lindorm自动数据同步p 简单易用产品特性,开箱即用,无需额外开发和维护p 统一SQL访问数据的管理、读写、分析等统一SQL接入根据SQL类型自动选择合适的存储引擎在线请求与分析请求自动资源隔离,消除相互影响p 数据一致元数据自动打通数据按需自动同步,毫秒级低延迟支持强同步p 低成本数据统一存储在LDFS,大幅减少碎片p 高性能宽表引擎:使用行存格式,支持高并发在线服务搜索引擎:使用倒排+列存(自研PAX、开源Parquet等多种格式),支持高性能分析计算引擎:基于Spark引擎深度优化,提供高性能融合分析p 分布式全分布式架构,水平扩展,自动容错,满足企业级高可靠需
18、求元数据+行存列存+倒排索引复杂分析Based on spark同城跨机房关键技术1.存算分离+日志与表格数据分离2.日志数据(WAL):三副本,分布于三个机房,机房故障后数据不丢失。3.表格数据:分布于两个机房,就近本地访问,减少冗余。4.节点/机房故障后,自动切换Leader优势p99.99%SLA分区多副本机制,跨可用区容灾,在故障下服务自动恢复,RTO1分钟,业务受损时间减少10倍p可调一致性支持数据强一致和最终一致,最终一致模式下RTO10秒p资源利用率高分布于多个可用区的服务器均同时承载请求,提升资源利用率p请求容错,去毛刺P99时延多倍优化,双副本并发访问,取最快返回的结果请求异
19、常后,自动访问另一副本进行重试使用场景1.99.99%以上SLA2.机房级容灾,RTO1分钟3.日常断网演练考验介绍Lindorm跨机房部署,支持机房级故障的自动恢复,并保证数据的强一致机房B机房ALindorm DFSZone AZone BLindorm 多模引擎机房C日志逻辑图部署图异地容灾LTS数据同步服务张北Lindorm集群应用上海Lindorm集群应用新加坡Lindorm集群应用优势p以表为粒度,自由单双向同步p百毫秒数据延迟p对lindorm集群无影响,由LTS做数据同步p参与同步的集群数量、表数量无限制p延迟可监控报警、数据链路可API管理p分布式、自容错、数据校验异地容灾低
20、成本高性能 智能压缩,高压缩率(最高10:1)按需在线扩容 自动冷热分级存储 多种存储介质混存 数据生命周期管理,自动删除过期数据 点查场景千万级高并发下保证个位数毫秒时延,平均RT小于3ms,p99小于10ms 多维实时检索 实时数据高并发写入 离线数据快速导入数据处理 关系/键值/文件/搜索/时序/时空能力超融合,业务化繁为简 二级索引和多维检索 聚合查询和批处理,内置数据行列转存 流计算(开发中)云原生 存储计算分离,计算和存储独立伸缩 秒级在线扩容,扩容过程不影响服务 100PB水平扩展金融级高可用/高可靠 跨机房容灾 数据多副本 硬盘/服务器故障不中断服务 备份恢复 秒级在线扩容,扩容过程不影响服务读写热点保护 数据倾斜,分片自动Split 单机抗热点缓存 分区级别在线动态迁移 指定对象Quota限流解决低成本与高性能、高可靠的矛盾;在线水平扩展、丰富数据生态,一劳永逸,满足海量数据增长、在线联机查询和丰富业务功能的持续扩展需求。数据生态 HBase/Cassandra/HDFS等多种开源接口兼容 Flink/Spark/Hive等开源生态对接 阿里生态兼容 数据实时订阅多租户 用户认证 ACL