2022中国分析型数据库市场研究报告.pdf
《2022中国分析型数据库市场研究报告.pdf》由会员分享,可在线阅读,更多相关《2022中国分析型数据库市场研究报告.pdf(41页珍藏版)》请在咨信网上搜索。
1、 序言 数字化时代,数据使用场景呈现多元化趋势,数据规模也随之爆发式增长。海量异构数据的爆发式增长,对数据库的存储和计算能力提出了更高的要求。分析型数据库因其在处理海量实时数据时具有优秀的存算和管理能力,近年来赢得了市场的青睐。分析型数据库最早的定义是指从分散的数据源中抽取、清理和汇集各类结构化数据,形成面向特定分析主题的、相对稳定且能反映历史变化的数据集合,并通过 OLAP(联机分析处理引擎)来对这些数据进行分析,即通常意义的数据仓库。其中OLAP 数据库概念最早由关系型数据库之父E.F.Codd 于1993 年首次提出,他认为用户的决策分析需要对关系型数据库进行大量计算才能得到结果,OLT
2、P(联机事务处理)已经不能满足终端用户对数据库查询分析的需要,因此,E.F.Codd 提出了多维数据库和多维分析的概念。OLAP 数据库的提出引起了很大的反响,OLAP数据库作为一类产品同 OLTP 数据库明显区分开来。在此后近 30 年的演进中,分析型数据库先后出现了共享存储架构数仓、大规模并行处理(MPP)架构数据仓库以及数据湖等技术架构。近年来,随着企业数据分析需求的不断提升,具有流批一体和存算分离,能通过元数据层在数据湖上实现数据管理功能的智能湖仓受到了更多关注,分析型数据库迎来新阶段智能湖仓。伴随企业数字化转型战略深入推进,分析型数据库内涵也在不断扩展,我们认为当下的分析型数据库是指
3、为应对企业管理、业务、数据分析师、数据科学家等人员对数据的各类分析和应用需求而提供的各类数据存储和计算引擎,包括传统数据仓库、云数据仓库、数据湖等,以及目前正在兴起的智能湖仓。后疫情时代背景下,分析型数据库在更多业务场景中实现了更广泛的应用,如流调溯源、时空分析等,分析型数据库市场也迎来了爆发式增长。近些年国内分析型数据库创业公司日益涌现,产业资本不断涌入,获得融资的公司数量及额度均大幅增长。据公开资料统计,2013-2021 年,主打数据分析场景的数据库企业成立数量为 11 家,占总数据库企业总成立数量的 24%,融资次数共计约 40 余次,融资总额约近 50 亿元人民币。竞争激烈的市场,哪
4、些公司具有真正潜力;当前火热的市场是否只是一场泡沫;“智能湖仓”阶段后,分析型数据库又将向哪个方向发展,本报告将进行一一梳理和详细解答。魏凯 中国信通院云计算与大数据研究所副所长 目录 前言:为什么要研究分析型数据库.6 一、分析型数据库的定义与发展历程.8 分析型数据库的诞生.8 分析型数据库的定义及其延伸.8 分析型数据库的发展历程.8 2.分析型数据库的技术演进趋势及其驱动因素.11 第一代分析型数据库共享存储架构数据仓库.11 第二代分析型数据库MPP 数据仓库.12 第三代分析型数据库数据湖.13 第四代分析型数据智能湖仓.14 3.中国分析型数据库市场规模.21 中国分析型数据库市
5、场发展的驱动因素.21 中国分析型数据库市场规模与增速.23 4分析型数据库厂商关键竞争要素.26 厂商背景:团队背景和产品定位.26 技术架构:技术路线和场景适用能力.26 自研能力:完善功能、提高稳定性、保障安全性.27 商业模式:提供数据平台全栈产品和服务.28 行业落地:在行业领域的经验积累.29 5分析型数据库市场竞争格局.31 传统数据库厂商.31 新锐数据库厂商.32 公有云厂商.33 分析型数据库典型产品分类.33 6国内代表厂商分析.36 南大通用 GBASE.36 滴普科技 FASTDATA.37 华为云 MRS.39 结语:国内分析型数据库厂商的机遇.41 前言:为什么要
6、研究分析型数据库 随着数据成为驱动社会与经济发展的核心生产要素,作为关键数字基础设施的数据库,其技术趋势和市场格局正在经历剧烈的变化。一方面,数据规模的迅速膨胀,以及大量创新性的数据分析和应用场景的出现,对分析型数据库的存储和计算能力也提出了更复杂的要求。另一方面,为应对新的趋势,国内外传统数据库厂商、新锐数据库厂商和公有云厂商等各类厂商近年来纷纷加大对分析型数据库的投入和布局,它们或推出了新一代的智能湖仓产品,或对传统的数据仓库、数据湖进行了重大升级。变化也意味着机遇,为了挖掘出该领域具备潜力的代表性公司,本报告将详细梳理分析型数据库的发展历程和技术演进趋势,重点阐明中国分析型数据库市场的价
7、值和发展空间,建立分析型数据库厂商的评估模型,并对重点公司的产品技术、研发能力、商业模式、行业落地情况进行分析。北京爱分析科技有限公司 07 分析型数据库的 定义与发展历程 北京爱分析科技有限公司 08 一、分析型数据库的定义与发展历程 分析型数据库的诞生 分析型数据库最早是从交易型数据库衍生而来。在数据库诞生和发展的早期,其应用场景主要是对数据进行统一的存储、管理和访问,因此用户需要数据库能够实现对数据的增改删操作,也即联机事务处理(OLTP),此类数据库被称为交易型数据库(也称事务型数据库)。随着用户的需求从查看单个交易数据逐渐衍生出对交易数据的汇总、对比等分析需求,数据仓库在 1980
8、年代开始出现。一直到 1993 年,关系型数据库之父 Edgar F.Codd才正式提出联机分析处理(OLAP)的概念后,分析型数据库的概念也由此正式诞生。分析型数据库的定义及其延伸 分析型数据库最早的定义是指从分散的数据源中抽取、清理和汇集各类结构化数据,形成面向特定分析主题的、相对稳定且能反映历史变化的数据集合,并通过 OLAP 引擎来对这些数据进行分析,也即通常所说的数据仓库。随着企业数据分析需求的不断变化,以及技术的持续演进,分析型数据库的定义和内涵也在不断延伸。我们认为,当下的分析型数据数据库是指为应对企业管理、业务、数据分析师、数据科学家等人员对数据的各类分析和应用需求而提供的各类
9、数据存储和计算引擎,包括了传统的数据仓库、数据湖,以及目前正在兴起的智能湖仓。分析型数据库的发展历程 分析型数据库已经经历了数十年的发展,期间伴随了多个关键概念的提出,以及众多厂商推出的重要产品,这些事件成了串联分析型数据库发展历程的关键节点,也大致勾勒出了分析型数据库的演进趋势。北京爱分析科技有限公司 09 图 1:国内外分析型数据库发展历程重要节点 北京爱分析科技有限公司 010 分析型数据库的技术演进 趋势及其驱动因素 北京爱分析科技有限公司 011 2.分析型数据库的技术演进趋势及其驱动因素 分析型数据库诞生至今,已经经历了共享存储架构数据仓库、MPP 数据仓库、数据湖三代的发展,目前
10、正在往第四代智能湖仓方向演进。在这一发展历程中,驱动分析型数据库代际演进的因素主要包括了应用场景、数据以及计算环境三个层面不断发生的变化,也由此造成几代分析型数据库在技术架构、功能和性能层面的根本差异。表 1:分析型数据库的代际演进 第一代分析型数据库共享存储架构数据仓库 基于数据库的共享存储架构数据仓库是分析型数据库最早的形态,其可以追溯到诞生于 1970 年代末到 1980 年代初的 Oracle、DB2。在该阶段,企业的数据分析的应用场景较单一,主要是面向管理层提供若干固定报表。数据类型为结构化数据,数据量也相对有限。技术架构层面,对于该阶段的数据分析需求,企业通常是建设一套用于分析查询
11、的历史数据库来汇集不同事务型数据库的原始数据。北京爱分析科技有限公司 012 功能层面,共享存储架构数仓具备很强的稳定性,支持各类 SQL 标准,以及 ACID 特性(即数据库的原子性、一致性、隔离性、持久性)。性能层面,由于共享存储架构数仓的计算节点能够访问任意的存储节点,其需要配备专有物理硬件,其性能优化良好。但共享存储架构的缺点是可扩展性较差,一般扩展到十几个节点就会遇到瓶颈,因此当数据量达到千万、亿级别时,数据的计算就会出现延时。第二代分析型数据库MPP 数据仓库 最早的 MPP(大规模并行处理)数据仓库是 Teradata 于 1984 年推出的基于专有硬件的无共享架构 MPP 数仓
12、,后来也出现了基于 x86 通用服务器的 MPP 数仓 Greenplum、Vertica。在该阶段,企业数据分析的应用场景已经从面向少数管理人员提供固定报表,转变为面向业务人员提供更广泛的批处理报告、BI 和可视化,以支持业务决策。与此同时,企业需要处理的数据类型依旧是结构化数据,但数据量出现了快速增长,达到了 GB 或 TB级。技术架构层面,为了应对上述的数据分析需求,专用于 OLAP 的分析型数据库从事务型数据库中分离出来,形成了沿用至今的数据仓库。数据仓库的设计是为了支持快速的数据查询和数据分析任务,其技术架构是建立了一套数据流,通过预先定义 Schema 的方式,将事务型数据库中的结
13、构化数据经过 ETL 操作,形成“表”结构的数据写入数据仓库中。与此同时,数据仓库在数据组织方式上开始普遍使用列存储取代交易型数据库的行存储,由于列存储具备自动索引、减少总 I/O、利于数据压缩等优势,数据仓库因此得以极大地提升其查询性能。北京爱分析科技有限公司 013 图 2:数据仓库架构 功能层面,由于 MPP 数仓底层的数据依旧由事务型数据库提供,并且经过长时间的发展,其 SQL 标准,以及ACID 特性的稳定性和可靠性变得更高。但 MPP 数仓仅能处理结构化数据,无法处理半结构化和非结构化数据。性能层面,MPP 数仓采用无共享存储架构,各计算节点都有独立的存储节点,因此并行处理和扩展能
14、力更好,能够满足大数据量(GB 或 TB 级)下的高并发、高性能需求,并且其可扩展性相比共享存储架构有了较大提升。但当集群扩展到数百节点时,MPP 数仓依然会出现性能瓶颈,扩容成本同样不菲。第三代分析型数据库数据湖 以 Hadoop 为代表的数据湖出现在 2005 年之后。在该阶段,由于互联网的兴起,企业需要处理的数据呈现出多类型、大规模的特点。一方面,数据类型除了包含大量结构化数据,为包含了各类半结构化数据(如 CSV、XML、日志)、非结构化数据(如文档、图片、音频、视频)。另一方面,数据量从 GB 或 TB 级进一步提升至 TB 或 PB 级。与此同时,企业的数据分析的应用场景已经变得更
15、加丰富,除了传统的数据查询、固定报表,也出现了大量面向业务监测和洞察的自助式分析,并且出现了一定的实时性数据分析场景。技术架构层面,为了承载对大量结构化、半结构化、非结构化数据的存储与处理,Hadoop 体系使用 HDFS 做数据存储,可以灵活地以低成本存储任意类型的原始数据,使用 Mapreduce、Spark 等引擎做大数据计算。随着Hive、SparkSQL 等大数据组件的出现,企业可以基于 Hadoop 实现数据仓库(SQL-on-Hadoop)的功能,即 北京爱分析科技有限公司 014 将数据湖的数据经过 ETL 到数据仓库,以支持 BI 等应用。与此同时,Storm、Flink 等
16、流处理引擎,也能够一定程度满足企业实时数据处理的需求。尽管 2015 年后,云服务商提供的对象存储如 AWS S3 大量取代私有部署的HDFS,存储成本降低很多,但基于数据湖的大数据架构基本没有改变。图 3:数据湖架构 功能层面,由于数据湖中各种类型数据都是按原样存储,采用分析时写入 Schema(schema-on-read)的模式,因此数据湖的 SQL 标准、ACID 特性支持较差,其数据版本控制和索引功能也不足,并且 Hive 本身不支持单条记录的修改,这些原因导致数据湖难以取代 MPP 数仓对结构化数据的处理能力。性能层面,SQL-on-Hadoop 在软件上实现了存储节点和计算节点的
17、互相独立,可以分别独立扩展,因此其节点可以扩展至数千规模。由于实践中,企业部署 Hadoop 主要还是基于物理机,在硬件层面,其计算与存储资源仍然是绑定的。第四代分析型数据智能湖仓 当前企业数据分析与应用需求的变化趋势 在解析第四代分析型数据库在技术架构、功能和性能层面的特征之前,我们需要首先了解近年来数据分析的应用场景、数据以及计算环境等方面发生的重大变化趋势,以及现有的分析型数据库在应对这些变化时的主要缺陷。北京爱分析科技有限公司 015 首先,企业数据分析的应用场景变得更加广泛。数据正在成为业务创新的核心,基于数据分析,企业可以预测客户行为、提供个性化的客户体验、预测市场趋势、制定业务战
18、略等,从而提高企业的竞争力。与此同时,数据分析门槛的降低使得企业内部越来越多的业务人员成为数据消费者,并向“人人都是分析师”的方向演进。在这样的背景下,企业内部的数据分析与应用数量急剧增长,除了传统基于结构化数据的 BI 应用,实时数据处理与分析的需求在快速增加。与此同时,大量的创新性的 AI/ML 应用层出不穷。根据爱分析预测,头部企业潜在 AI/ML 应用场景数量最多可达到 5000 到 10000 例,中长尾企业的 AI/ML 应用场景数量可达到 100 到 1000例。图 4:企业潜在 AI/ML 应用场景数量 测算逻辑:场景指人工智能技术能够应用的最小单点应用,如点餐 APP 智能推
19、荐,潜在应用场景通过(企业内部系统数)*(每个系统中可以应用人工智能替换人工操作或规则模型数量)进行估算 北京爱分析科技有限公司 016 表 2:重点行业典型数据智能创新应用场景 其次,企业的总数据量以及实时数据正在以前所未有的速度爆发式增长。随着互联网的深入发展,以及云、5G等基础设施的成熟和兴起,大规模的应用程序、移动设备、边缘设备的联网导致数据规模激增,大量企业需要处理数据量将达到 PB 级,甚至更高。根据 IDC 的数据,到 2025 年全球数据总量将达到 175ZB,而其中有超过25%为实时数据。北京爱分析科技有限公司 017 图 5:2025 年全球数据总量及构成 最后,企业业务和
20、分析系统上云正在加速。随着企业的业务系统、分析系统在往云端逐步迁移,其数据分析系统也因此在云端进行部署,以充分利云的可扩展性和相关技术资源。根据 IDC 的数据,到 2025 年全球 49%的数据将存储在公有云中。尽管国内市场由于政策监管、企业接受度等原因,国内企业上云步伐不如国外激进,但长期而言,这一趋势不会改变。传统分析型数据库应对当前需求的主要缺陷 在实践中,大量企业还在使用传统的数据仓库和基于数据湖的大数据解决方案,并且很多企业内部有多套数据系统并行,满足不同的数据分析需求。但由于诸多原因,这些解决方案通常存在以下主要的缺陷:存储计算资源难以弹性扩展,制约了大数据量下数据分析的性能和速
21、度。无论是 MPP 数仓还是本地部署的Hadoop 大数据解决方案,其存储和计算资源都是耦合的。这种设计通常会导致存储资源冗余而计算资源不足,扩展成本高,并且节点扩展会存在上限。面对大数据集,企业可能需要花费数小时或者更长时间来查询数据,从而限制了大数据分析的性能和速度。缺乏优化的性价比,资源消耗大、成本高。一方面,在数据湖加数仓的两层架构中,数据会首先被 ETL 到数据湖中,之后再被 ETL 到数仓中,这会在系统中引入额外的复杂性,不仅需要付出大量的 ETL 作业成本,并且将数据从数据湖复制到数仓中也会需要支付两倍的存储成本。另一方面,由于数仓使用的是专有数据格式,将这些数据或工作负载迁移到
22、其他系统也会产生额外的成本。对人工智能和机器学习等高级分析的支持不足。当前流行的 TensorFlow、PyTorch 和 XGBoost 等机器学习系统很难在现有分析型数据库之上高效运行,因为这些系统从数仓或数据湖中读取大型的数据集时需要写非常复杂 北京爱分析科技有限公司 018 的非 SQL 代码,并且数据湖本身缺少数仓丰富的数据管理能力,如 ACID 特性、数据索引、数据版本控制等,进一步加大了读取数据的难度。系统架构复杂,稳定性差,管理和维护成本高。企业在过往多年的发展中,由于技术能力、资源、制度流程等多种因素的限制,采取了很多临时的数据方案。一方面,企业会在原有数仓和大数据系统中,根
23、据需求不断做升级、打补丁。另一方面,由于数据仓库和数据湖都存在各自的不足,为了满足不同的数据处理与分析需求,企业经常会建立独立的系统来处理数据,例如单独建立的数仓、数据湖、流数据处理平台等。这些因素导致企业实际的数据系统架构非常复杂,技术债务累计,系统的管理和维护成本非常高。图 6:典型多套系统并行的企业数据平台 第四代分析型数据库“智能湖仓”的诞生 通过分析近年来数据分析的应用场景、数据以及计算环境等方面发生的变化,以及现有的分析型数据库在应对这些变化时的主要缺陷,我们认为,下一代的分析型数据库必然会朝着增强分析性能、提升易用性、降低使用成本的方向发展。在这样的技术趋势下,Databrick
24、s 于 2016 年推出 Delta Lake,旨在在数据湖上支持类似 DBMS 的数据管理功能,而随着 Databricks 于 2020 年率先在业内提出 LakeHouse 的概念,智能湖仓由此开始兴起。在国外市场,Snowflake 推出了数据云产品,在其云上数据仓库的基础上增加了数据湖的功能。亚马逊云科技基于 Amazon S3 构建数据湖,绕湖集成数据仓库、大数据处理、日志分析、机器学习数据服务实现智能湖仓。在 北京爱分析科技有限公司 019 国内市场,公有云厂商如华为云、阿里云,新锐数据库厂商如滴普科技也于近年推出智能湖仓产品,并收获了一批行业头部客户。图 7:智能湖仓架构 智能
25、湖仓在技术架构、功能和性能层面主要具备以下主要特征:通过元数据层在数据湖上实现数据管理功能。智能湖仓使用标准文件格式(如 Parquet)将数据存储在对象存储中,并在对象存储上构建元数据层,从而在元数据层实现诸如 ACID 事务处理、版本控制等数据管理功能,使得多种计算引擎可以共享统一的数据存储。同时,通过对缓存、辅助数据结构(如索引、统计信息)和数据布局进行优化,智能湖仓也具备了良好的 SQL 性能。流批一体,简化系统架构。智能湖仓可以实现批处理与流处理的统一,通过 CDC(Change Data Capture)将业务系统数据实时抽取到数据湖,实时加工后传输至 OLAP 系统中对外服务,实
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 中国 分析 数据库 市场 研究 报告
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。