2021年是大数据开源项目Hadoop的第15年以及Spark的第12年。此前已经出现了不少基于Hadoop的大数据独角兽,例如Hortonworks和Cloudera。不过,这些基于Hadoop的大数据独角兽们并未实现业界的期待,几家上市公司均出现了大幅业绩下滑,2018年Hortonworks和Cloudera宣布合并,抱团取暖。
2021年2月,由Apache Spark初始成员创立的大数据初创公司Databricks宣布已完成10 亿美元G轮融资,公司估值高达280亿美元。2019年10月,Databricks完成F轮融资时,估值为62亿美元,一年后公司估值即飙升近5倍。而Databricks的G轮投资机构中有AWS、Salesforce的风险投资基金Salesforce Ventures、谷歌母公司的风险投资公司Capital G等以及参加过早前投资的微软等多家投资方。
Databricks受到追捧,与其产品和技术的关系密不可分。从根本上来说,Spark与Hadoop本是相互依存关系——Hadoop为分布式大数据存储技术,而Spark是对存储的分布式大数据进行处理的技术或者说是面向大数据处理的统一分析引擎。Spark开源技术栈中提供了Spark SQL结构化数据处理、Spark Streaming实时计算、MLlib机器学习库、GraphX图形计算等组件,其中Spark SQL可直接查询Hive、HBase等外部数据源中的数据、MLlib是一个大名鼎鼎的开源机器学习库、GraphX更是著名的分布式图处理框架。
简单理解,Hadoop并不能挖掘和发挥大数据的价值,而Spark则是具备完整技术生态的统一分析引擎,同时Spark支持基于Hadoop Yarn、Apache Mesos以及时下最流行的Kubernetes等集群管理器,可运行在广泛的计算平台上,以及部署在企业内部或在公有云之上。简单理解,Spark解决了Hadoop生态分裂的问题,通过统一数据分析平台让大数据分析变得简单。Apache Spark官网对Spark的一句话介绍,即为“光速般的统一分析引擎”。
Databricks诞生于2013年,创始人来自Apache Spark的创始团队,包括加州大学伯克利分校的专家学者。Databricks以Apache Spark开源技术为基础,创建了一系列蓬勃发展的开源项目,包括Delta Lake、MLflow、Koalas等。截止2020年底,Databricks已经建立了一家拥有1500多名员工的公司,为数千个数据团队提供数据分析、数据工程、数据科学和人工智能方面的帮助。
2020年初,Databricks发表了一篇博客文章,分析了一直观察到的一个趋势:向Lakehouse架构(湖仓一体,即数据湖技术与数据仓库技术结合为一体)迈进。该体系结构基于开放架构,把构建在低成本云对象存储之上的数据湖的灵活性与 ACID 事务、数据模式(Schema)强制执行和数据仓库相关的性能结合起来。2019年,Databricks推出了Lakehouse的关键开源技术Delta Lake;2020年6月,Databricks宣布收购以色列初创公司Redash并基于其技术推出了Lakehouse关键开源技术Delta Engine。2020年,Delta Lake、Apache Spark和Databricks统一分析平台的进步,不断提高了Lakehouse架构的功能和性能。
(湖仓一体的技术优势)
湖仓一体,简单理解就是把面向企业的数据仓库技术与低廉的数据湖存储技术相结合。数据湖主要是公有云上提供的一种海量的结构化与非结构化数据的存储技术,而数据仓库主要是关系型数据的结构化数据存储与分析技术。两种技术各有其优缺点,当下企业往往分别建数据湖与数据仓库,而如果能够二者合一则可以同时获得两种技术的优点。当然,湖仓一体技术本身并不简单,整个2020年Databricks都在填补Lakehouse的技术空白。
2020年底,Gartner发布了云数据库管理系统的魔力象限(MQ),Databricks进入了远见者象限,这也是Databricks首次被纳入与数据库相关的Gartner魔力象限中。
Databricks对Lakehouse架构的追求,通过一种新的系统设计,直接在云数据湖的灵活、低成本存储上实现了与数据仓库类似的数据结构和数据管理功能。通过将两种体系结构的优点结合在一起,企业可以在同一平台上同时运行传统分析和数据科学/ML工作负载。这大幅减少了在数据湖和下游数据仓库之间不断移动数据的复杂数据操作,而且还消除了数据孤岛,让数据团队就可以在一个真实的数据源上进行操作。
Databricks的统一数据分析平台最大的优势在于能够在一个地方大规模地运行数据处理和机器学习工作负载。Databricks在2020年欧洲数据+AI峰会上宣布推出SQL Analytics,大幅扩展了数据管理和分析能力。SQL Analytics为Databricks客户提供了一流的体验,可以直接在数据湖上执行BI和SQL工作负载。该服务让数据分析师可以使用熟悉的BI工具查询数据湖和提高查询性能。Databricks表示,其技术可以为分析工作负载提供比传统云数据仓库高出9倍的性价比。
Databricks还创建了MLflow,这是一个开源的机器学习平台,可以让团队可靠地构建和生产ML机器学习应用程序。Databricks表示,随着每月超过250万次的下载,来自100个组织的200个贡献者以及4倍的同比增长,MLflow 已经成为最广泛使用的开源机器学习平台,这个平台可以跨不同的机器学习库、语言、云和本地环境。如今,MLflow构成了Databricks机器学习工作流能力的基础,以帮助确保客户能够获得最开放和最灵活的工具集。
2020年,Databricks还入选了Gartner的2020年《数据科学和机器学习平台魔力象限》,并进入了领导者象限。
Databricks是仅有几家同时被纳入两份Gartner魔力象限报告(云数据库管理系统与数据科学和机器学习)的厂商之一,也是唯一一家通过统一平台实现这一目标的厂商。Databricks让客户可以通过一个简单、开放的分析、数据科学和机器学习平台,更好、更快地利用数据来推动创新,这个平台将团队、流程和技术结合在一起。
除了在技术上不断推进统一分析平台外,Databricks与微软和AWS的紧密合作是推高其估值的重要原因,特别是与微软的合作。Databricks和微软合作创建Azure Databricks始于约4年前,在此期间Azure Databricks与Azure Synapse等其它Azure服务一起发展。建立在云存储上的数据湖,并不能原生地提供分析所需的所有类似数据库的功能,而如今Azure数据湖存储(ADLS)与Delta Lake相结合,Databricks、Synapse和Power BI等关键分析服务已经就绪,可以在让企业在一个地方利用数据应对BI、数据科学和数据工程的各种分析场景。
Azure Databricks通过高效的协作平台和代码优先的数据管道为数据工程师和数据科学家提供支持;Azure Synapse 为低延迟、高并发的 BI 提供了高性能的数据仓储,并与无代码/低代码开发集成在一起。两者都让分析师可以直接在数据湖中使用最常见的数据语法SQL进行分析,这极大提升了Azure的用户体验。
总的来说,Databricks是一个统一分析平台,同时与微软Azure的第一方合作为其提供了广阔的市场,而与AWS的紧密合作也为Databricks提供了丰富的客户源。大数据+统一分析+AI+云存储+开源+微软Azure/AWS,这就是Databricks高估值的成功公式。(文/宁川)
转载请超链接注明:头条资讯 » 大数据独角兽Databricks凭什么估值280亿美元?
免责声明 :非本网注明原创的信息,皆为程序自动获取互联网,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责;如此页面有侵犯到您的权益,请给站长发送邮件,并提供相关证明(版权证明、身份证正反面、侵权链接),站长将在收到邮件24小时内删除。