什么是Lakehouse ?

通过Ben Lorica,迈克尔时常要,雷诺鑫,马泰Zaharia和阿里Ghodsi

2020年1月30日在工程的博客

分享这篇文章

在砖在过去的几年中,我们已经看到一个新的数据管理体系结构,出现在许多客户和独立用例:的lakehouse。在这篇文章里,我们描述这个新的体系结构及其优势之前的方法。

数据仓库有悠久的历史在决策支持和商业智能应用程序。《盗梦空间》在1980年代末以来,数据仓库技术继续发展和MPP架构导致系统能够处理更大的数据大小。但同时为结构化数据仓库是伟大的,很多现代企业必须处理非结构化数据,半结构化数据,和数据高的品种,速度,和体积。数据仓库是不适合这些用例,他们当然不是最有效的成本。

随着企业开始从许多不同的来源,收集大量数据架构师开始想象一个系统为许多不同的数据分析产品和工作负载。大约十年前公司开始建设数据的湖泊——仓库各种格式的原始数据。而适合存储数据,数据湖泊缺乏一些重要的特点:他们不支持事务,他们不执行数据质量,及其一致性/隔离的缺乏使得它几乎不可能把附加和读取,和批处理和流媒体工作。由于这些原因,许多数据湖泊的承诺没有兑现,在许多情况下导致的损失很多数据仓库的好处。

需要一种灵活的、高性能的系统并没有减弱。公司要求不同的数据应用系统包括SQL分析,实时监控,数据科学和机器学习。大部分的人工智能的最新进展更好的模型来处理非结构化数据(文本、图像、视频、音频),但恰恰是这些类型的数据,数据仓库是没有优化。一个常见的方法是使用多个系统——数据湖,一些数据仓库,和其他专业系统,如流,时间序列,图形和图像数据库。拥有众多的系统引入了复杂性和更重要的是,介绍延迟数据专业人员总是需要不同的系统之间移动或复制数据。

什么是lakehouse ?

新系统也开始出现,解决数据湖泊的局限性。lakehouse是一种新的开放式体系结构,结合最好的湖泊和数据仓库的数据元素。Lakehouses启用了一个新的系统设计:实现类似的数据结构和数据管理功能直接在数据仓库上的低成本的云存储在开放格式。他们是什么你会得到如果你不得不重新设计数据仓库在现代世界,现在,廉价和高可靠的存储(以对象的形式存储)是可用的。

一个lakehouse具有以下主要特点:

事务支持:在企业lakehouse许多数据管道经常会并发读写数据。同时支持ACID事务确保一致性作为多个政党读或写数据,通常使用SQL。
模式执行和治理:Lakehouse应该有一种方法来支持模式的实施和发展,支持DW模式架构如星/雪花模式。系统应该能够推断数据完整性,它应该有强有力的治理和审计机制。
BI支持:Lakehouses启用使用BI工具直接在源数据。这样可以减少腐败和提高近因,减少延迟,降低的成本实施的两个拷贝数据数据湖和一个仓库。
存储与计算:在实践中这意味着存储和计算使用单独的集群,因此这些系统可以扩展到更多的并发用户和较大的数据大小。一些现代数据仓库也有这个属性。
开放:他们所使用的存储格式是开放和标准化、拼花等,他们提供了一个API,所以各种工具和引擎,包括机器学习和Python / R库,可以有效地访问数据直接。
支持各种数据类型从非结构化结构化数据:lakehouse可以用于存储,提炼,分析和访问许多新的数据应用程序所需的数据类型,包括图像、视频、音频、半结构化数据和文本。
支持不同的工作负载:包括数据科学、机器学习和SQL和分析。可能需要多个工具来支持所有这些工作负载,但是他们都依赖于相同的数据存储库。
端到端流:实时报告是许多企业的常态。支持流媒体不需要独立的系统致力于提供实时数据的应用程序。

这些是lakehouses的关键属性。企业等级系统需要额外的特性。安全性和访问控制基本要求的工具。数据治理功能,包括审计、保留和传承已经成为重要的特别是在最近的隐私法规。工具,使数据发现等数据目录和数据也需要使用指标。lakehouse,只需要实现这样的企业特性,测试,和一个系统的管理。

阅读完整的研究论文Lakehouse的内部运作。

一些早期的例子

的砖Lakehouse平台bob体育客户端下载lakehouse的建筑特色。微软的Azure突触分析服务,集成了Azure砖,使一个类似lakehouse模式。等管理服务BigQuery和光谱红移上面列出的一些lakehouse特性,但他们的例子,主要侧重于BI和其他SQL应用程序。公司想要构建和实现他们自己的系统访问开源文件格式(bob下载地址三角洲湖,Apache的冰山,Apache Hudi适合构建lakehouse)。

湖泊和数据仓库集成到一个单一系统中合并数据意味着数据团队可以移动得更快,因为他们可以使用数据,而不需要访问多个系统。SQL支持和水平与BI工具集成在这些早期lakehouses通常是足够的对于大多数企业数据仓库。物化视图和存储过程是可用的,但用户可能需要采用其他机制并不等同于那些传统的数据仓库。后者尤其重要”提升和转变场景”,这要求系统实现语义是几乎相同的年龄的增长,商业数据仓库。

支持其他类型的数据应用程序呢?用户的lakehouse获得各种标准工具(火花Python, R,机器学习库)等非BI工作负载数据科学和机器学习。数据探索和改进标准许多分析和数据科学应用。三角洲湖的目的是让用户逐步提高数据的质量在他们lakehouse直到它准备消费。

注意技术构建块。而分布式文件系统可以用于存储层,对象存储在lakehouses更常用。对象存储提供低成本、高可用的存储,擅长大规模并行读取——现代数据仓库的基本要求。

从BI人工智能

lakehouse是一种新的数据管理体系结构,从根本上简化了企业数据的基础设施和加速创新的时代,机器学习准备破坏每一个行业。过去的大多数数据进入一个公司的产品或决策是从操作系统结构化数据的,而今天,许多产品结合人工智能在计算机视觉的形式和语言模型中,文本挖掘等。为什么要使用lakehouse代替人工智能数据湖吗?lakehouse给你数据版本控制、治理、安全甚至ACID属性,需要对非结构化数据。

当前lakehouses降低成本,但他们的表现仍然可以延迟专业系统(比如数据仓库),多年的投资和实际部署。用户可能喜欢某些工具(BI工具、ide、笔记本)别人lakehouses还需要提高他们的用户体验和连接器流行的工具,这样他们就可以吸引各种各样的角色。这些问题和其他一些问题将随着技术的不断成熟和发展。随着时间的推移lakehouses如何填补这些漏洞,同时保留的核心属性被更简单、更高效,更有能力为不同数据的应用程序。

读了FAQ Lakehouse数据为更多的细节。