的崛起
Lakehouse范式

砖联合创始人兼首席执行官阿里Ghodsi讨论为什么数据仓库和数据湖泊没有为今天的设计用例,以及如何Lakehouse基于这些技术更好地解锁您的数据在这个主题的潜力。
在本专题总结,了解数据仓库为什么不适合现代数据管理,如GDPR和CCPA需求,音频和视频数据集和实时操作和得到的见解如何构建策划数据湖泊优化可靠性、质量和性能——在任何规模的数据集。

想看而不是读?访问的主题视频Lakehouse范式在这里。

介绍

你好,我是阿里Ghodsi砖的联合创始人和首席执行官。今天我要谈谈lakehouse。我知道这有点陈词滥调,但是我要开始通过这句名言,因为我认为在数据管理行业,我们保持建筑越来越快的马,但实际上有一个引擎未来的建造。有一个未实现的承诺有一个平台你所有的数据分析,所有数据科学,你所有的机器学习。bob体育客户端下载这就是我今天要讲的。

历史数据管理

让我们先从它的历史。这一切开始的年代。商业领袖是失明。他们不知道他们的业务是如何做的。我们想出了一个数据仓库的模式。当时的运作方式是让我们所有的数据,我们已经在我们的操作性数据存储,世界的神谕和mysql和ETL吧所有使用ETL工具到一个中央位置,把它放在干净,严格的模式和格式。然后我们可以开始业务智能和报告。然后商界领袖将知道他们的组织是如何做的。

这是太棒了。这是神奇的技术。现在它已经存在了许多年。但随着时代发生了什么是有新的要求和新的挑战的数据仓库的数据集。

一个,我们看到越来越多的视频和音频数据集和组织收集这些数据仓库不能存储。

也现在,大多数组织想要使用机器学习,数据科学、人工智能、做预测。通常这些数据集,视频和音频数据,他们或在文本数据,数据仓库构建到他们没有预测能力。也很困难,如果你想做实时的东西,如果你想要实时流媒体的支持,这并不是他们了,因为他们要求你的ETL数据第一次到一个位置。

最后专有系统,数据仓库是关闭。你移动你的数据到他们被锁在里面。因此,大多数组织开始在巨大的数据存储所有的数据存储在湖泊的blob存储。所以与数据湖,你现在可以处理所有类型的数据。你可以做数据存储数据科学、机器学习。你可以视频,音频,可以将你所有的数据存储。事实上,每个组织我们知道有一个湖,他们存储数据的数据。

但这些数据湖泊本身也有许多挑战。事实上,数据湖上,你不能做BI。所以这是不可能的商业智能工具高效地运行,容易湖泊上的数据。对于复杂的设置,通常你会真的表现不佳,因为你刚刚甩了的数据,所以你有一个不可靠的数据沼泽,你有所有这些数据,但是很难理解它。

这样的结果,很多组织最终实际上有一个数据湖的共存,他们对科学数据的所有数据,然后子集的数据进入数据仓库的模式,它可以使用BI和报告。但这共存并不是一个伟大的理想的策略,因为现在你有两个你的数据的副本。如果你修改数据仓库中的数据或数据中湖,很难保持一致。BI工具仪表板生产企业领导人经常有过时的数据,因为最近的数据实际上是在湖的数据。最后你有一个很复杂的,昂贵的系统,你首先etl数据到数据湖,然后再etl数据仓库。这是非常混乱的,在某些方面,它的许多步骤。

在砖,我们坚定的信徒,它实际上可以把所有这些用例在一个地方。我们称之为Lakehouse范例。今天和我将讨论更多。所以这是如何工作的呢?Lakehouse范式是建立在湖的数据。所以它开始在底部,将所有数据存储在一个数据。和数据的湖泊是很棒的因为他们很便宜,他们持久存储,他们有10 9的耐用性,所以99.9999和他们廉价和规模。他们也能够存储各种数据。原始数据、视频数据、音频数据结构化、非结构化。最后他们基于开放标准格式,通常铺格式或兽人格式。还有一个大的生态系统工具,操作这些格式数据的湖泊。这就是为什么数据湖泊已经起飞了。

挑战与数据湖泊

但在砖在过去的十年里,我们已经看到,还有很多问题与数据湖泊和他们仅仅不够的。,接下来我要做什么我将带您亲历的9个最常见的问题,我们看到人们对他们的数据有湖泊。我要向你解释的一些技巧,他们用来解决这个问题。

让我们开始我们看到的最常见的问题。

一个。最常见的问题是,它只是很难添加新的数据到数据湖。特别是,如果您将新数据添加到数据湖,很难同时阅读它并得到一致的结果。这是因为底层blob存储系统没有建立是一致的。他们不是文件系统。组织经常试图解决这个问题的方法是通过大量的数据的副本。所以他们会有一个副本在一个目录称为分段和另一个复制的时候准备生产,和他们试图解决这个问题。但这不是一个伟大的方式数据管理。

两个组织有一个非常困难的时期,我们看到实际修改现有数据数据湖泊,因为数据是使用批处理系统构建的火花。这变得特别糟糕随着GDPR CCPA,这需要我们做细粒度操作这些数据。细粒度操作可以涉及删除一个特定用户的记录,因为他们不想有任何记录的数据系统了。许多组织攻击的方式这是每周运行一个批处理作业,重写所有的数据在数据湖和清理是兼容的。这是非常昂贵和延迟,非常糟糕。

三个,通常工作失败,什么都注意到,部分的数据使其进入湖泊,其他部分是失踪,但这是最糟糕的部分,你不知道。年后,当你试图运行一个应用程序的数据湖,它失败了,大量的调试之后,你会发现一些工作失败的年前,只有一半的数据在数据湖。

四个,真的很难做实时操作。这确实是一个特例的第一个,但基本上添加数据并添加它,然后实时地试图读,很难在一个一致的方式。和使用两个目录的惯用伎俩并不在这里工作因为你阅读它。

五,真的很昂贵的保留历史版本的数据,尤其是在监管的行业。你需要再现性审计和治理,但这真的是很难与数据基于湖泊和批处理的系统。再一次,人们所做的只是他们做很多份所有数据并把不同日期的目录,希望他们可以跟踪所有这些不同的,没有一个编辑以前的目录。但这是非常昂贵和耗时。

六个。这些数据的湖泊已经变得相当大,元数据对他们本身也变得相当大。所以处理元数据实际上是非常困难的。通常会减缓或系统摔倒。

七个湖泊是文件,数据抽象。所以通常我们进入问题拥有数以百万计的数以百万计的微小,小文件或一些非常巨大的文件。你必须优化。

八。因此,我们将看到更多的性能问题。真的很难调整他们,使他们有很大的下游的性能。

9。最后,最后但并非最不重要,最重要的问题是数据的数据质量问题,湖泊。这是一个恒定头痛,以确保所有的数据是正确的,具有较高的质量,下游有权利模式,你可以依靠它。

三角洲湖:Lakehouse的基础

这是九个问题。砖,我们相信,有一种方法可以解决这些问题,而且我们相信我们开发的开源技术,称为三角洲湖,湖地址到底这些问题数据。bob下载地址

与三角洲湖,您可以添加可靠性、质量、性能数据湖泊。他会给你带来最好的数据仓库和数据一起湖泊。,它是基于一个开源格式和一个开源的系统,你bob下载地址不需要担心一些专有系统锁定您的系统。

三角洲湖。一个新的标准来构建Lakehouses。增加了可靠性、质量、性能数据湖泊。带来最好的数据仓库和datalakes。基于开源和开放格式bob下载地址(铺)

简而言之,我们相信这是构建Lakehouses的新标准。让我们看看这九个问题,让我们看看三角洲攻击他们。

事实证明,前五个问题实际上可以通过使用技术来解决ACID事务已经存在了几十年的数据管理系统。所以资产交易,他们的工作方式,他们确保每个操作完全成功或被中止,清理残渣。我们的实现方式,通过将事务日志旁边开铺文件。事实上,事务日志本身就是拼花格式。现在你可以确保每个操作,你在做什么,无论是流,批处理,附加,要么完全成功或得到清理和中止。

也用这个,因为我们现在存储每个三角洲的操作在事务日志中我们做的,我们现在可以真正实现所谓的时间旅行。这意味着我们可以回顾过去的交易。正如你所看到的示例中,您可以提交SQL查询,然后添加时间戳的,然后它返回到你提交查询返回的数据结果,如果你当时在指定时间戳。

这是伟大的。现在我们可以解决所有这些问题。我们有一致的读取、附加、流媒体、工作失败,和时间旅行。最重要的是,我们现在可以做插入。这意味着我们可以插入、删除、更新记录在一个细粒度的方式,正如你所看到的例子。我们可以在和删除一条记录被存储在事务日志和你不需要运行一个批处理作业来实现这一点。

这太好了。这是ACID事务。我们如何处理其余的问题?

对于元数据,事实证明,我们可以重用Apache火花。Apache火花已经是一个非常可伸缩的系统,可以处理海量数据。对于所有的元数据操作引擎盖下,我们使用Apache火花。如果最终被很小的元数据,我们实际上有一个节点实现,真的,非常快。如果是非常大的,我们可以扩展出无限。

我们如何处理性能问题?有,我们把所有的索引技术,我们能找到从过去文献中,我们实现了他们专门为湖泊的数据。所以我们实现分区自动发生在湖的数据。我们实现了一个技术数据不之前,存储数据和错误数据查询,这样你不必阅读所有的数据集如果查询只触动它的某些部分。我们添加了z值,这是一个方法你可以同时多个列索引。但与索引、访问的任何列一样快。你可以看到这里的例子实际上是多么容易添加你为数据集。太棒了,留下最后一个问题。

我们得到的数据质量如何?我们已经添加了严格的模式验证和演化的三角洲。所以它意味着三角洲表中所有的数据必须遵守严格的模式。一个星型模式,雪花模式,任何你想要的。它还包括模式演化和合并操作。但这意味着当数据进入三角洲,它总是满足模式。如果没有,我们将它移动到隔离,你可以看,你可以打扫,这让它回去,但这意味着,当你使用那张桌子,你可以确保它总是干净的。

最重要的模式验证和演化,我们还添加了一种叫做三角洲的期望。这是一个非常强大的方式,您可以在SQL,表达任何质量指标。您可以组合的列,您可以指定任何你想要的,你可以说你想要特定的表来满足所有这些品质。然后确保在任何给定的时间,你的表是原始和那些你需要的预期。这个,我们的客户正在建设我们称之为策划数据湖泊。它的工作方式是,按照惯例,他们首先存储原始数据在数据湖可能不洁净。我们称这些青铜表。但后来他们进化和清理和有更多的模式和创建银表过滤和清洗和增广得多。还有最后一个级别,黄金弹性水平,我们有黄金表,我们可能会添加业务级聚集和额外的期望,确保下游消费的确很棒。这就是我们建立一个策划数据湖。

为了缩小和总结,我们已经解决了九个问题,我们看到湖泊,数据与资产交易,利用火花,索引使它快速和模式验证和期望真正带给您的数据质量。

湖的底部,我们有数据。在上面,我们分层这个事务层,现在我们可以让我们的数据质量和可靠性。但是我们如何真正支持所有的用例,我们想要做什么?所以对这个,我们已经建立了一些砖称为δ的引擎。高性能查询引擎,我要谈一谈。这个引擎完全是API兼容3.0火花,所以它支持所有的API的火花,但它是从零开始在本机c++做向量化和自定义构建三角洲是真的,真的,真的快数据数据上湖三角洲格式。它有一个高度提高,可以基于成本的优化器优化。我们也有建于为ssd和在内存中缓存,这样我们可以加快速度我们可以掩盖了延迟和湖泊的性能数据。

这是δ引擎,但这的性能是什么?当你把它放在一起,我们看到的是什么?对这一点,我们跑的行业标准基准称为TPC-DS。我们运行了相当大比例因子,30 tb。我们看着当您运行没有δ引擎,然后我们跑它与δ引擎,我们看到一个3.3倍加速性能。这是可怕的。所以你可以获得先进的性能。现在,当你把它放在一起,你有一个数据。

三角洲湖,这是结构化的事务层,你有δ为高性能查询引擎发动机,现在你可以在Lakehouse支持所有这些不同的用例。

结论

6000 +客户在每一个行业

你可以做BI、报告数据科学和机器学习在一个地方。今天,砖有超过6000的客户。他们中的大多数已经建立了Lakehouses使用发动机和δ湖。和一些我最喜欢的是在医疗保健行业,这样的公司Regeneron实际上能够找到治疗慢性肝病,构建Lakehouse基因组数据,做机器学习找到负责疾病的基因组。客户像康卡斯特,在大众媒体,能够实际构建一个声音遥控控制,实际上可以将你所有的数据,放到Lakehouse和使用机器学习理解的命令,并在实时,让你操作。还有很多很多这样的例子,我们非常兴奋。

我们相信未兑现的承诺能完成最后一个平台进行数据分析,数据科学和机器学习与Lakehouse三角洲湖和砖。bob体育客户端下载