公司博客上

砖组官方数据仓库性能记录

2021年的11月2日 公司博客上

分享这篇文章

今天,我们很自豪地宣布砖的SQL树立了一个新的世界纪录100年结核病TPC-DS数据仓库,黄金标准的性能基准。砖SQL超过2.2倍的纪录。与大多数其他基准新闻,这个结果已经正式TPC委员会的审计和审阅。

这些结果证实了研究从巴塞罗那超级计算中心,经常运行基准的导数TPC-DS流行的数据仓库。他们的最新研究数据砖和雪花相比,发现砖快2.7倍和12 x更好的性价比。这个结果验证了论文,数据仓库如雪花成为昂贵的数据大小的增加产量。

砖一直快速发展的全面的数据仓库功能直接在数据湖泊,使在一个数据架构称为两全其美数据lakehouse。我们宣布我们的全套数据仓库功能砖SQL 2020年11月。悬而未决的问题自那时起已经开放的架构基于lakehouse能否提供性能、速度和成本的典型的数据仓库。这个结果证明毫无疑问这是可能的和可以实现的lakehouse架构。

而不仅仅是分享结果,我们想借此机会与您分享我们的故事完成这种级别的性能和进入它的努力。但是我们将开始与结果:

TPC-DS世界纪录

砖SQL的交付32941245 QphDS @ 100结核病。这比之前的世界纪录被阿里巴巴的自定义构建系统,它实现14861137 QphDS @ 100结核病,2.2 x。(阿里巴巴有一个令人印象深刻的系统支持世界上最大的电子商务平台)。bob体育客户端下载砖SQL不仅大大击败纪录,它通过降低系统的总成本10%(基于出版上市定价没有任何折扣)。

这是很正常的,如果你不知道单位QphDS意味着什么。(我们不没有看公式。)QphDS TPC-DS的主要指标,代表的工作负载的性能组合,包括加载数据集(1),(2)处理序列的查询(功率测试),(3)处理多个并发查询流(吞吐量测试),和(4)运行数据插入和删除数据的维护功能。

上述结论是进一步支持的研究小组在巴塞罗那超级计算中心(BSC)最近进行了不同基准来自TPC-DS砖SQL和雪花的比较,发现砖SQL是2.7倍的速度比一个同样大小的雪花设置。

图1:运行时间为测试来自TPC-DS 100 tb权力运行,由巴塞罗那超级计算中心。
图1:运行时间为测试来自TPC-DS 100 tb权力运行,由巴塞罗那超级计算中心。

图2:价格/性能测试来自TPC-DS 100 tb权力运行,由巴塞罗那超级计算中心。
图2:价格/性能测试来自TPC-DS 100 tb权力运行,由巴塞罗那超级计算中心。

TPC-DS是什么?

TPC-DS数据仓库是一个基准定义的事务处理性能委员会(TPC)。TPC是一个非营利组织开始由数据库社区在80年代后期,专注于创建基准模拟真实场景,因此,可以用客观测量数据库系统的性能。TPC有深远的影响领域的数据库,建立供应商之间长达十年的“基准大战”像甲骨文、微软和IBM推动这个领域的发展。

“DS”TPC-DS代表“决策支持。“这包括99查询不同的复杂性,从非常简单的聚合到复杂模式挖掘。这是一个相对较新的(工作始于2000年代中期)基准反映日益增长的复杂性分析。在过去的十年左右,TPC-DS已成为事实上的标准数据仓库基准,采用几乎所有供应商。

然而,由于其复杂性,许多数据仓库系统,甚至那些由最主要的供应商,有官方基准调整他们自己的系统可能会表现很好。(一些常见的调整包括移除某些SQL特性,比如汇总或改变数据分布将倾斜)。这是其中一个原因很少有提交官方TPC-DS基准,尽管400万多页关于TPC-DS在互联网上。调整也表面上解释为什么大多数供应商似乎打败所有其他厂商根据自己的基准。

我们是怎么做到的?

如前所述,有开放式问题是否可能砖SQL SQL性能表现数据仓库。大部分的挑战可以简化为以下四个问题:

  1. 数据仓库利用专有的数据格式和,因此,可以迅速发展,而砖(基于Lakehouse)依赖于开放格式(比如Apache拼花和三角洲湖),不改变很快。因此,仓库会有固有的优势。
  2. 伟大的SQL性能要求MPP大规模并行处理架构,和砖和Apache的火花并不MPP。
  3. 经典的权衡吞吐量和延迟意味着系统可以对大型查询(吞吐量集中)或小型查询(延迟集中),而不是两个。因为砖关注大型查询,我们不得不为小查询表现不佳。
  4. 即使这是可能的,传统智慧是,它会花上十年或更长的时间来构建数据仓库系统。没有办法可以取得进展得如此之快。

在博客文章的其余部分,我们将讨论它们。

专有的和开放的数据格式

的关键原则之一Lakehouse架构是开放的存储格式。“开放”不仅避免厂商锁定,而且使一个生态系统的独立开发供应商的工具。开放格式的主要好处之一是标准化。这种标准化的结果,大部分的企业数据坐在开放数据湖泊和Apache镶木地板已成为事实上的标准来存储数据。通过将数据warehouse-grade性能开放格式,我们希望减少数据移动和简化BI和人工智能工作负载的数据架构。

一个明显的攻击“开放”是开放格式很难改变,因此很难得到改善。尽管这种观点在理论上是有道理的,但它在实践中是不准确的。

首先,它绝对是可能的开放格式演变。拼花,最流行的开放格式对于大数据存储、经历了多个迭代的改进。的一个主要动机为我们介绍三角洲湖引入额外的功能,在铺层很难做。三角洲湖为拼花带来了额外的索引和统计数据。

第二,生三角洲湖和铺砖系统自动转码的数据转换成一个更有效的格式加载数据从对象存储到本地NVMe ssd时(没有用户干预)。这使得进一步的优化机会。

说,对于大多数数据仓库工作负载,三角洲湖和拼花已经提供足够优化相比,数据仓库使用的专用格式。对于这些工作负载,优化机会主要来自处理查询的能力更快,而不是扫描更多的数据更快。作为TPC-DS,事实上,查询数据缓存在一个更优化的内部格式只有10%的速度比在S3中查询冷数据(我们发现对数据仓库我们基准测试和砖)。

MPP架构

一个常见的误解是,数据仓库使用SQL性能的MPP架构,是伟大的,虽然砖不。MPP架构能力指的是利用多个节点处理一个查询。这就是砖SQL架构。它不是基于Apache火花,而是光子的,一个完整的重写引擎,在c++从零开始,为现代SIMD硬件和沉重的并行查询处理。因此光子MPP引擎。

吞吐量和延迟贸易

吞吐量和延迟是经典的权衡在计算机系统中,这意味着系统不能同时得到高吞吐量和低延迟。如果一个设计有利于吞吐量(如通过批处理数据),它必须牺牲延迟。数据系统的上下文中,这意味着系统不能处理大型查询和小查询有效地同时。

我们不否认存在这种权衡。事实上,我们经常讨论它在我们的技术设计文档。然而,当前最先进的系统,包括我们自己的,所有的受欢迎的仓库是远离最优前沿吞吐量和延迟方面。

因此,完全有可能想出一个新的设计和实现,同时提高其吞吐量和延迟。这就是我们已经构建了几乎所有的关键支持技术在过去的两年里:光子,三角洲湖,和许多其他尖端技术改善了两个大型和小型的查询的性能,推动边境一个新的业绩记录。

时间和关注

最后,传统智慧是,它至少需要十年甚至更多的成熟的数据库系统。鉴于砖近期关注Lakehouse(支持SQL工作负载),它将花费额外的精力SQL性能。这是有效的,但是让我们解释我们如何做它比人们想象的要快得多。

首先,这项投资不只是一两年前开始。砖开始以来,我们一直在投资于各种基础技术支持SQL工作负载也将从中受益的人工智能工作负载在砖上。这包括一个全面的基于成本的查询优化器,一个本地矢量化执行引擎,以及各种功能窗口功能。绝大多数的工作负载在砖上运行通过这些多亏了火花的DataFrame API,这些组件映射到SQL引擎,所以有多年的测试和优化。我们没有做尽可能多的强调SQL工作负载。向Lakehouse是最近一个定位的变化,由我们的客户的愿望来简化他们的数据架构。

第二,SaaS模型加速了软件开发周期。在过去,大多数供应商每年发布周期,然后另一个多年周期为客户安装和采用的软件。在SaaS,我们的工程团队可以想出一个新的设计,实现它,并释放它在几天内客户的一个子集。这缩短了开发周期使团队能够快速得到反馈和创新更快。

第三,砖可以带来更多的关注领导的带宽和资本这一问题。过去企图建立一个新的数据仓库系统是通过创业公司或大型公司内部一个新的团队。从来没有一个数据库启动资金因为砖(超过3.5美元)提高到吸引人才需要构建。一个新的工作在一个大公司将是另一个的努力,和不会有领导的充分重视。

我们有一个独特的情况:我们最初集中在建立我们的业务不是数据仓库,但是在相关领域科学和人工智能(数据),共享很多常见的技术问题。这个初步的成功使我们基金史上最激进的SQL团队建设;在很短的时间内,我们组建了一个团队和广泛的数据仓库的背景,这一壮举将许多其他公司十年。其中包括首席工程师和设计师的一些最成功的数据系统,包括亚马逊红移;谷歌BigQuery F1(谷歌内部数据仓库系统)和Procella (Youtube的内部数据仓库系统);甲骨文;IBM DB2;和Microsoft SQL Server。

总而言之,需要多年才能建立伟大的SQL性能。我们不仅加速利用我们独特的情况下,我们也开始年前即使我们没有使用扩音器来宣传这个计划。

真实的客户工作负载

我们很兴奋地看到这些基准测试结果验证了我们的客户。在5000年全球组织一直在利用砖Lakehouse平台来解决一些世界上最严格的问题。bob体育客户端下载例如:

  • 面包金融是一个技术驱动的支付平台与大数据用例,如财务报告欺诈检测,信贷风bob体育客户端下载险,损失估计和full-funnel推荐引擎。在砖Lakehouse的平台上,他们能够从夜间批处理作业bob体育客户端下载转移到近乎实时的摄入,并减少数据处理时间90%。此外,数据平台可以扩展到140 x的体bob体育客户端下载积数据只有1.5 x的成本。
  • 壳牌使用我们的lakehouse平台使数以百计的数bob体育客户端下载据分析师pb级别上执行快速查询数据集使用标准的BI工具,他们认为是一个“游戏规则改变者”。
  • Regeneron加速药物目标识别,提供更快的见解计算生物学家通过减少所花费的时间在他们的整个运行查询数据集从30分钟3秒- 600 x的改进。

总结

砖SQL, Lakehouse架构之上,在市场上最快的数据仓库,并提供最好的价格/性能。现在就可以获得巨大的性能在所有数据低延迟一旦新数据摄取无需出口到另一个系统。

这是一个证明Lakehouse愿景,湖泊带来世界级的数据仓库的性能数据。当然,我们并没有建立一个数据仓库。Lakehouse架构能够覆盖所有工作负载数据,从数据仓库科学和机器学习。

但是我们还没有完成。我们组装市场上最好的球队,他们正在努力提供接下来的性能突破。除了性能之外,我们还致力于无数改进易用性和治理。期待更多的消息从我们在未来的一年。

基准的TPC不审核或验证结果来源于TPC-DS和不考虑结果的派生基准与TPC-DS公布结果。

免费试着砖

相关的帖子

看到所有公司博客上的帖子