bob体育客户端下载平台的博客

新砖SQL的性能改进

分享这篇文章

最初宣布在2020年,欧洲数据+人工智能峰会上,砖的SQL让你操作多重云lakehouse架构,提供了数据仓库的性能数据湖经济学。我们的愿景是让数据分析师一个简单而愉快的工具,从他们获得和分享见解lakehouse使用专用SQL UI和世界级的支持流行的BI工具。

这个博客是第一砖的一系列SQL旨在覆盖我们不断的创新使实现这一愿景:性能、易用性和治理。最近这个博客将覆盖性能优化的SQL数据砖:

  • 高并发工作负载分析
  • 智能工作负载管理
  • 高度并行的读取
  • 提高商业智能(BI)与云获取检索结果

现实生活中除了大型查询性能

砖的最初版本的SQL开始显著的性能好处——6 x的价格/性能比传统云数据仓库按下面TPC-DS 30 TB量级的基准。考虑到TPC-DS基准是一种工业标准定义的数据仓库供应商,我们很骄傲的这些结果。

砖的最初版本的SQL提供显著的性能好处——6 x的价格/性能比传统云数据仓库按照TPC-DS 30 TB量级基准

虽然这个基准模拟ETL等大型查询工作负载或深度分析工作负载,它不包括一切我们的客户。这就是为什么我们最近几个月与数以百计的客户密切合作,提供快速和可预测的性能对于现实生活中的数据分析工作负载和SQL数据查询。

我们今天正式ungate预览,我们非常兴奋地分享一些我们迄今取得的结果和性能。

场景1:高度并发工作负载分析

在与客户的工作中,我们注意到它是常见的高度并行分析工作量相对小数据集来执行。直观地说,这是有道理的——分析师通常应用过滤器和倾向于使用最近的数据超过历史数据。我们决定把这个常见用例更快。优化并发性,我们使用相同的TPC-DS基准与一个小得多的尺度因子(10 gb)和32个并发流。我们有32个机器人提交查询系统不断,实际上模拟大量真实用户之间因为机器人不休息运行查询。

我们分析结果来识别和消除瓶颈,并多次重复这一过程。数以百计的优化后,我们改进并发3 x !现在砖SQL优于一些最好的云数据仓库对于大型查询和小型的查询与大量的用户。

砖SQL优于一些最好的云数据仓库,不仅对于大型查询,但小查询大量的用户。
10 GB TPC-DS查询/人力资源在32并发流(更高更好)

场景2:智能工作负载管理

真实的工作负载,然而,不仅仅是大或小的查询。他们通常包括一个混合的小型和大型查询。因此砖的排队和负载平衡功能的SQL需要考虑。这就是为什么砖SQL查询使用双排队系统,重视小大,分析师通常更关心短查询与大的延迟。

砖的SQL查询使用双排队系统,重视小大,分析师通常更关心短查询与大的延迟。

场景3:高度并行的读取

是常见的一些表lakehouse组成物联网等许多文件如流场景的不断摄取当数据到达。在遗留系统,执行引擎可以花更多的时间比实际执行该查询清单这些文件!我们的客户也告诉我们,他们不想牺牲性能数据新鲜度。

我们很自豪地宣布将异步和高度并行IO砖SQL。当您执行一个查询,砖自动读取下一个数据块从云存储当前块处理。这大大增加了整体小文件的查询性能(通过12 x 1 mb文件)和“冷数据”(数据不缓存)的用例。

砖设计了一种新的扫描技术,可以自动读取下一块数据虽然在处理当前的块,大大提高整体小文件的查询性能。

场景4:改善BI与云获取检索结果

一旦计算查询结果,最后一英里是加速系统如何提供结果给客户端——通常BI工具像PowerBI或画面。遗留云数据仓库经常收集结果领袖(又名司机)节点,并流回客户端。这大大减缓了BI工具经验如果你抓取任何超过几兆字节的结果。

这就是为什么我们重塑这个方法用一个新的体系结构云获取。对于大型的结果,砖SQL写结果在所有的计算节点上并行云存储,然后将使用pre-signed url的列表文件发送回客户端。然后客户端并行可以下载从云存储的所有数据。我们很高兴报告高达10倍的性能提升的现实世界的客户场景!我们正在与最流行的BI工具自动启用此功能。

对于大的结果,底层并行集群现在写的所有计算节点云存储,然后将使用pre-signed url的列表文件发送回客户端。
“云获取使更快、更高带宽连接

拆包砖SQL

这些只是几个例子的性能优化和创新使砖SQL数据湖上为您提供一流的SQL性能,同时保留一个开放的方法的好处。所以这是如何工作的呢?

砖的SQL引擎盖下(marchitecture)
砖的SQL

bob下载地址三角洲湖是砖的基础SQL。开放的数据存储格式,带来最好的数据仓库系统数据湖泊,与ACID事务数据沿袭,版本控制,数据共享等等,以结构化、非结构化和半结构化数据。

SQL是砖的核心光子,一个新的本地矢量化引擎砖写SQL工作负载运行得更快。阅读我们的博客激进的速度对SQL查询数据砖:光子要学习BOB低频彩更多的知识。

和最后但并非最不重要,我们非常密切地与大量的软件供应商,以确保数据团队——分析师、数据科学家和SQL开发人员——可以很容易地使用他们的工具的选择砖SQL。我们便于联系,获取数据并使用单点登录进行身份验证,而提高速度由于并发性和短的查询性能改进我们之前所覆盖。

下一个步骤

这仅仅是开始,我们计划不断倾听和添加更多的创新服务。砖SQL已经将大量的价值很多组织Atlassian康卡斯特公司,我们迫不及待地想听到你的反馈!

如果你现有的用户数据砖,你今天可以开始使用砖SQL使用我们的入门指南Azure砖AWS。如果你没有一个砖的用户,访问www.neidfyre.com/try-databricks开始免费试用。

最后,如果你想了解更多关于砖Lakehouse平台,BOB低频彩看我们的网络研讨会,bob体育客户端下载数据管理,好的,坏的,丑陋。此外,我们还提供在线砖SQL培训实践经验,个性化的研讨会。了解更多请联系您的销售代表。BOB低频彩我们很想听听你如何使用砖SQL和如何使BI和数据分析数据湖上更加简单。

下面看讲台演讲和演示

免费试着砖

相关的帖子

看到所有bob体育客户端下载平台的博客的帖子