bob体育客户端下载平台的博客

Databricks SQL的新性能改进

分享这篇文章

最初宣布在2020欧洲数据+人工智能峰会上,砖的SQL允许您操作多云lakehouse在数据湖经济学中提供数据仓库性能的架构。我们的愿景是为数据分析师提供一个简单而令人愉快的工具,使用专门构建的SQL UI和对流行BI工具的世界级支持,从他们的湖边小屋获取和分享见解。

这篇博客是Databricks SQL系列的第一篇,旨在涵盖我们为实现这一愿景而不断带来的创新:性能、易用性和治理。这篇博客将介绍Databricks SQL的最新性能优化:

  • 高度并发的分析工作负载
  • 智能工作负载管理
  • 高度并行读取
  • 使用Cloud Fetch改进商业智能(BI)结果检索

超出大型查询的实际性能

根据下面的TPC-DS 30 TB规模基准测试,Databricks SQL的初始版本与传统的云数据仓库相比,具有显著的性能优势——高达6倍的价格/性能。考虑到TPC-DS是由数据仓库供应商定义的行业标准基准,我们真的为这些结果感到自豪。

Databricks SQL的初始版本提供了显著的性能优势——根据TPC-DS 30 TB规模基准,与传统云数据仓库相比,最高可达6倍的价格/性能

虽然这个基准测试很好地模拟了ETL工作负载或深度分析工作负载等大型查询,但它并不能覆盖客户运行的所有内容。这就是为什么我们在最近几个月与数百个客户密切合作,为现实生活中的数据分析工作负载和SQL数据查询提供快速和可预测的性能。

当我们今天正式打开预览版时,我们非常兴奋地分享到目前为止我们所取得的一些结果和性能提升。

场景1:高度并发的分析工作负载

在与客户合作的过程中,我们注意到在小型数据集上执行高并发分析工作负载是很常见的。从直觉上看,这是有道理的——分析师通常会使用过滤器,而且倾向于使用近期数据,而不是历史数据。我们决定让这个常见用例更快。为了优化并发性,我们使用了相同的TPC-DS基准测试,其规模系数要小得多(10GB)和32个并发流。所以,我们有32个机器人不断地向系统提交查询,这实际上模拟了更多的真实用户,因为机器人在运行查询之间不会休息。

我们分析结果以识别和消除瓶颈,并多次重复此过程。经过数百次优化后,我们将并发性提高了3倍!Databricks SQL现在在大型查询和有大量用户的小型查询方面都优于一些最好的云数据仓库。

Databricks SQL的性能优于一些最好的云数据仓库,不仅对于大型查询,而且对于有很多用户的小型查询。
32并发流下10gb TPC-DS查询/小时(越高越好)

场景2:智能工作负载管理

然而,真实的工作负载不仅仅是大查询或小查询。它们通常包括小型和大型查询的混合。因此Databricks SQL的排队和负载平衡功能也需要考虑到这一点。这就是为什么Databricks SQL使用双排队系统,优先考虑小查询而不是大查询,因为分析人员通常更关心短查询而不是大查询的延迟。

Databricks SQL使用双排队系统,优先考虑小查询而不是大查询,因为分析人员通常更关心短查询而不是大查询的延迟。

场景3:高度并行读取

湖屋中的一些表通常由许多文件组成,例如在流场景中,如物联网摄取,当数据连续到达时。在遗留系统中,执行引擎列出这些文件的时间要比实际执行查询的时间多得多!我们的客户还告诉我们,他们不想为了数据的新鲜度而牺牲性能。

我们很自豪地宣布在Databricks SQL中包含了异步和高度并行IO。当您执行查询时,Databricks会在处理当前数据块时自动从云存储中读取下一个数据块。这大大提高了小文件(1MB文件提高了12倍)和“冷数据”(未缓存的数据)用例的总体查询性能。

Databricks设计了一种新的扫描技术,可以在当前数据块正在处理时自动读取下一个数据块,大大提高了对小文件的整体查询性能。

场景4:使用Cloud Fetch改进BI结果检索

一旦计算出查询结果,最后一项工作就是加快系统向客户端交付结果的速度——通常是像PowerBI或Tableau这样的BI工具。传统云数据仓库通常在领导(又名驱动程序)节点上收集结果,并将其流回客户端。如果你获取的结果超过几兆字节,这会大大降低你在BI工具中的体验。

这就是为什么我们用一种叫做云获取.对于较大的结果,Databricks SQL在所有计算节点上并行地将结果写入云存储,然后使用预先签名的url将文件列表发送回客户机。然后客户端可以从云存储中并行下载所有数据。我们很高兴在真实的客户场景中报告高达10倍的性能提升!我们正在使用最流行的BI工具来自动启用这一功能。

对于较大的结果,底层集群现在在所有计算节点上并行地向云存储写入,然后使用预先签名的url将文件列表发送回客户机。
“云获取可以实现更快、更高带宽的连接

解包Databricks SQL

这些只是Databricks SQL的性能优化和创新的几个例子,这些优化和创新为您的数据湖提供了一流的SQL性能,同时保留了开放方法的优点。那么这是如何工作的呢?

Databricks SQL底层(架构)
Databricks SQL Under the Hood

bob下载地址三角洲湖是Databricks SQL的基础。它是开放的数据存储格式,将最好的数据仓库系统带到数据湖,具有ACID事务、数据沿袭、版本控制、数据共享以此类推,对于结构化、非结构化和半结构化数据都是一样的。

Databricks的核心是SQL光子是Databricks上的一个新的本地向量化引擎,用于更快地运行SQL工作负载。阅读我们的博客数据库SQL查询的基本速度:Photon Under the Hood了解更BOB低频彩多。

最后但并非最不重要的是,我们与大量软件供应商密切合作,以确保数据团队(分析师、数据科学家和SQL开发人员)可以轻松地在Databricks SQL上使用他们选择的工具。我们通过单点登录简化了连接、获取数据和身份验证,同时提高了速度,这要归功于我们之前介绍的并发性和短查询性能改进。

下一个步骤

这只是一个开始,我们计划继续倾听并为服务添加更多创新。Databricks SQL已经为许多组织带来了巨大的价值Atlassian康卡斯特公司,我们也迫不及待地想听到你的反馈!

如果您是Databricks的现有用户,您可以从今天开始使用Databricks SQL,使用我们的入门指南Azure砖AWS.如果您还不是Databricks用户,请访问www.neidfyre.com/try-databricks开始免费试用。

最后,如果您想了解更多关于Databricks LaBOB低频彩kehouse平台的信息,请观看我们的网络研讨会bob体育客户端下载数据管理,好的,坏的,丑陋的.此外,我们还在线提供Databricks SQL培训为实践经验,和个性化的研讨会。联系您的销售代表以了解更多信息。BOB低频彩我们很乐意听到您如何使用Databricks SQL,以及我们如何使您的数据湖上的BI和数据分析更加简单。

观看下面的DAIS主题演讲和演示

免费试用Databricks

相关的帖子

看到所有bob体育客户端下载平台的博客的帖子