工程的博客

标杆管理大数据的SQL平台在云中bob体育客户端下载

2017年7月12日 工程的博客

分享这篇文章
对于这些基准更深的潜水,看网络研讨会雷诺鑫。

性能通常是一个关键因素在选择大数据平台。bob体育客户端下载给定的SQL是大数据分析的通用语言,我们要确保我们提供最高效的SQL的平台在我们bob体育客户端下载bob体育亚洲版统一的分析平台bob体育客户端下载

在这篇文章中,我们比较砖3.0运行时(包括Apache火花和DBIO加速器模块)和香草开源Apache火花,转眼间在云中使用行业标准bob下载地址TPC-DS v2.4基准。除了云设置,砖运行时相比,在最近10 tb的规模Cloudera基准在Apache使用本地硬件黑斑羚。在这种情况下,只有77 104 TPC-DS查询报告的黑斑羚Cloudera发表的结果。

结果表明,的总结:

  1. 砖3.0运行时优于香草火花在AWS 5 x使用相同的硬件规格。
  2. 砖优于转眼间8 x。而转眼间只能运行62 104查询,砖跑。
  3. 砖不仅优于本地黑斑羚Cloudera 3 x的查询选择的报告,但也受益于S3存储弹性,相比fixed-physical磁盘上。

复制这个基准测试,你可以得到所有的脚本在这里

TPC-DS

由第三方委员会TPC-DS是事实上的工业标准基准衡量决策支持解决方案的性能。根据其自己的主页,它定义了决策支持系统的研究大量数据,给真实的业务问题的答案,执行SQL查询各种作战需求和复杂性(如特别、报告、迭代OLAP、数据挖掘),特点是高CPU和IO负载。

这个基准测试包括104查询,锻炼很大一部分的SQL 2003标准- 99查询TPC-DS基准,其中四个与两个变量(39)14日,23日,24日和“s_max”查询执行一个完整的扫描和聚合最大的桌子,store_sales。在一个讨论早些时候博客,火花SQL是为数不多的几个开源的SQL引擎能够运行所有TPbob下载地址C-DS查询没有修改。

砖运行时和香草Apache火花

我们进行了这个实验使用最新的砖运行时的3.0版本,并与火花集群设置在另一个流行的AWS云数据平台。bob体育客户端下载砖运行时还引发了一个IO层(DBIO),使优化访问云存储(在本例中S3)。

云存储的最优火花性能不同于火花on-prem HDFS,随着云存储可以引入网络延迟或文件IO语义不一致——在某些情况下不适合大数据的软件。但在砖与火花,我们消除。

正如上文所述,火花在砖在总约5 x表现的更好的运行时和4 x更好几何平均数。接下来,我们解释基准设置的更多细节。

硬件配置我们使用以下设置在Amazon EC2上:

  • 机器类型:11 r3。超大节点(10 1工人和司机)
  • 虚拟核心CPU核心数:44(22个物理核心)
  • 系统内存:335 GB
  • 本地磁盘空间总洗牌:880 GB(数据存储为基准周日)t在S3)
  • 网络性能是描述为“温和”的亚马逊

数据集:TPC-DS 1000比例因子,S3。我们选择这个而不是比例因子10000因为转眼间,在下一节中相比,有严重问题扩大。

查询重写:没有完成的查询重写。火花SQL口味都能够运行所有104查询。

配置调优:我们使用开箱即用配置运行基准数据砖,和额外的手工调优在AWS集群。我们最初跑这一基准竞争平台上使用其默认配置但发现性能低于我们的预期。bob体育客户端下载然后,我们做了一些手工调优匹配配置在砖火花AWS会表现的更好。额外的配置在non-Databricks平台上可以找到bob体育客户端下载在这里在这里

进一步分析查询结果,我们也查询分为三类:

  1. 交互式查询:这类查询1分钟内完成。在这个类别,砖3.0运行时是快3倍。
  2. 报告查询:这类查询3分钟内完成。在这个类别,砖3.0运行时是快4倍。
  3. 深入分析查询:长时间运行的查询,可能需要一个小时或更多。在这个类别,砖运行时3.0快5倍。

因为互动查询被延迟的元数据发现瓶颈,我们观察到只有3 x加速,而报道和深度分析查询优化DBIO受益无穷。DBIO将来的版本也将大幅提高元数据的延迟发现提高交互式查询更多。

砖运行时vs转眼间

使用相同的硬件配置,我们还砖与转眼间运行时的AWS相比,使用相同的供应商建立转眼间集群。

硬件配置:同上(11 r3。超大节点)

数据集:TPC-DS 1000比例因子,S3

查询重写:我们不得不重写一些查询很快由于缺少支持分组汇总函数。即使有一些小的重写,只有62查询可以很快完成。其余系统崩溃或不返回结果。这就解释了为什么在转眼间小于总运行时的总运行时香草火花从一节,转眼间的总运行时没有考虑失败的查询。

如前所述,使用SQL 104砖完成所有的查询,和62年转眼间。比较62查询很快能够运行,砖运行时比转眼间在几何平均8 x表现的更好。砖运行时比转眼间快8倍,与丰富的ANSI SQL支持。

Apache黑斑羚On-prem砖在云中vs

Apache黑斑羚是另一个流行的查询引擎在大数据领域,主要由使用Cloudera客户。Cloudera公布基准数字黑斑羚引擎本身。的最近的基准是两个月前发布的Cloudera跑只有77 104查询。

在这个实验中,我们问自己:砖运行时如何在云设置比较物理硬件的黑斑羚的结果吗?如果我们比较使用开箱即用配置数据砖黑斑羚调谐通过产品背后的工程团队,和择优的集合查询?此外,火花在S3黑斑羚的性能与物理磁盘?本节介绍了这个实验的结果。

硬件配置:

砖运行时 Cloudera黑斑羚
CPU核心数 AWS个vcpu 144 (288) 280年
内存(GB) 2196年 1792年
本地磁盘(TB) 68年 112年
数据存储 S3(解耦的存储和计算) HDFS(本地磁盘)
机器的细节 18云i3.4xlarge 7 on-prem节点

数据集:砖,TPC-DS 10000比例因子,S3。黑斑羚,HDFS。

查询重写:没有,但选择的组77查询Cloudera团队在TPC-DS排除一些最苛刻的查询。

配置调优:没有砖;与开箱即用配置我们跑。未知Cloudera的基准是什么,因为它没有报道(查看评论)。

104查询全部完成在10000年的比例因子19990秒。下面的图对比77年的运行时查询Cloudera的报告:

如果我们把cpu的个数作为归一化因子,砖运行时,在云中使用商品硬件,比黑斑羚3 x效率:

砖运行时实现更好的性能在黑斑羚Cloudera公布的数字,在查询了黑斑羚的工程团队使用一个集群只有一半的物理CPU核心。这些数字本身并不突出一个很重要的因素是,砖实验与数据在S3中,使用分离的存储和计算,增加弹性和易于管理和本地磁盘相比,在黑斑羚做基准。

在一个早些时候博客比较S3 vs HDFS,我们得出的结论是,S3有更低的总拥有成本,虽然HDFS可能有更好的性能在每个节点的基础上。这个基准测试的结果表明,我们的优化,可以两全其美:灵活性和降低TCO的云,比on-prem性能,和更广泛的ANSI SQL支持。

结论

这篇文章报道的基准进行比较与其他大砖3.0运行时的数据引擎,包括香草Apache火花,转眼间在云端。即使提高配置在AWS的火花,火花砖运行时优于香草火花5 x使用相同的硬件规格。

相比,转眼间,砖运行时执行8 x更好,虽然能够运行所有查询。转眼间只能运行62 104查询,当火花能够运行104年香草开源版本和修改的砖。bob下载地址

相比另外云计算的结果,我们有我们的平台最近黑斑羚10 tb Cloudera结果集的规模。bob体育客户端下载结果从一个on-prem集群,砖运行时优于本地黑斑羚3 x的查询选择报告相同数量的CPU内核。砖运行时测试使用S3云存储有额外的弹性比on-prem导致降低TCO。

对于这些基准更深的潜水,看网络研讨会雷诺鑫。

利用最新的性能优化砖3.0运行时,注册一个砖帐户

免费试着砖
看到所有工程的博客的帖子