在Apache Spark™上介绍Databricks优化的自动伸缩

降低高达30%的云成本

通过普拉卡什Chockalingam，埃里克·梁，如来佛Das而且让斯蒂芬

2018年5月2日在公司博客上

分享这篇文章

Databricks激动地宣布我们新的优化自动缩放功能。新的Apache Spark™感知资源管理器利用Spark shuffle和执行器统计数据智能地调整集群大小，提高资源利用率。当我们测试长时间运行的大数据工作负载时，我们发现云计算节省了高达30%的成本。

当前最先进的自动伸缩方法存在什么问题?

如今，每个大数据工具都可以自动扩展计算以降低成本。但是，大多数这些工具都期望为单个作业分配静态资源大小，这没有利用云的弹性。像YARN这样的资源调度程序负责不同作业之间的“粗粒度”自动伸缩，只有在Spark作业完成后才释放资源。

/ bin / spark-submit＼
——类org.apache.spark.examples.SparkPi＼
——主纱＼
——deploy-mode集群＼#可以是客户端模式
——num-executors 50 \
/ / examples.jar /路径

Spark -submit命令示例，该命令将Spark作业所需的执行器数量作为参数。

这就引出了两个主要问题:

确定单个作业所需的执行程序的正确数量:我的工作需要多少计算资源才能在可接受的SLA范围内完成?这里有大量的试验和错误来决定正确的执行人数量。
次优资源利用这通常源于超额拨备。用户过度分配资源的原因有:
- 生产Spark作业通常有多个Spark阶段。与其他阶段相比，某些阶段可能需要大量的计算资源。用户根据需要最大资源的阶段提供许多执行程序。将这样的静态大小分配给具有多个阶段的整个Spark作业会导致资源利用率不佳。
- 处理的数据量ETL工作岗位的波动取决于一天中的时间、一周中的哪一天，以及黑色星期五等其他季节性因素。通常情况下，为Spark作业提供的资源是预期最大负载。当ETL作业处理少量数据时，这是非常低效的。

为了克服上述问题，Apache Spark提供了一个动态分配选项在这里．但这需要在同一集群中的每个工作节点上设置一个执行程序外部的shuffle服务，以允许在不删除它们所写的shuffle文件的情况下删除执行程序。虽然可以删除执行程序，但工作节点仍然保持活动状态，以便外部shuffle服务可以继续提供文件。这使得不可能通过减小集群的大小来利用云的弹性。

介绍Databricks优化自动缩放

新的优化的计算资源自动伸缩服务允许集群更积极地根据负载进行伸缩，并自动提高集群资源的利用率，而不需要用户进行任何复杂的设置。

传统的粗粒度自动伸缩算法不能在Spark作业运行时完全缩小分配给该作业的集群资源。主要原因是缺乏有关执行程序使用情况的信息。删除具有活动任务或正在使用的shuffle文件的工作者将触发中间数据的重新尝试和重新计算，这将导致更差的性能，更低的有效利用率，从而为用户带来更高的成本。然而，在集群上只有少量活动任务运行的情况下，例如Spark作业出现倾斜，或者作业的特定阶段对资源的需求较低时，无法扩展将导致较低的利用率，从而为用户带来更高的成本。这对于传统的自动缩放来说是一个巨大的错失机会。

Databricks优化的自动伸缩通过定期报告空闲执行程序和集群中中间文件位置的详细统计数据解决了这个问题。Databricks服务使用这些信息来更精确地定位工作人员，以便在利用率较低时减少工作量。特别是，该服务可以缩小并删除未充分利用的集群上的空闲工作者，即使相同的Spark作业在其他执行器上运行。这种行为与传统的自动伸缩不同，传统的自动伸缩需要完成整个Spark作业才能开始缩小。在缩小过程中，Databricks服务仅在工作对象空闲且不包含运行查询所使用的任何shuffle数据时才会删除它。因此，在降级期间，作业和查询的运行不会受到影响。

由于Databricks可以在低利用率的情况下精确地针对工作人员进行缩小，因此可以更积极地调整集群的大小以响应负载。特别是，在低利用率的情况下，Databricks集群可以大幅缩减没有终止任务或重新计算中间结果。这将浪费的计算资源降至最低，同时还保持了集群的响应性。由于Databricks可以大幅降低集群的规模，因此它也可以扩展集群向上积极响应需求，在不牺牲效率的情况下保持高响应速度。

下面一节将说明在Databricks中运行作业时使用新的自动伸缩特性的行为和优点。