Prakhar耆那教徒的

技术人员,Qubole

    Prakhar Jain是Qubole的一名技术人员,他在那里从事Spark的工作。Prakhar拥有印度理工学院(Indian Institute of Technology,孟买)的计算机科学工程学士学位。

    过去的会议

    2019年欧洲峰会 降级:自动伸缩Apache Spark集群的致命弱点

    2019年10月15日下午05:00 PT

    在运行时(高档)向已经运行的Spark-on-Yarn集群添加节点是相当容易的。但是,在以后某个时间点工作负载较低时删除这些节点(Downscale)是一个困难的问题。要从正在运行的集群中删除一个节点,我们需要确保它既不用于计算,也不用于存储。

    但是在生产工作负载上,我们看到许多节点不能被带走,因为:

    1. 节点正在运行一些容器,尽管它们没有被充分利用,即容器在不同的节点上是碎片化的。的例子。-每个节点运行1-2个容器/执行器,尽管它们有资源运行4个容器。
    2. 节点在本地磁盘上有一些shuffle数据,这些数据将被后续运行在该集群上的Spark应用程序消耗。在这种情况下,资源管理器永远不会决定回收这些节点,因为丢失shuffle数据可能会导致代价高昂的阶段重新计算。

    在本次演讲中,我们将讨论如何在存在此类约束的情况下改进Spark-on-YARN集群的降尺度。我们将讨论YARN和Spark任务调度程序中容器分配调度策略的变化,它们共同帮助我们实现更好的容器打包。这确保容器在较少的节点集上进行碎片整理,因此一些节点没有任何计算。除此之外,我们还将介绍Spark驱动程序和外部Shuffle服务(ESS)的增强功能,这有助于我们主动删除我们已经知道已经消耗的Shuffle数据。这确保了节点不持有任何不必要的shuffle数据——从而将它们从存储空间中释放出来,从而可用于回收以更快地缩减规模。

    Prakhar耆那教徒的