Mayur Bhosale

Qubole技术人员成员

    Mayur Bhosale是Qubole的技术人员,他在那里从事Spark工作。他是果阿邦皮拉尼BITS大学的毕业生,在那里他获得了计算机科学学士学位。此前,他曾在CERN-HSF担任暑期实习生,开发使用Spark处理3D数据集的计算基础设施。

    过去的会议

    2019年欧洲峰会 自动驾驶Apache Spark使用机器学习

    2019年10月16日下午05:00 PT

    在Qubole,用户在云上(900+并发节点)大规模运行Spark。在这样的规模下,为了高效地运行SLA关键任务,调优Spark配置是必不可少的。但这仍然是一项艰巨的任务,主要是由试验和错误驱动的。在这次演讲中,我们将解决在Spark上自动调优SQL工作负载的问题。同样的技术也可以适用于非sql Spark工作负载。在我们早期的工作[1]中,我们提出了一个基于简单规则和见解的模型。它在优化查询和查找运行查询的正确实例类型方面简单而有效。

    然而,在自动调优Spark配置方面,我们看到了改进的空间。在探索中,我们发现了以前使用机器学习技术解决自动调优的工作。简单模型[1]的一个主要缺点是它不能使用多次查询来改进推荐,而机器学习技术的主要缺点是它缺乏特定领域的知识。因此,我们决定将这两种技术结合起来。我们的自动调谐器与两个模型交互以达到良好的配置。

    一旦用户选择了一个要自动调优的查询,就会根据模型计算出下一个配置,并与之一起运行查询。来自运行事件日志的度量被反馈给模型以获得下一个配置。自动调谐器将继续探索良好的配置,直到满足用户指定的固定预算。我们发现,在实践中,与专家在实际工作负载下选择的配置相比,这种方法提供了更好的配置,并且很快收敛到最优配置。

    在这次演讲中,我们将介绍一种新的ML模型技术,以及它与我们之前的方法相结合的方式。实际工作负载的结果将与生产它们的限制和挑战一起展示。[1] Margoor等人,“SQL-on-Hadoop引擎的自动调优”2018,IEEE CLOUD

    Mayur Bhosale