的自适应执行引擎Apache火花SQL

下载幻灯片

在SparkSQL催化剂是一个很好的优化,提供开放接口的基于规则的优化规划阶段。然而,静态(规则)在运行时优化不会考虑任何数据分布。引入了一个自适应技术执行以来引发2.0和旨在覆盖这部分,但在早期阶段仍然悬而未决。我们增强的执行现有的自适应特性,关注执行计划调整在运行时根据不同的中间输出,就像为连接和聚合设置分区号,避免不必要的数据移动和磁盘IO,处理数据倾斜的情况下,甚至优化连接顺序CBO等. .在我们的基准比较实验中,该特性节省巨大的手动工作调优参数如打乱分区号,容易出错和误导。在这次演讲中,我们将执行公开新的自适应框架,任务调度,故障转移重试机制,运行时切换计划等。最后,我们还将分享我们的经验指标100 -300 TB TPCx-BB规模数以百计的裸金属火花集群。

会话标签:EUdev4

BOB低频彩了解更多:

  • 火花SQL适应执行释放了在大规模集群的力量


    «回来
  • 卡森王
    关于卡森王

    卡森王是一个软件工程经理在英特尔数据分析软件组,他专注于流行的大数据优化和机器学习框架,推动建立聚合大数据和人工智能平台的努力。bob体育客户端下载他创建并领导的一些开源项目,如RayDP——火花射线,养老bob下载地址金MLlib——一个高度优化的火花MLlib火花自适应查询执行引擎,Hibench——一个大数据微基准套件,以及更多。