火花SQL适应执行释放了欧盟在大规模集群的力量

下载幻灯片

火花SQL是一种非常有效的分布式SQL引擎OLAP和百度生产中广泛采用了许多内部BI项目。然而,百度也一直面临着很多挑战等大规模调整洗牌并行成千上万的工作,效率低下的执行计划,处理数据倾斜。在这次演讲中,我们将探索英特尔和百度在大规模的共同努力应对挑战,并提供一种自适应的概述SQL执行模式我们实现了百度的大平台,是基于火花SQL。bob体育客户端下载在运行时,自适应执行可以改变执行计划使用一个更好的自动连接策略和处理倾斜连接。它还可以改变减速机的数量,以更好地适应数据规模。一般来说,适应执行减少努力参与优化SQL查询参数,提高了执行性能,在运行时选择一个更好的执行计划和并行性。

我们也会分享我们的经验使用自适应百度的生产执行与成千上万的服务器集群,在适应性有助于执行一些复杂的查询的性能提高200%。进一步分析后,我们发现几个特殊场景在百度数据分析可以受益于优化选择更好的连接类型。我们得到2倍的性能提升在该方案中,用户想分析1000 +广告客户的成本来自网络和移动端和每一方都完整信息表10 TB铺文件计息的。现在我们正在编写调查工作来发现更多的场景从当前用户的日常工作。我们也在考虑公开策略接口基于收集的详细指标形式适应性为上层用户执行模式。

会话标签:# SAISEco12



«回来
卡森王
关于卡森王

卡森王是一个软件工程经理在英特尔数据分析软件组,他专注于流行的大数据优化和机器学习框架,推动建立聚合大数据和人工智能平台的努力。bob体育客户端下载他创建并领导的一些开源项目,如RayDP——火花射线,养老bob下载地址金MLlib——一个高度优化的火花MLlib火花自适应查询执行引擎,Hibench——一个大数据微基准套件,以及更多。

关于Chenzhao郭

郭Chenzhao大数据工程师英特尔。他毕业于浙江大学,并于2016年加入英特尔。他目前是一个贡献者的火花,养老金和HiBench。