动态分区修剪在Apache火花

下载幻灯片

在火花等数据分析框架是很重要的检测和避免扫描无关的数据执行查询,一个被称为分区修剪优化。动态分区修剪时优化器在解析时无法识别分区消除。特别是,我们考虑一个星型模式由一个或多个事实表引用任何数量的维度表。在这样的连接操作,我们可以删除分区连接从一个事实表读取通过识别那些由于过滤维度表的分区。在这个演讲,我们提供一个机制来执行运行时动态分区修剪通过重用维度表的散列连接我们广播结果显示显著改善对于大多数tpcd查询。

试着砖
看到更多的火花+人工智能峰会欧洲2019个视频


«回来
关于Bogdan Ghit

Bogdan Ghit砖是一个计算机科学家和软件工程师,他工作在优化SQL性能的Apache火花。加入砖之前,Bogdan追求在代尔夫特理工大学获得博士学位,他曾广泛与专注于数据中心调度数据分析框架如Hadoop和火花。他的论文已经导致了大量的出版物在ACM Sigmetrics等顶级会议和ACM - - - HPDC。

Juliusz Sompolski
关于Juliusz Sompolski

Juliusz Sompolski加入砖2017年1月,成立作为一个软件工程师的砖阿姆斯特丹的欧洲研发中心。他正在优化SQL数据砖运行时的性能。最近,他专注于商业智能工作负载的性能。