如何提高性能与用桶装吗

学习如何提高砖的性能通过使用用桶装。

写的亚当Pavlacka

去年发表在:2022年3月4日

用桶装在Apache火花SQL是一种优化技术。数据分配在指定数量的桶中,根据来自一个或多个用桶装列值。用桶装,从而改进了性能洗牌和排序数据表连接等下游业务之前。是初始的权衡开销洗牌和排序,但对于某些数据转换的话,这样的后期技巧能提高性能通过避免后来洗牌和排序。

这种技术是有用的维度表,常用表包含主键。时也有用有频繁涉及大型和小型表的连接操作。

笔记本下面的例子展示了不同的物理计划在执行加入桶和unbucketed表。

用桶装例子笔记本

在新标签页打开笔记本

这篇文章有用吗?