优化Apache Spark EU的Delta/Parquet数据湖

下载幻灯片

本讲座将从解释普通Parquet数据湖的最佳文件格式、压缩算法和文件大小开始。它讨论了小文件问题以及如何压缩小文件。然后,我们将讨论如何在磁盘上划分Parquet数据湖,以及在已分区的数据湖上运行查询时如何检查Spark物理计划。

我们将讨论为什么在查询分区湖时最好避免PartitionFilters,而直接获取分区。我们将解释为什么分区湖往往有一个巨大的小文件问题,以及为什么很难压缩一个分区湖。然后我们将转移到三角洲湖泊,并解释它们如何在Parquet可用的基础上提供很酷的功能。我们将从Delta 101最佳实践开始,然后转向使用OPTIMIZE命令进行压缩。

我们将讨论如何创建分区的Delta湖,以及OPTIMIZE如何在分区湖上工作。然后,我们将讨论ZORDER索引以及如何使用ZORDER索引增量地更新湖泊。最后,我们将讨论如何向分区的Delta数据湖添加ZORDER索引。

试着砖
查看更多Spark + AI欧洲峰会2019视频


«回来
马修权力
关于Matthew Powers

Prognos

Matt喜欢编写Spark开源代码,他是Sparkbob下载地址 -style-guide、Spark -daria、quinn和Spark -fast-tests的作者。他痴迷于从代码库中消除udf,完善公共接口的方法签名,以及编写可读的快速执行的测试。马特大部分时间都在哥伦比亚和墨西哥度过,他想尽快搬到巴西学习葡萄牙语。他喜欢跳舞和闲聊。在过去的生活中,马特是一名经济顾问,并通过了所有三个特许金融分析师考试。