优化Apache Spark EU的Delta/Parquet数据湖

本讲座将从解释普通Parquet数据湖的最佳文件格式、压缩算法和文件大小开始。它讨论了小文件问题以及如何压缩小文件。然后，我们将讨论如何在磁盘上划分Parquet数据湖，以及在已分区的数据湖上运行查询时如何检查Spark物理计划。

我们将讨论为什么在查询分区湖时最好避免PartitionFilters，而直接获取分区。我们将解释为什么分区湖往往有一个巨大的小文件问题，以及为什么很难压缩一个分区湖。然后我们将转移到三角洲湖泊，并解释它们如何在Parquet可用的基础上提供很酷的功能。我们将从Delta 101最佳实践开始，然后转向使用OPTIMIZE命令进行压缩。

我们将讨论如何创建分区的Delta湖，以及OPTIMIZE如何在分区湖上工作。然后，我们将讨论ZORDER索引以及如何使用ZORDER索引增量地更新湖泊。最后，我们将讨论如何向分区的Delta数据湖添加ZORDER索引。

试着砖
查看更多Spark + AI欧洲峰会2019视频

«回来

关于Matthew Powers

Prognos

Matt喜欢编写Spark开源代码，他是Sparkbob下载地址 -style-guide、Spark -daria、quinn和Spark -fast-tests的作者。他痴迷于从代码库中消除udf，完善公共接口的方法签名，以及编写可读的快速执行的测试。马特大部分时间都在哥伦比亚和墨西哥度过，他想尽快搬到巴西学习葡萄牙语。他喜欢跳舞和闲聊。在过去的生活中，马特是一名经济顾问，并通过了所有三个特许金融分析师考试。