动态文件修剪

动态文件修剪,可以显著提高查询的性能在三角洲湖表。动态文件修剪是特别有效的为非分区表,或加入非分区列上。动态文件修剪对性能的影响往往是相关的集群数据所以考虑使用z值最大化效益。

对于动态背景和用例文件修剪,明白了更快的SQL查询与动态文件修剪三角洲湖

配置

动态文件修剪是由以下Apache火花配置选项:

  • spark.databricks.optimizer.dynamicFilePruning(默认是真正的):指示优化器的主要标志压低过滤器。当设置为修剪、动态文件将不会生效。

  • spark.databricks.optimizer.deltaTableSizeThreshold(默认是10000000000年字节(10GB)):代表了最小大小(以字节为单位)三角洲表探头一侧连接需要触发动态文件的修剪。如果探针方面不是非常大,它可能不是值得压低过滤器和我们可以简单地扫描整个表。你可以找到δ表通过运行的大小描述细节table_name命令,然后看sizeInBytes列。

  • spark.databricks.optimizer.deltaTableFilesThreshold(默认是10在砖运行时的8.4及以上,1000年在砖运行时8.3及以下):代表三角洲表的文件数量调查方面的连接需要触发动态文件修剪。当探测器方面比阈值表包含更少的文件,动态文件修剪不触发。如果一个表只有几个文件,它可能是不值得启用动态文件修剪。你可以找到δ表通过运行的大小描述细节table_name命令,然后看numFiles列。