真空

适用于:检查标记是的砖的SQL检查标记是的砖运行时

删除未使用的文件从一个表目录。

请注意

这个命令是不同取决于你工作在三角洲或Apache火花表。

真空三角洲表

递归地真空目录与三角洲表相关联。真空从表中删除所有文件目录,并不是由三角洲,以及数据文件,不再在最新状态的事务日志表,保留阈值以上。真空将跳过所有目录开始用下划线(_),其中包括_delta_log。分区表列,始于一个下划线是一个例外;真空扫描所有有效的分区包含在目标三角洲表。三角洲删除表数据文件根据他们从三角洲被逻辑删除的事务日志+保留时间,不是他们修改存储系统上的时间戳。默认阈值是7天。

在三角洲表、砖自动触发真空操作。看到删除未使用的数据文件与真空

如果你运行真空在三角洲的表,你失去的能力时间旅行回一个版本比指定的数据保留周期。

警告

建议您设置一个保留间隔至少7天,因为旧的快照和未提交的文件仍然可以使用并发读者或作者。如果真空清理活动文件,并发的读者可能会失败,或者更糟的是,表时可以损坏真空删除文件,尚未提交。你必须选择一个时间间隔较长时间最长的并发事务和最长的时期,任何流可以落后于最新更新表。

三角洲湖有一个安全检查防止你运行一个危险真空命令。在砖运行时,你一定没有这个表上执行的操作,需要更长的时间比保留你计划指定的时间间隔,你可以关掉这个安全检查通过设置引发配置属性spark.databricks.delta.retentionDurationCheck.enabled

真空table_name(保留全国矿工工会小时](运行]

参数

  • table_name

    识别现有的差值表。必须不包含一个名称时间规范

  • 保留num小时

    保留阈值。

  • 排练

    返回一个列表的1000个文件被删除。

真空non-Delta表

递归地真空目录与non-Delta表和删除未提交相关文件保留阈值以上。默认阈值是7天。

non-Delta表上,砖自动触发真空数据写操作。

语法

真空table_name(保留全国矿工工会小时]

参数

  • table_name

    标识一个现有表的名称或路径。

  • 保留num小时

    保留阈值。