Vacoum

应用到 :检查标注是数据布列克斯SQL检查标注是数据布列克运行时

从表目录删除未用文件

注解

命令工作方式不同取决于你是在三角洲工作还是Apachespark表

瓦库姆三角洲表

递归真空目录与Delta表相关Vacoum从表目录删除所有非Delta管理的文件,以及不再处于表交易日志最新状态并比保留阈值年长的数据文件Vacoum将跳过所有从加分开始目录_中包含delta_log.划分表列以下划线为起始点是此规则的例外Vacoum扫描目标三角洲表内所有有效分区Delta表文件按时间删除,时间从Delta事务日志逻辑删除加保留时数,而不是存储系统修改时标默认阈值为7天

三角洲表数据布列克自动触发Vacoum运维看吧清除带真空的未用数据文件.

万一你跑Vacoum三角洲表失能时间旅行回溯到比指定数据保留期旧的版本

警告

推荐设置保留区间至少7天,因为同时阅读或写表者仍可使用老快照和未委托文件ifVacoum清除活动文件,并发阅读器失效或更糟糕的是表变坏Vacoum删除尚未执行文件需要选择长于最长并行事务和最长周期的区间数,则流都可落后于最近更新表

三角湖安全检查防止运行危险Vacoum命令Databricks运行时间中,你确信表上没有操作比保留区长需要更多时间, 您可以设置spark配置属性关闭安全检查spark.databricks.delta.retentionDurationCheck.enabled虚伪.

Vacoum表名[保留式宁美市时段万事通[翻转RUN网络万事通

参数解析

  • 表名

    识别现有三角洲表名不可包含时间规范.

  • 保留时数

    保留阈值

  • 草原运行

    返回1000文件列表删除

Vacum非Delta表

递归吸尘目录关联非Delta表并删除过期超过保留阈值的非委托文件默认阈值为7天

非Delta表数据bricks自动触发Vacoum运算数据写入

语法

Vacoum表名[保留式宁美市时段万事通

参数解析

  • 表名

    标识现有表名或路径

  • 保留时数

    保留阈值