事务性写与DBIO云存储

重要的

这个文档已经退休了,可能不会被更新。产品、服务或技术中提到的这些内容不再支持。看到酸保证砖是什么?

砖DBIO包提供了Apache火花事务写入云存储工作。这解决了很多性能和正确性问题时火花是用于进行设置(例如,直接写入存储服务)。

重要的

提交协议不尊重使用路径访问数据时结束*。例如,阅读dbfs: /我/路径只会返回已提交的更改,而阅读dbfs: / / *本人/路径将返回的所有数据文件的内容目录,不管其内容是否提交或不是。这是一个预期行为。

与DBIO事务提交,从元数据文件_started_ < id >_committed_ < id >伴随数据文件由火花工作。通常你不应该直接修改这些文件。相反,你应该使用真空命令来清除它们。

清理未提交的文件

清理未提交文件遗留火花工作,使用真空命令来删除它们。正常情况下真空发生后自动火花工作完成,但你也可以手动运行它如果工作中止。

例如,真空保留1小时删除未提交的文件超过一个小时。

重要的

  • 避免吸尘地平线的不到一个小时。它可能导致数据不一致。

也看到真空

——递归真空输出路径真空/ /输出/目录/路径的(保留<N>小时]——真空所有分区的目录表真空的表(保留<N>小时]
/ /递归真空输出路径火花sql(“真空/道路/ /输出/目录”(保留< N >小时)”)/ /真空所有分区的目录表火花sql(“真空表名(保留< N >小时)”)