管理三角洲表的大小

建议,可以帮助您管理三角洲表的大小。

写的何塞·冈萨雷斯

去年发表在:2022年5月23日

δ表比传统的表有什么不同。三角洲表包括ACID事务和时间旅行的特性,这意味着他们维护事务日志和陈旧的数据文件。这些附加功能需要存储空间。

在本文中,我们讨论的建议可以帮助你管理三角洲表的大小。

使文件系统版本

使文件系统版本时,您保存您的数据的多个变种在同一个存储桶。文件系统创建版本的数据,而不是删除项目,增加可用的存储空间差值表。

使布鲁姆过滤器

布隆过滤器指数(AWS|Azure|GCP)是一种空间数据结构,使数据选择列上跳过,特别是包含任意的文本字段。砖支持文件级的布鲁姆过滤器;每个数据文件可以有一个布隆过滤器与之关联的索引文件。在阅读文件数据砖之前检查索引文件和文件是只读如果指数表明,文件可能匹配数据过滤器。

布隆过滤器的大小取决于元素数量的组创建了布隆过滤器和所需的假阳性概率(FPP)。FPP越低,每个元素使用的比特数越高和更准确的将是更多的存储空间为代价的。

回顾你的δlogRetentionDuration政策

日志文件默认保留30天。这个值是可配置的三角洲。logRetentionDuration财产。你可以设置这个属性的值ALTER TABLE设置TBLPROPERTIESSQL的方法。天你保留,你消费更多的储存空间。例如,如果你设置三角洲。logRetentionDuration =“365天”它使日志文件的365天而不是默认的30天。

真空你的差值表

真空(AWS|Azure|GCP)删除数据文件,不再在最新状态的事务日志表,保留阈值以上。删除文件根据他们从三角洲被逻辑删除的事务日志+保留时间,不是他们修改存储系统上的时间戳。默认阈值是7天。砖并不会自动触发真空三角洲上的操作表。您必须手动运行此命令。真空帮助你删除过时的文件不再需要。

优化你的差值表

优化(AWS|Azure|GCP)命令契约多个三角洲文件到大型单一文件。这可以提高整体的查询速度和性能的三角洲表帮助你避免许多小文件。默认情况下,优化创建1 gb的文件。

这篇文章有用吗?