什么是圆形湖屋建筑?

奖章体系结构描述了一系列数据层,表示存储在湖屋中的数据质量。Databricks建议采用多层方法为企业数据产品构建单一的真实来源。当数据在存储在为高效分析而优化的布局中之前经过多层验证和转换时,此体系结构保证了原子性、一致性、隔离性和持久性。条款青铜(生),(验证)黄金(丰富的)描述了这些层中每个数据的质量。

重要的是要注意,这个奖章体系结构不会取代其他维度建模技术。每一层中的模式和表可以采用各种形式和规范化程度,这取决于数据更新的频率和性质以及数据的下游用例。

组织可以利用Databricks Lakehouse创建和维护经过验证的数据集,可在整个公司访问。采用专注于将数据作为产品进行管理的组织思维方式是成功构建数据湖屋的关键步骤。

摄取原始数据到青铜层

青铜层包含未经验证的数据。在青铜层中摄取的数据通常为:

  • 维护数据源的原始状态。

  • 增量添加,并随时间增长。

  • 可以是流处理和批处理事务的任意组合。

以一种有效的存储格式保留每个数据集的完整的、未处理的历史记录,提供了重新创建给定数据系统的任何状态的能力。

额外的元数据(例如源文件名或记录数据被处理的时间)可以添加到摄取数据中,以增强可发现性、描述源数据集的状态,并优化下游应用程序的性能。

在银色层中验证和重复数据

回顾一下,青铜层包含了几乎原始状态的整个数据历史,而银色层代表了经过验证的、丰富的数据版本,可以信任它进行下游分析。

虽然Databricks坚信由青铜、银和金桌子驱动的湖屋愿景,但只需有效地实现银层就可以立即释放湖屋的许多潜在好处。

对于任何数据管道,银色层可以包含多个表。

黄金层的权力分析

这些黄金数据通常是高度精炼和聚合的,包含用于分析、机器学习和生产应用程序的数据。虽然湖屋中的所有桌子都有重要的用途,但金表代表的是已经转化为知识的数据,而不仅仅是信息。

分析师在很大程度上依赖金表来履行他们的核心职责,与客户共享的数据很少存储在这个级别之外。

对这些表的更新是作为定期安排的生产工作负载的一部分完成的,这有助于控制成本,并允许为数据的新鲜度建立服务水平协议(sla)。

虽然lakehouse没有数据仓库中可能遇到的死锁问题,但金表通常存储在单独的存储容器中,以帮助避免云对数据请求的限制。

通常,由于聚合、连接和过滤是在将数据写入gold层之前处理的,所以用户应该看到gold表中数据的低延迟查询性能。