大奖章架构

回到术语表

什么是勋章架构?

一个大奖章架构数据设计模式是否用于逻辑地组织数据lakehouse,其目标是在数据流经架构的每一层时,逐步改进数据的结构和质量(从青铜、银、金层表)。奖章体系结构有时也被称为“多跳”体系结构。

使用Delta Lake构建可靠、高性能的数据管道

湖屋建筑的好处

  • 简单数据模型
  • 易于理解和实现
  • 启用增量ETL
  • 可以在任何时候从原始数据重新创建您的表吗
  • ACID交易,时间旅行

一个关于湖边小屋的快速入门

一个lakehouse是一种新的数据平台体系结构范bob体育客户端下载例,它结合了数据湖和数据仓库的最佳特性。现代lakehouse是一个高度可扩展和高性能的数据平台,包含原始和准备好的数据集,用于快速业务消费,并推动高级业务洞察bob体育客户端下载和决策。它打破了数据孤岛,允许跨企业的授权用户在一个平台上无缝、安全地访问数据。bob体育客户端下载

Databricks Lakehouse平bob体育客户端下载台架构

青铜层(原始数据)

铜层就是我们从外部源系统获取所有数据的地方。这一层中的表结构与源系统表结构“按原样”对应,以及捕获加载日期/时间、进程ID等的任何附加元数据列。这一层的重点是快速更改数据捕获,并能够提供源(冷存储)的历史存档、数据沿袭、可审计性以及在需要时重新处理,而无需从源系统重新读取数据。

银层(已清理和一致的数据)

银层在lakehouse中,来自Bronze层的数据被匹配、合并、一致和清理(“刚刚好”),因此Silver层可以提供其所有关键业务实体、概念和交易的“企业视图”。(例如主客户、商店、非重复交易和交叉引用表)。

银层将来自不同来源的数据带入企业视图,并为特别报告、高级分析和机器学习提供自助分析。它作为部门分析师、数据工程师和数据科学家的来源,通过金层中的企业和部门数据项目进一步创建项目和分析,以回答业务问题。

在lakehouse数据工程范式中,通常遵循ELT方法而不是ETL——这意味着在加载Silver层时只应用最小的或“刚刚足够”的转换和数据清理规则。在数据湖中吸收和交付数据的速度和敏捷性是优先考虑的,在将数据从Silver层加载到Gold层时,应用了许多特定于项目的复杂转换和业务规则。从数据建模的角度来看,Silver Layer有更多类似于数据模型的第三范式。这一层可以使用类似数据库的写性能数据模型。

黄金层(管理的业务级表)

资料载于金层湖屋的数据通常被组织在消费就绪的“特定项目”数据库中。Gold层用于报告,使用更多的非规范化和读取优化数据模型,连接更少。这里应用了数据转换和数据质量规则的最后一层。项目的最后展示层,如客户分析、产品质量分析、库存分析、客户细分、产品推荐、营销/销售分析等,都属于这一层。我们看到很多Kimball风格的基于星型模式的数据模型或Inmon风格的数据集市适合这个湖屋的黄金层。

所以你可以看到,数据在湖屋的不同层中移动时是经过精心策划的。在某些情况下,我们还看到许多来自传统RDBMS技术堆栈的Data Marts和edw被引入到lakehouse中,因此企业第一次可以进行“泛edw”高级分析和ML——这在传统堆栈上是不可能实现的,或者成本太高。(例如,物联网/制造业数据与销售和营销数据相结合,用于缺陷分析或医疗保健基因组学,EMR/HL7临床数据市场与财务索赔数据相结合,创建医疗保健数据湖,用于及时和改进患者护理分析。)

奖章架构和数据网格

大奖章体系结构与数据网格。青铜表和银表可以以“一对多”的方式连接在一起,这意味着单个上游表中的数据可以用于生成多个下游表。

今天就免费试用Databricks吧

额外的资源


回到术语表