数据保险库
回到术语表什么是数据仓库?
一个数据保险库是一种用于构建企业级分析数据仓库的数据建模设计模式。数据仓库有三种类型的实体:中心,链接,而且卫星。
中心代表核心业务理念,链接表示中心和之间的关系卫星存储关于集线器及其之间关系的信息。
数据仓库是一种数据模型,非常适合于采用lakehouse范式.
数据仓库建模:中心、链接和卫星
- 中心-每个中心代表一个核心业务概念,例如它们代表客户Id/产品编号/车辆识别号码(VIN)。用户将使用业务密钥获取关于Hub的信息。业务键可能具有业务概念ID和序列ID、加载日期和其他元数据信息的组合。
- 链接—链接表示Hub实体之间的关系。
- 卫星-卫星填补了在回答核心业务概念的描述性信息缺失方面的空白。卫星存储属于Hub的信息以及它们之间的关系。
- 一颗卫星不能与另一颗卫星直接连接。
- 一个集线器或链路可以有一个或多个卫星。
数据仓库的好处
- 敏捷
- 结构化,具有重构的灵活性
- 极具可扩展性,最高可达PBs卷
- 使用支持ETL代码生成的模式
- 熟悉的架构:数据层、ETL、星型模式
数据库基于敏捷方法和技术,这意味着它们可以适应快速变化的业务需求。使用Data Vault方法的主要优点之一是,当模型更改时,ETL作业需要较少的重构。
湖屋层建模技术
有了这些概念,让我们来探索数据库如何适合我们的青铜、银和金数据层,其中数据从原始状态到完善状态,以便进行分析。在这个种架构,原始数据存储在青铜层,具有最小的转换和数据结构,尽可能接近源系统。数据库方法可以应用于银层,其中数据被转换为枢纽、链路和卫星。
在Gold层,可以根据维度建模/Kimball方法构建多个数据集市/数据仓库。如前所述,Gold层用于报告,使用更多的非规范化和读取优化数据模型,连接更少。有时候,金层中的表可以完全非规格化,通常情况下,如果数据科学家希望以这种方式为他们的特征工程算法提供数据。
如果在Silver层中使用数据仓库模型,它将简化并显著减少对数据集市和数据仓库执行ETL所需的更改,因为枢纽使密钥管理(代理密钥/自然密钥)更容易。卫星使维度的加载更容易,因为它们具有所有属性,而链接使加载事实表非常简单,因为它们具有所有关系。
资源
- Databricks的数据湖屋bob体育客户端下载平台
- Databricks SQL产品页面
- Databricks博客:不同的数据仓库建模技术以及如何在Databricks Lakehouse平台上实现它们bob体育客户端下载
- Databricks博客:什么是数据仓库以及如何在Databricks Lakehouse平台上实现它bob体育客户端下载
回到术语表