一个数据保险库是一种用于构建企业级分析数据仓库的数据建模设计模式。数据仓库有三种类型的实体:中心,链接,而且卫星。
中心代表核心业务理念,链接表示中心和之间的关系卫星存储关于集线器及其之间关系的信息。
数据仓库是一种数据模型,非常适合于采用lakehouse范式.
还有几件事要记住:
数据库基于敏捷方法和技术,这意味着它们可以适应快速变化的业务需求。使用Data Vault方法的主要优点之一是,当模型更改时,ETL作业需要较少的重构。
有了这些概念,让我们来探索数据库如何适合我们的青铜、银和金数据层,其中数据从原始状态到完善状态,以便进行分析。在这个种架构,原始数据存储在青铜层,具有最小的转换和数据结构,尽可能接近源系统。数据库方法可以应用于银层,其中数据被转换为枢纽、链路和卫星。
在Gold层,可以根据维度建模/Kimball方法构建多个数据集市/数据仓库。如前所述,Gold层用于报告,使用更多的非规范化和读取优化数据模型,连接更少。有时候,金层中的表可以完全非规格化,通常情况下,如果数据科学家希望以这种方式为他们的特征工程算法提供数据。
如果在Silver层中使用数据仓库模型,它将简化并显著减少对数据集市和数据仓库执行ETL所需的更改,因为枢纽使密钥管理(代理密钥/自然密钥)更容易。卫星使维度的加载更容易,因为它们具有所有属性,而链接使加载事实表非常简单,因为它们具有所有关系。