bob体育客户端下载平台的博客

数据仓库建模技术及其在砖Lakehouse平台上实现bob体育客户端下载

使用数据金库和明星Lakehouse模式
分享这篇文章

lakehouse是一种新的数据平台模式相结合的最好特性bob体育客户端下载数据湖泊和数据仓库。它被设计为一个大型企业级数据平台,可以容纳许多用例和数据产品。bob体育客户端下载它可以作为一个统一的企业你所有的数据存储库:

  • 数据域,
  • 实时流的用例,
  • 数据集市,
  • 不同的数据仓库,
  • 数据科学特性存储和数据科学沙箱,
  • 部门的自助分析沙箱。

考虑到不同的用例数据组织原则和建模技术lakehouse可能适用于不同的项目。技术上,砖Lakehouse平台bob体育客户端下载可以支持很多不同的数据建模风格。在本文中,我们的目标是解释青铜/银/金数据的实现lakehouse的组织原则和不同的数据建模技术如何在每一层。

数据保险库是什么?

一个数据保险库是一个最近的数据建模设计模式用于构建企业级的数据仓库分析相比,金博和Inmon方法。

数据金库组织数据分为三种不同类型:中心,链接,卫星。中心表示核心业务实体、链接代表中心之间的关系,和卫星中心或链接存储属性。

数据保险库集中在可伸缩性、敏捷的数据仓库开发数据集成/ ETL和发展速度是很重要的。大多数客户有一个着陆区,拱顶区域和数据集市区域对应于砖组织范式的青铜、金银层。数据保险库的建模风格的中心,链接和卫星表通常适合在银层的砖Lakehouse。

BOB低频彩了解更多关于数据保险库的建模数据保险库联盟

图表显示数据保险库的建模是如何工作的,与中心,链接和卫星连接。
图表显示数据保险库的建模是如何工作的,与中心,链接和卫星连接。

维度建模是什么?

数据仓库维度建模是一种自底向上的方法来设计以优化分析。多维模型应该是用来正规化业务数据(如时间和产品)事实(交易金额和数量等),不同的主题领域是通过符合维导航到连接不同的事实表。

最常见的维度建模是星型模式。星型模式是一个多维数据模型用来组织数据,这样很容易理解和分析,很容易和直观的运行报告。Kimball-style星型模式或维度模型非常的黄金标准的表示层数据仓库和数据集市,甚至语义层和报告。星型模式设计是优化查询大型数据集。

一个星型模式的例子
一个星型模式的例子

归一化数据金库(write-optimized)和非规范化维度模型(读取最优化)数据建模风格在砖Lakehouse。数据保险库的中心和卫星在银层用于负载星型模式的维度,和数据保险库的链接表成为关键驱动表加载事实表的维度模型。BOB低频彩了解更多的维度建模金伯尔集团

Lakehouse每一层的数据组织原则

现代lakehouse是一个包罗万象的企业级数据平台。bob体育客户端下载高度可伸缩的、高性能等各种不同的用例ETL、BI,科学和流媒体数据,可能需要不同的数据建模方法。让我们来看看一个典型lakehouse组织:

图表显示特征的青铜、白银、和黄金Lakehouse架构层的数据。
图表显示特征的青铜、白银、和黄金Lakehouse架构层的数据。

铜层——着陆区

铜层是我们土地的所有数据从源系统。这一层的表结构对应于源系统表结构“按原样”,除了可以添加可选的元数据列捕捉装载日期/时间,进程ID,等等。在这一层焦点是变化数据捕获(CDC),并且能够提供一个源数据(冷藏)的历史档案,数据沿袭,如果需要审核,再加工——没有重读数据从源系统。

在大多数情况下,这是一个好主意,以保持数据的青铜层三角洲的格式,以便后续读取ETL铜层的性能,所以你可以更新青铜写疾病预防控制中心的变化。有时,当数据到达JSON或XML格式,我们确实看到客户降落在原始数据格式,然后通过改变阶段三角洲格式。所以有时候,我们看到客户清单逻辑青铜层物理着陆和暂存区。

存储原始数据的原始数据格式与一致性在着陆区也有助于你摄取数据通过摄入的工具不支持三角洲本地水槽或直接在源系统将数据存储到对象存储。这种模式也非常符合自动装卸机摄取框架中土地来源中的数据为原始文件,然后着陆区砖自动装卸机在三角洲分段层格式转换数据。

银层——企业中央存储库

银层Lakehouse,青铜层相匹配的数据,合并,符合和清洁(“足够的”),这样银层可以提供一个“企业视图”的关键业务实体、概念和事务。这类似于一个企业运营数据存储(ODS)或一个中央存储库或数据域的数据网格压缩成(如主客户、产品、交易和交叉引用表)。这个企业视图一起把来自不同数据源的数据,并支持自助服务专门报告分析,先进的分析和毫升。它也作为来源部门分析师、工程师和数据科学家进一步创建项目和数据分析来回答业务问题通过企业、部门数据项目在金层。

Lakehouse数据工程范例,通常(Extract-Load-Transform)英语教学法与传统提取-转换-装载(ETL)。英语教学方法意味着只有极少或“足够”的转换和数据清理规则应用在加载银层。所有的“企业级”规则应用在银层与具体项目的转换规则,金层中的应用。速度和敏捷性在Lakehouse摄取和交付数据优先。

从数据建模的角度来看,银层3 rd-normal形式像数据模型。数据的拱顶write-performant数据架构和数据模型可以用于这一层。如果使用一个数据库方法,原始数据保险库和业务库适合逻辑银层的湖——时间点(坑)陈述观点或物化视图将在金层。

金层,表示层

金层,可以建立多个数据集市和数据仓库按照维度建模/金博方法。正如前面所讨论的,报告和使用更多的非规范化的黄金层是用更少的连接和读取最优化的数据模型相比,银层。有时表在金层可以完全规范化,通常如果数据科学家想要这种方式喂养工程算法功能。

ETL和数据质量规则,具体项目“应用转换数据时从银层金层。最后表示层如数据仓库、数据集市和数据产品客户分析、产品/质量分析、库存分析、客户细分、产品推荐、营销/销售分析等都在这一层。金伯尔风格星形架构基础数据模型或Inmon风格数据集市Lakehouse适合这个金层。数据科学实验室和部门沙箱自助分析也属于金层。

Lakehouse数据组织范式

Lakehouse数据组织范式

总而言之,通过不同层数据传输的策划Lakehouse。

  • 铜层使用源系统的数据模型。如果数据落在原始格式,转换为DeltaLake格式在这一层。
  • 银层第一次一起把来自不同数据源的数据,符合它创建一个企业的数据视图,通常使用一个更规范化,write-optimized数据模型通常是3 rd-normal表或数据的拱顶。
  • 金层表示层与非规范化或扁平的数据模型比银层,通常使用Kimball-style维模型或明星模式。金层还房屋部门和数据科学沙箱实现自助服务分析和数据科学在整个企业。提供这些沙箱和自己的独立计算集群阻止业务团队创建自己的Lakehouse之外的数据的副本。

这种Lakehouse数据组织的方法是将数据分解,将团队联系在一起,并让他们做ETL,流媒体,BI和AI与适当的治理一个平台。bob体育客户端下载中央数据团队应该在组织创新的推动者,加速新的自助服务用户的新员工培训,以及许多并行数据项目的开发,而不是数据建模过程成为瓶颈。的砖统一的目录提供搜索和发现、治理和血统Lakehouse确保良好的数据治理节奏。

构建数据金库和星型模式数据仓库与数据砖今天SQL

数据是策划在整个Lakehouse的不同层。
如何通过各种数据传输的策划Lakehouse层。

进一步阅读:

免费试着砖

相关的帖子

看到所有bob体育客户端下载平台的博客的帖子