如何增量ETL和数据湖泊让生活更简单吗

通过John O 'Dwyer

2021年8月30日在工程数据

分享这篇文章

得到的早期预览O ' reilly的新电子书一步一步的指导你需要开始使用三角洲湖。

增量ETL(提取、转换和加载)在传统数据仓库已经变得司空见惯,美国疾病控制与预防中心(变化数据捕获)来源,但规模、成本、占机器学习的状态和缺乏访问不到理想。相比之下,增量ETL数据没有可能由于湖等因素无法更新数据并确定改变了大数据表中的数据。好了,直到现在还没有可能。增量ETL过程有很多好处,包括它是高效、简单和产生一个灵活的数据结构,数据科学家和数据分析师都可以使用。这个博客走过这些优势的增量ETL和数据架构,支持这种现代的方法。

首先让我们深入什么增量ETL。在一个较高的水平,这是源和目的地之间的运动数据,但只有当新的或更改的数据移动。穿过增量数据ETL可以几乎任何东西——网络流量事件或物联网传感器读数(附加的数据)或企业数据库的变化(CDC)的情况。增量ETL可以预定作为低延迟的工作或连续运行访问新数据,比如,对于商业智能(BI)的用例。下面的体系结构显示了如何通过多个表增量数据可以移动和变换,每一个都可以用于不同的目的。

ETL和数据增量湖泊的优点

利用增量ETL。有很多原因bob下载地址开源的大数据技术,如三角洲湖和Apache引发™,让它更无缝工作规模,有成本效益的和无需担心厂商锁定。顶部采取这种方法的优点包括:

便宜的大数据存储:使用大数据存储与数据仓库可以存储分开计算并保留所有历史数据的方式不是成本高昂,给你回去的灵活性和运行不同的转换在设计时不可预见的。
效率:使用增量ETL,您可以处理只需要处理的数据,新数据或更改的数据。这使ETL效率,降低成本和处理时间。
多个数据集和用例:每个数据集着陆过程中有不同的用途,可以被不同的用户角色。例如,精炼和聚合数据集(黄金表)使用数据分析师的报告,和精制文件数据使用数据科学家构建毫升模型。这就是大奖章表结构真的可以帮助得到更多的从你的数据。
原子和总是可用的数据:增量自然的处理使数据可用以来的任何时候你不吹走或加工数据。这使得中间和最终状态表提供给不同的角色在任何给定的时间点上。原子性的数据意味着,行级,要么行完全成功或失败,这使得它可以读取数据,因为它是。直到现在,在大数据技术、原子性的行级已经不可能。增量ETL的变化。
有状态的变化:知道ETL在任何给定的点在哪里状态。国家可以在ETL很难跟踪,但增量ETL跟踪状态的特性在默认情况下,这使得编码ETL变得容易得多。这有助于为计划工作,当有一个错误去接你离开的地方。
延迟:容易掉的节奏从日常工作每小时在增量ETL不断。延迟的时间差别是当数据可用来处理和加工,可以减少工作的节奏。
历史数据集/再现性:序列数据,以及它如何在保存在订单如果有一个错误或ETL需要复制,这是可以做到的。

如果增量ETL如此之大,为什么我们没有做吗?

你可能会问自己这个问题。你可能熟悉架构的部分或这将如何工作在数据仓库,它可以非常昂贵。让我们来探讨一些过去的原因,这样一个架构很难完成之前探索大数据技术,使它成为可能。

成本:疾病预防控制中心的想法/事件驱动的ETL数据仓库世界并不新鲜,但成本太高,它可以保持所有历史数据在数据仓库中,以及在多个表可以穿过的数据架构。更不用说成本和资源分配的情况下连续运行增量数据仓库ETL流程或英语教学。英语教学是提取、加载,然后变换,常用的数据仓库架构。
更新数据:听起来微不足道,但直到最近,更新数据在数据湖一直是极其困难的,有时是不可能的,特别是在规模或同时读取数据时。
状态:逐步知道最后ETL作业了,捡起很困难如果你占国家特设,但是现在有技术,使它容易接你离开的地方。这个问题可以加剧当一个进程意外停止,因为一个例外。
效率低下的:处理不仅仅是改变可能需要很长时间和更多的资源。
大数据表作为一个增量数据源:这是现在可能因为特定的原子性质的大三角洲湖等数据表。它使中间表架构。

是什么技术,帮助我们增量ETL涅槃?

我很高兴你问!许多创新的Apache火花™和三角洲湖成为可能,容易建立数据体系结构建立在增量ETL。这是有可能的技术:

在三角洲湖ACID事务:三角洲湖提供ACID(原子性、一致性、隔离、耐久性)交易,这是小说大数据架构和基本数据lakehouses。行级ACID事务做出更新,以及识别行级的变化,在源/中间三角洲湖表成为可能。的合并操作使插入(行级插入和更新操作)非常容易。
检查点:检查点在火花结构化流允许简单的状态管理,这样的状态,ETL工作离开本质上是占在体系结构中。
Trigger.Once:触发器。曾经是火花结构化流的特性,将连续的用例,从Apache卡夫卡,喜欢阅读到一个预定的工作。这意味着,如果连续/低延迟ETL的范围,你仍然可以使用的许多特性。也给你的灵活性下降的节奏安排工作并最终去连续用例没有改变你的架构。

既然增量ETL可能使用大数据和开放源码技术,你应该评估可以使用它在你的组织中,这样您可以构建所需的所有策划的数据bob下载地址集尽可能有效和容易!

阅读更多关于开源技术,使增量ETL,结账bob下载地址delta.io和spark.apache.org

免费试着砖

开始