提取转换加载(ETL)

ETL是什么?

的数据量、数据来源和数据类型在组织成长,利用这些数据的重要性分析,数据科学和机器学习计划获得业务洞察力增长。需要优先考虑这些举措将面临越来越大的压力数据工程团队,因为处理原始的、混乱的数据放入干净、新鲜的、可靠的数据是一个关键的步骤之前,这些行动可以追求。ETL,代表提取、转换和加载,过程数据工程师使用提取来自不同数据源的数据,将数据转换为可用的和值得信赖的资源,和数据加载到系统下游终端用户可以访问和使用来解决业务问题。

etl过程

ETL是如何工作的呢?

提取

这个过程的第一步是提取数据从目标来源通常是异构等业务系统,api,传感器数据,营销工具,和事务数据库,和其他人。正如你所看到的,这些数据类型可能是广泛使用的结构化输出系统,而另一些则半结构化JSON服务器日志。有不同的方法来执行提取:三个数据提取方法:

  1. 部分提取,最简单的方法获得数据如果如果源系统通知你当一个记录已经发生了改变
  2. 部分提取(更新通知)——不是所有的系统都能提供一个通知,以防更新发生;然而,他们可以指出这些记录已经改变,提供一个提取的记录。
  3. 完整的提取,有些系统无法识别哪些数据已经改变了。在这种情况下,一个完整的提取是唯一可能提取数据从系统中出来。此方法需要有一份最后提取相同的格式,所以您可以识别的变化。

变换

第二步包括转换的原始数据从数据源提取到不同的应用程序可以使用的格式。在这个阶段,数据变得洁净,映射和转换,经常到一个特定的模式,所以它满足业务的需要。这个过程需要几种类型的转换,以确保数据的质量和完整性数据通常不直接加载到目标数据源,而是通常把它上传到一个临时数据库。这一步确保了快速的回滚,以防没有按计划进行。在这个阶段,你有可能为法规遵从性,生成审计报告或诊断和修复任何数据问题。

负载

最后,load函数编写转换的过程数据暂存区域目标数据库,以前可能有也可能没有存在。根据应用程序的需求,这一过程可能非常简单或复杂的。每一个步骤可以用ETL工具或自定义代码。

ETL管道是什么?

ETL管道(或数据管道)的机制ETL过程发生。数据管道是一套工具和活动将数据从一个系统移动到另一个数据存储和处理的方法系统,它可以存储和管理不同。此外,管道允许自动获取信息从许多不同的来源,然后转换和整合在一个高性能的数据存储。

挑战与ETL

ETL是至关重要的,这个指数增加数据源和类型,建立和维护可靠的数据管道已成为一项非常有挑战性的工程部分的数据。从一开始,建立管道,确保数据可靠性是缓慢和困难。数据管道是由复杂的代码和有限的可重用性。管道建在一个环境不能用于另一个,即使底层代码非常相似,这意味着数据工程师通常瓶颈和负责每次重新发明轮子。除了管道发展,在日益复杂的管道数据质量管理架构是很困难的。坏数据通常是允许流过管道未被发现,整个数据集贬值。保持质量,确保可靠的见解,数据工程师需要编写大量自定义代码来实现质量检查和验证每一步的管道。最后,随着管道在规模和复杂性的增长,公司面临着增加操作负载管理使得数据可靠性非常难以维护。数据处理基础设施已经建立了,重新启动,修补,和更新——转化为时间和成本的提高。管道故障难以识别和更难以解决,由于缺乏可见性和工具。不管所有这些挑战,可靠的ETL绝对是一个至关重要的过程对于任何业务,希望成为insights-driven。 Without ETL tools that maintain a standard of data reliability, teams across the business are required to blindly make decisions without reliable metrics or reports. To continue to scale, data engineers need tools to streamline and democratize ETL, making the ETL lifecycle easier, and enabling data teams to build and leverage their own data pipelines in order to get to insights faster.

自动可靠的ETL三角洲湖上

三角洲生活表(DLT)可以轻松地构建和管理可靠数据管道三角洲湖上提供高质量的数据。DLT帮助数据工程团队简化ETL开发和管理声明式管道开发、自动测试和深可见性监测和恢复。

三角洲生活表

额外的资源

回到术语表