具有变更数据捕获的现代ETL管道

下载幻灯片

在这次演讲中,我们将介绍如何在GetYourGuide中使用Debezium、Kafka、Spark和Airflow从头构建一个全新的ETL管道,它可以自动处理模式更改。我们的起点是一个容易出错的遗留系统,它每天都在运行,并且很容易破坏模式更改,这导致了许多随叫随到的不眠之夜。与大多数公司一样,我们也需要连接到传统的SQL数据库以提取相关数据。

这通常通过使用sqoop等工具对数据进行完整或部分复制来实现。然而,最近另一种非常流行的方法是使用Debezium作为变更数据捕获层,读取数据库的binlog,并将这些变更直接流到Kafka。由于每天只有一次数据对我们的业务来说已经不够了,而且我们希望我们的管道能够适应上游模式的变化,所以我们决定使用Debezium重建我们的ETL。

我们将带领观众通过我们遵循的步骤来构建和开发这样的解决方案,使用Databricks来减少操作时间。通过建立这个新的管道,我们现在能够每天多次刷新我们的数据湖,为我们的用户提供新鲜的数据,并保护我们的睡眠。

试着砖
查看更多Spark + AI欧洲峰会2019视频


«回来
关于蒂亚戈·里戈

GetYourGuide

Thiago过去7年一直从事软件工程工作,最近3年主要从事数据工程。作为一名数据工程师,他参与过与数据仓库、数据质量和事件处理相关的各种项目。在GetYourGuide,他是数据平台团队的一员,负责架构、构建和监控数据bob体育客户端下载管道,为内部和外部用户提供服务。

关于David Mariassy

GetYourGuide

David是Get Your Guide数据平台团队的数据工程师,他专注于为内部客户提供高质量、低延迟的数据产品。bob体育客户端下载他在柏林电子商务领域拥有超过5年的商业智能和数据工程经验。他喜欢开发易于维护、测试和发展的数据管道,并对函数式编程有着浓厚的兴趣。