大卫Mariassy

GetYourGuide数据工程师

    David是Get Your Guide数据平台团队的数据工程师,他专注于为内部客户提供高质量、低延迟的数据产品。bob体育客户端下载他在柏林电子商务领域拥有超过5年的商业智能和数据工程经验。他喜欢开发易于维护、测试和发展的数据管道,并对函数式编程有着浓厚的兴趣。

    过去的会议

    2019年欧洲峰会 具有变更数据捕获的现代ETL管道

    2019年10月15日下午05:00 PT

    在这次演讲中,我们将介绍如何在GetYourGuide中使用Debezium、Kafka、Spark和Airflow从头构建一个全新的ETL管道,它可以自动处理模式更改。我们的起点是一个容易出错的遗留系统,它每天都在运行,并且很容易破坏模式更改,这导致了许多随叫随到的不眠之夜。与大多数公司一样,我们也需要连接到传统的SQL数据库以提取相关数据。

    这通常通过使用sqoop等工具对数据进行完整或部分复制来实现。然而,最近另一种非常流行的方法是使用Debezium作为变更数据捕获层,读取数据库的binlog,并将这些变更直接流到Kafka。由于每天只有一次数据对我们的业务来说已经不够了,而且我们希望我们的管道能够适应上游模式的变化,所以我们决定使用Debezium重建我们的ETL。

    我们将带领观众通过我们遵循的步骤来构建和开发这样的解决方案,使用Databricks来减少操作时间。通过建立这个新的管道,我们现在能够每天多次刷新我们的数据湖,为我们的用户提供新鲜的数据,并保护我们的睡眠。