德里克Gorthy

开发人员,Zillow

    Derek Gorthy是Zillow大数据团队的高级软件工程师。他目前专注于利用Apache Spark为Zillow Offers业务设计下一代管道。此前,Derek是Avanade的高级分析师,使用Spark为技术、电信和零售行业的多家公司实现ML应用程序。为此,他在2019年Spark+AI峰会上获得了Databricks项目合作伙伴冠军奖。他拥有科罗拉多大学博尔德分校的计算机科学和定量金融学士学位。

    过去的会议

    2021年峰会 为Zillow的开发人员提供自助ETL服务

    2021年5月26日下午03:50太平洋时间

    随着组织内数据量和唯一数据源数量的增长,处理大量的新管道请求变得困难。并不是所有新的管道请求都是平等创建的——一些用于业务关键型数据集,另一些用于日常数据准备,还有一些用于实验转换,允许数据科学家快速迭代他们的解决方案。

    为了满足对新数据管道日益增长的需求,Zillow创建了多个自助服务解决方案,使任何团队都能够构建、维护和监控他们的数据管道。这些工具将编排、部署和Apache Spark处理实现从各自的用户中抽象出来。在这次演讲中,Zillow的工程师们讨论了他们创建的两个内部平台,以满足两个不同用户群体的特定需求:数据bob体育客户端下载分析师和数据生产者。每个平台都bob体育客户端下载处理其目标用户的用例,通过模块化设计利用内部服务,并允许用户创建自己的ETL,而不必担心ETL是如何实现的。

    Zillow的数据工程团队成员讨论:

    • 为什么要创建两个独立的用户界面来满足不同用户群体的需求
    • 为每个用户组选择的编排、部署、处理和其他辅助任务的抽象程度有多高
    • 他们如何利用内部服务和包,包括他们的Apache Spark包- Pipeler,在Zillow内部民主化地创建高质量、可靠的管道

    (daisna21-sessions-od)

    2020年峰会 用Apache Spark设计Zillow的下一代数据管道

    2020年6月25日下午05:00 PT

    对于数据工程师来说,开发速度和管道可维护性之间的权衡是一个不变的问题,特别是对于那些处于快速发展的组织中的数据工程师。来自数据源的额外摄取经常根据需要添加,这使得在管道之间利用共享功能变得困难。确定技术债务何时对一个组织来说是令人望而却步的可能是困难的,但是补救它可能更加困难。随着Zillow数据工程团队努力解决自己的技术债务问题,他们发现需要更高的数据质量强制执行,整合共享管道功能,以及为下游数据科学家和机器学习工程师实现复杂业务逻辑的可伸缩方式。

    在这次演讲中,Zillow团队解释了他们如何设计新的端到端管道架构,以使额外管道的创建健壮、可维护和可扩展,同时使用Apache Spark编写更少的代码行。

    Zillow的数据工程团队成员讨论:

    1. 他们如何识别数据管道开发、维护和扩展中的痛点
    2. 考虑ETL模式的优点和缺点
    3. 他们最终如何利用自己的经验,使用Apache Spark构建更可伸缩、更健壮的数据管道