Egor Pakhomov

火花贡献者和高级软件工程师,Airbnb

    Egor是AirBnB的火花贡献者和高级软件工程师,他工作在基础设施来简化创建和管理引发管道。在加入Airbnb公司之前,他在苹果可配置,高负载流和批处理管道。Egor带领工程团队Anchorfree负责一个Hadoop之上的数据解决方案。这个解决方案包括内部DSL定义火花作业熟练的技艺,Apache飞艇,黑斑羚,画面。Egor一直在与Apache 0.9版本以来的火花。

    过去的会议

    2020年峰会 人造卫星:Airbnb的Apache火花框架数据工程

    2020年6月24日凌晨5点PT

    Apache火花是一个通用的大数据执行引擎。你可以与不同的数据源相同的一组API在批处理和流模式。这种灵活性是伟大的如果你是有经验的火花开发人员解决复杂工程问题的数据,其中可能包括毫升或流。Airbnb, 95%的数据管道日常批处理作业,从蜂巢表读取和编写蜂巢表。对于这样的工作,你想贸易一些灵活性更广泛的功能编写蜂巢或多个天处理编排。减少的灵活性的另一个优点是创建“最佳实践”,可以跟着工程师经验较少的数据。

    在AirBnB我们创建了一个名为“人造卫星”的框架,试图解决这些问题。数据工程师需要扩展基类人造卫星和编写代码没有打扰的过滤的数据转换日期的作业将运行。最终用户直接不读或写蜂巢,他们使用人造卫星为蜂巢包装。阅读包装过滤器从控制台输入数据基于参数包括时间框架。编写包装得到信息从案例类注释结果表,写关于表的元信息,使得验证数据和更多。框架的核心思想是,所有功能的工作由工作特定逻辑和运行特定的逻辑。工作具体逻辑转换定义的数据工程师和元信息表。运行特定逻辑过滤输入数据是基于当前日期和写数据蜂巢。数据工程师需要指定工作特定逻辑,人造卫星处理所有运行特定逻辑基于假设的正确方法操作日常批处理作业。https://github.com/airbnb/sputnik