设计ETL管道与结构化流和δLake-How师

下载幻灯片

结构化流已被证明是最好的平台构建分布式流处理应用程序。bob体育客户端下载其统一SQL /数据/ DataFrame api和火花的内置功能方便开发人员来表达复杂的计算。三角洲湖,另一方面,是最好的方法来存储结构化数据,因为它是一个开源存储层为Apache火花和大数据带来了ACID事务工作负载在一起,这些可以很容易地构建管道在许多常见的场景。然而,表达业务逻辑只是问题的一部分构建端到端流管道相互作用的一个复杂的生态系统存储系统和工作负载。重要的是开发人员真正理解业务问题需要解决。Apache火花,成为一个统一的分析引擎做批bob体育亚洲版处理和流处理,通常提供倍数的方法来解决同样的问题。所以仔细理解需求帮助你师管道来解决你的业务需要资源以最有效的方式。

在这个演讲,我将分析一些常见的流设计模式上下文中的下列问题。

  • 你想使用什么?你想生产什么?业务希望最终的输出是什么?你的吞吐量和延迟需求是什么?
  • 为什么你真的有这些要求吗?将解决个人的需求管道实际解决您的端到端业务需求?
  • 解决方案是如何架构师?和你愿意支付多少钱?
  • 清晰理解“什么以及为什么”的任何问题可以自动更清晰的“如何”架构师使用结构化流,在许多情况下,三角洲湖。



    «回来
关于如来佛Das

如来佛Das是一个Apache火花提交者和PMC的一员。他背后的领先开发商火花流,目前开发结构化流。以前,他是一个研究生在加州大学伯克利分校AMPLab,他在那里研究关于数据中心框架和网络和斯科特Shenker离子斯托伊卡。