用Apache Spark解决批处理和流处理中的会话问题

下载幻灯片

分析会话可以带来很多有用的反馈,告诉你什么可行,什么不可行。但由于迟早会遇到数据问题和运营成本,实现它们并不容易。在这次演讲中,我将介绍两种使用Apache Spark和AWS服务计算会话的方法。第一个将使用批处理,因此,Spark SQL,而第二个流和结构化流模块。

在演讲中,我将介绍您在创建会话时可能遇到的不同问题,如数据延迟、数据不完整、数据重复、再处理或容错等方面。我将尝试解决这些问题,并展示Apache Spark特性和AWS服务(EMR, S3)如何帮助实现这一目标。讲座结束后,您应该了解会话管道可能遇到的问题,并了解如何使用Apache Spark特性(如水印、状态存储、检查点)解决这些问题,以及如何将代码与云提供商集成。



«回来
关于Bartosz Konieczny

奥克托技术

Bartosz是一名数据工程师,喜欢使用Apache Spark和云数据服务。白天,他在OCTO Technology担任数据工程顾问。晚上,他在waitingforcode.com和becomedataengineer.com上分享他的数据工程发现。