流，流，流:不同的流式方法与Apache Spark和Kafka

在NMC(尼尔森营销云)，我们为我们的客户(营销人员和出版商)提供实时分析工具来分析他们的目标受众。为了实现这一目标，我们需要每天将数十亿个事件吸收到我们的大数据存储中，并且我们需要以一种可扩展且经济高效的方式来做到这一点。

在本次会议中，我们将讨论如何不断地改造我们的数据基础设施以支持这些目标。具体来说，我们将回顾我们如何从CSV文件和独立的Java应用程序一直到多个Kafka和Spark集群，执行流和批处理etl的混合，并支持10倍的数据增长。我们将分享我们作为Spark流和Spark结构化流的早期采用者的经验，以及我们如何克服技术障碍(有很多)。我们将提供一个相当独特的解决方案，使用Kafka来模拟数据湖上的流，同时显著降低我们的云服务成本。主题包括:

Kafka和Spark Streaming用于无状态和有状态的用例
Spark结构化流作为一个可能的替代方案
将Spark Streaming与批处理etl相结合
使用Kafka在数据湖上“流式”

试着砖
查看更多Spark + AI欧洲峰会2019视频

«回来

关于伊泰·亚菲

暗示

Itai Yaffe是Imply的首席解决方案架构师。在加入Imply之前，Itai是Nielsen Identity的大数据技术主管，在那里他使用Spark、Druid、Kafka等工具处理大数据挑战。他也是以色列分部大数据女性核心团队的一员。Itai热衷于分享他的知识，并在过去的各种论坛上展示了他的现实生活经验。