流,流,流:不同的流式方法与Apache Spark和Kafka

下载幻灯片

在NMC(尼尔森营销云),我们为我们的客户(营销人员和出版商)提供实时分析工具来分析他们的目标受众。为了实现这一目标,我们需要每天将数十亿个事件吸收到我们的大数据存储中,并且我们需要以一种可扩展且经济高效的方式来做到这一点。

在本次会议中,我们将讨论如何不断地改造我们的数据基础设施以支持这些目标。具体来说,我们将回顾我们如何从CSV文件和独立的Java应用程序一直到多个Kafka和Spark集群,执行流和批处理etl的混合,并支持10倍的数据增长。我们将分享我们作为Spark流和Spark结构化流的早期采用者的经验,以及我们如何克服技术障碍(有很多)。我们将提供一个相当独特的解决方案,使用Kafka来模拟数据湖上的流,同时显著降低我们的云服务成本。主题包括:

关于伊泰·亚菲

暗示

Itai Yaffe是Imply的首席解决方案架构师。在加入Imply之前,Itai是Nielsen Identity的大数据技术主管,在那里他使用Spark、Druid、Kafka等工具处理大数据挑战。他也是以色列分部大数据女性核心团队的一员。Itai热衷于分享他的知识,并在过去的各种论坛上展示了他的现实生活经验。