Giselle van Dongen是Klarrio的首席数据科学家,专注于实时数据分析、处理和可视化。同时,她是根特大学的博士研究员,教授和基准实时分布式处理系统,如Spark Streaming, Structured Streaming, Flink和Kafka Streams。
由于人们对实时处理越来越感兴趣,许多流处理框架被开发出来。然而,对于为特定用例选择框架,还没有明确的指导方针。在这个演讲中,采用了两个不同的场景,引导观众通过思考过程和问题,一个人应该问自己,当选择正确的工具。将要讨论的流处理框架是Spark Streaming, Structured Streaming, Flink和Kafka Streams。
主要问题有:
对于这些问题,我们看看每个框架是如何解决的,以及主要的区别是什么。内容基于Giselle van Dongen的博士研究,在几个使用延迟、吞吐量和资源利用率的场景中对流处理框架进行基准测试。