吉赛尔·范东恩

首席数据科学家Klarrio

    Giselle van Dongen是Klarrio的首席数据科学家,专注于实时数据分析、处理和可视化。同时,她是根特大学的博士研究员,教授和基准实时分布式处理系统,如Spark Streaming, Structured Streaming, Flink和Kafka Streams。

    过去的会议

    2019年欧洲峰会 流处理:选择适合工作的工具

    2019年10月15日下午05:00 PT

    由于人们对实时处理越来越感兴趣,许多流处理框架被开发出来。然而,对于为特定用例选择框架,还没有明确的指导方针。在这个演讲中,采用了两个不同的场景,引导观众通过思考过程和问题,一个人应该问自己,当选择正确的工具。将要讨论的流处理框架是Spark Streaming, Structured Streaming, Flink和Kafka Streams。

    主要问题有:

    • 它需要处理多少数据?(吞吐量)
    • 它需要快吗?(延迟)
    • 谁来建造它?(支持的语言、API级别、SQL功能、内置窗口和连接功能等)
    • 准确的排序重要吗?(事件时间vs.处理时间)
    • 是否有批处理组件?(集成批处理API)
    • 我们希望它如何运行?(部署选项:独立部署、YARN部署、mesos部署……)
    • 我们有多少状态?(状态存储选项)-如果消息丢失了怎么办?(消息传递保证,检查点)。

    对于这些问题,我们看看每个框架是如何解决的,以及主要的区别是什么。内容基于Giselle van Dongen的博士研究,在几个使用延迟、吞吐量和资源利用率的场景中对流处理框架进行基准测试。