离散流:大规模容错流计算
摘要
许多“大数据”应用程序必须实时处理数据。在越来越大的规模上运行这些应用程序需要并行平台来自动处理故障和离散。bob体育客户端下载不幸的是,当前的分布式流处理模型以昂贵的方式提供故障恢复,需要热复制或长时间的恢复,并且不能处理离散者。我们提出了一种新的处理模型,离散流(D-Streams),可以克服这些挑战。D-Streams启用了并行恢复机制,与传统的复制和备份方案相比,它提高了效率,并允许离散。我们展示了它们支持丰富的操作符集,同时获得类似于单节点系统的高单节点吞吐量、线性扩展到100个节点、亚秒级延迟和亚秒级故障恢复。最后,D-Streams可以很容易地与批处理和交互式查询模型(如MapReduce)组合在一起,从而支持结合这些模式的丰富应用程序。我们在一个叫做Spark Streaming的系统中实现D-Streams。