弹性分布式数据集:内存集群计算的容错抽象
摘要
我们提出了弹性分布式数据集(rdd),这是一种分布式内存抽象,允许程序员以容错的方式在大型集群上执行内存计算。rdd是由当前计算框架处理效率不高的两类应用程序驱动的:迭代算法和交互式数据挖掘工具。在这两种情况下,将数据保存在内存中可以提高一个数量级的性能。为了有效地实现容错,rdd提供了一种受限形式的共享内存,基于对共享状态的粗粒度转换,而不是细粒度更新。然而,我们表明rdd具有足够的表达能力来捕获广泛的计算类别,包括最近针对迭代作业的专门编程模型,如Pregel,以及这些模型没有捕获的新应用程序。我们在一个名为Spark的系统中实现了rdd,我们通过各种用户应用程序和基准测试来评估该系统。