2012年4月1日 弹性分布式数据集:内存集群计算的容错抽象 作者:Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, Ankur Dave, Justin Ma, Murphy McCauley, Michael J. Franklin, Scott Shenker, Ion Stoica 下载论文 摘要 我们提出了弹性分布式数据集(rdd),这是一种分布式内存抽象,允许程序员以容错的方式在大型集群上执行内存计算。rdd是由当前计算框架处理效率低下的两种类型的应用程序驱动的:迭代算法和交互式数据挖掘工具。在这两种情况下,将数据保存在内存中可以提高一个数量级的性能。为了有效地实现容错,rdd提供了一种受限形式的共享内存,它基于粗粒度转换而不是对共享状态的细粒度更新。然而,我们展示了rdd具有足够的表现力,可以捕获广泛的计算类别,包括最近针对迭代作业的专门编程模型,例如Pregel,以及这些模型没有捕获的新应用程序。我们在一个名为Spark的系统中实现了rdd,并通过各种用户应用程序和基准测试对其进行了评估。