研究

弹性分布式数据集:内存集群计算的容错抽象

作者:Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, Ankur Dave, Justin Ma, Murphy McCauley, Michael J. Franklin, Scott Shenker, Ion Stoica

下载论文

摘要

我们提出了弹性分布式数据集(rdd),这是一种分布式内存抽象,允许程序员以容错的方式在大型集群上执行内存计算。rdd是由当前计算框架处理效率低下的两种类型的应用程序驱动的:迭代算法和交互式数据挖掘工具。在这两种情况下,将数据保存在内存中可以提高一个数量级的性能。为了有效地实现容错,rdd提供了一种受限形式的共享内存,它基于粗粒度转换而不是对共享状态的细粒度更新。然而,我们展示了rdd具有足够的表现力,可以捕获广泛的计算类别,包括最近针对迭代作业的专门编程模型,例如Pregel,以及这些模型没有捕获的新应用程序。我们在一个名为Spark的系统中实现了rdd,并通过各种用户应用程序和基准测试对其进行了评估。

相关内容

作者:Matei Zaharia, reynolds S. Xin, Patrick Wendell, Tathagata Das, Michael Armbrust, Ankur Dave, Xiangrui孟,Josh Rosen, Shivaram Venkataraman, Michael J. Franklin, Ali Ghodsi, Joseph Gonzalez, Scott Shenker, Ion Stoica

作者:Matei Zaharia, Tathagata Das, Haoyuan Li, Timothy Hunter, Scott Shenker, Ion Stoica

作者:Ankur Dave, Alekh Jindal, Li Erran Li, reynolds Xin, Joseph Gonzalez, Matei Zaharia

作者:Joseph E. Gonzalez, Reynold S. Xin, Ankur Dave, Daniel Crankshaw, Michael J. Franklin, Ion Stoica

作者:Shivaram Venkataraman,杨宗衡,Davies Liu, Eric Liang, Hossein Falaki, Xiangrui孟,Reynold Xin, Ali Ghodsi, Michael Franklin, Ion Stoica, Matei Zaharia