研究

弹性分布式数据集:内存集群计算的容错抽象

作者:Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, Ankur Dave, Justin Ma, Murphy McCauley, Michael J. Franklin, Scott Shenker, Ion Stoica

下载论文

摘要

我们提出了弹性分布式数据集(rdd),这是一种分布式内存抽象,允许程序员以容错的方式在大型集群上执行内存计算。rdd是由当前计算框架处理效率不高的两类应用程序驱动的:迭代算法和交互式数据挖掘工具。在这两种情况下,将数据保存在内存中可以提高一个数量级的性能。为了有效地实现容错,rdd提供了一种受限形式的共享内存,基于对共享状态的粗粒度转换,而不是细粒度更新。然而,我们表明rdd具有足够的表达能力来捕获广泛的计算类别,包括最近针对迭代作业的专门编程模型,如Pregel,以及这些模型没有捕获的新应用程序。我们在一个名为Spark的系统中实现了rdd,我们通过各种用户应用程序和基准测试来评估该系统。

相关内容

作者:Matei Zaharia, Reynold S. Xin, Patrick Wendell, Tathagata Das, Michael Armbrust, Ankur Dave, Xiangrui孟,Josh Rosen, Shivaram Venkataraman, Michael J. Franklin, Ali Ghodsi, Joseph Gonzalez, Scott Shenker, Ion Stoica

作者:Matei Zaharia, Tathagata Das, Li Haoyuan, Timothy Hunter, Scott Shenker, Ion Stoica

作者:Ankur Dave, Alekh Jindal, Li Erran Li, reynolds Xin, Joseph Gonzalez, Matei Zaharia

作者:约瑟夫·e·冈萨雷斯,雷诺兹·s·辛,安库尔·戴夫,丹尼尔·克兰肖,迈克尔·j·富兰克林,Ion Stoica

作者:Shivaram Venkataraman,杨宗恒,Davies Liu, Eric Liang, Hossein Falaki, Xiangrui孟,Reynold Xin, Ali Ghodsi, Michael Franklin, Ion Stoica, Matei Zaharia