研究

Apache Spark:大数据处理的统一引擎

作者:Matei Zaharia, Reynold S. Xin, Patrick Wendell, Tathagata Das, Michael Armbrust, Ankur Dave, Xiangrui孟,Josh Rosen, Shivaram Venkataraman, Michael J. Franklin, Ali Ghodsi, Joseph Gonzalez, Scott Shenker, Ion Stoica

下载论文

摘要

工业和研究中数据量的增长带来了巨大的机遇,也带来了巨大的计算挑战。由于数据量已经超过了单机的能力,用户需要新的系统将计算扩展到多个节点。因此,针对不同计算工作负载的新集群编程模型出现了爆炸式增长。起初,这些模型相对专业化,针对新的工作负载开发新模型;例如,MapReduce4支持批处理,但谷歌还为交互式SQL查询开发了Dremel,为迭代图算法开发了Prege1。在开源Apacbob下载地址he Hadoop堆栈中,Storm和Impala等系统也是专门的。即使在关系数据库世界中,趋势也已经远离了“一刀切”的系统。不幸的是,大多数大数据应用程序需要结合许多不同的处理类型。“大数据”的本质在于它的多样性和混乱性;典型的管道将需要类似mapreduce的代码来进行数据加载、类似sql的查询和迭代机器学习。 Specialized engines can thus create both complexity and inefficiency; users must stitch together disparate systems, and some applications simply cannot be expressed efficiently in any engine.

相关内容

作者:Matei Zaharia, Tathagata Das, Li Haoyuan, Timothy Hunter, Scott Shenker, Ion Stoica

作者:Ankur Dave, Alekh Jindal, Li Erran Li, reynolds Xin, Joseph Gonzalez, Matei Zaharia

作者:约瑟夫·e·冈萨雷斯,雷诺兹·s·辛,安库尔·戴夫,丹尼尔·克兰肖,迈克尔·j·富兰克林,Ion Stoica

作者:Shivaram Venkataraman,杨宗恒,Davies Liu, Eric Liang, Hossein Falaki, Xiangrui孟,Reynold Xin, Ali Ghodsi, Michael Franklin, Ion Stoica, Matei Zaharia

作者:Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, Ankur Dave, Justin Ma, Murphy McCauley, Michael J. Franklin, Scott Shenker, Ion Stoica