研究

异构环境下MapReduce性能提升

作者:Matei Zaharia, Andy Konwinski, Anthony D. Joseph, Randy Katz, Ion Stoica

下载论文

摘要

MapReduce正在成为大规模数据并行应用(如web索引、数据挖掘和科学模拟)的重要编程模型。Hadoop是MapReduce的开源实现,广泛采用,通常用于响应时间短的工作。Hadoop的性能与它的任务调度器密切相关,它隐含地假设集群节点是同构的,任务的进度是线性的,并使用这些假设来决定何时重新执行看起来是离散的任务。在实践中,同质性假设并不总是成立。发生这种情况的一个特别引人注目的设置是虚拟化数据中心,例如Amazon的弹性计算云(EC2)。我们展示了Hadoop的调度程序在异构环境中会导致严重的性能下降。我们设计了一种新的调度算法——最长近似结束时间(LATE),该算法对异构性具有很强的鲁棒性。在EC2上的200个虚拟机集群中,LATE可以将Hadoop响应时间提高2倍。

相关内容

作者:Anand Padmanabha Iyer,刘肇星,金鑫,Shivaram Venkataraman, Vladimir Braverman, Ion Stoica

作者:Shivaram Venkataraman, Aurojit Panda, Kay Ousterhout, Michael Armbrust, Ali Ghodsi, Michael J. Franklin, Benjamin Recht, Ion Stoica

作者:Ali Ghodsi, Matei Zaharia, Benjamin Hindman, Andy Konwinski, Scott Shenker, Ion Stoica

作者:Eric Jonas, qiifan Pu, Shivaram Venkataraman, Ion Stoica, Benjamin Recht

作者:Benjamin Hindman, Andy Konwinski, Matei Zaharia, Ali Ghodsi, Anthony D. Joseph, Randy Katz, Scott Shenker, Ion Stoica

作者:李浩元,Ali Ghodsi, Matei Zaharia, Scott Shenker, Ion Stoica

作者:Matei Zaharia, Dhruba Borthakur, Joydeep Sen Sarma, Khaled Elmeleegy, Scott Shenker, Ion Stoica

作者:Michael Armbrust, Armando Fox, Rean Griffith, Anthony D. Joseph, Randy Katz, Andy Konwinski, Gunho Lee, David Patterson, Ariel Rabkin, Ion Stoica, Matei Zaharia

作者:D.卡格,H.巴拉克里什南,I.斯托伊卡,M.F.卡舒克,R.莫里斯