研究

使用可扩展分析系统重新思考数据密集型科学

作者:Frank Austin Nothaft, Matt Massie, Timothy Danford, Zhao Zhang, Uri Laserson, Carl Yeksigian, Jey Kottalam, Arun Ahuja, Jeff Hammerbacher, Michael Linderman, Michael J. Franklin, Anthony D. Joseph, David A. Patterson

下载论文

摘要

“下一代”数据采集技术使科学家能够以更低的成本收集更多的数据。这些趋势正在广泛影响许多科学领域,包括基因组学、天文学和神经科学。我们可以通过应用当前分析系统中的水平可扩展技术来加速科学处理管道,从而解决指数级数据增长引起的问题。在本文中,我们描述了ADAM,这是一个示例基因组管道,它利用开源Apache Spark和Parquet系统实现了比当前基因组管道28倍的加速,同时降低了63%的成本。通过构建这个系统,我们能够提炼出一套技术,有效地使用商品“大数据”系统进行科学分析。为了演示我们的体系结构的通用性,我们实现了一个可伸缩的天文图像处理系统,该系统比最先进的基于mpi的系统提高了2.8 - 8.9倍。

相关内容

作者:Daniel Kang, John Emmons, Firas Abuzaid, Peter Bailis, Matei Zaharia

作者:赵章,凯尔·巴巴里,弗兰克·奥斯汀·诺瑟夫特,埃文·r·斯帕克斯,奥利弗·赞恩,迈克尔·j·富兰克林,大卫·a·帕特森,索尔·珀尔马特

作者:Aditya Ganjam,蒋俊辰,刘曦,Vyas Sekar, Faisal Siddiqui, Ion Stoica,詹吉斌,张辉

作者:Anand Padmanabha Iyer, Li Erran Li, Ion Stoica

作者:Samia N. Naccache, Scot Federman, Narayanan Veeeraraghavan, Matei Zaharia, Deanna Lee, Erik Samayoa, Jerome Bouquet, Alexander L. Greninger, Ka-Cheung Luk, Barryett Enge, Debra A. Wadford, Sharon L. Messenger, Gillian L. Genrich, Kristen Pellegrino, Gilda Grard, Eric Leroy, Bradley S. Schneider, Joseph N. Fair, Miguel A. martal ' nez, Pavel Isa, John A. Crump, Joseph L. DeRisi, Taylor Sittler, John Hackett, Jr. Steve Miller, Charles Y. Chiu

作者:Matt Massie, Frank Nothaft, Christopher Hartl, Christos Kozanitis, André舒马赫,Anthony D. Joseph, David A. Patterson