使用可扩展分析系统重新思考数据密集型科学
摘要
“下一代”数据采集技术使科学家能够以更低的成本收集更多的数据。这些趋势正在广泛影响许多科学领域,包括基因组学、天文学和神经科学。我们可以通过应用当前分析系统中的水平可扩展技术来加速科学处理管道,从而解决指数级数据增长引起的问题。在本文中,我们描述了ADAM,这是一个示例基因组管道,它利用开源Apache Spark和Parquet系统实现了比当前基因组管道28倍的加速,同时降低了63%的成本。通过构建这个系统,我们能够提炼出一套技术,有效地使用商品“大数据”系统进行科学分析。为了演示我们的体系结构的通用性,我们实现了一个可伸缩的天文图像处理系统,该系统比最先进的基于mpi的系统提高了2.8 - 8.9倍。