研究

鲨鱼:SQL和丰富的大规模分析

作者:reynolds S. Xin, Josh Rosen, Matei Zaharia, Michael J. Franklin, Scott Shenker, Ion Stoica

下载论文

摘要

Shark是一个新的数据分析系统,它将查询处理与大型集群上的复杂分析结合起来。它利用一种新颖的分布式内存抽象来提供一个统一的引擎,可以大规模地运行SQL查询和复杂的分析功能(例如,迭代机器学习),并有效地从查询过程中的故障中恢复。这使得Shark运行SQL查询的速度比Apache Hive快100倍,机器学习程序的速度比Hadoop快100倍以上。与以前的系统不同,Shark展示了在保留类似mapreduce的执行引擎和该引擎提供的细粒度容错属性的情况下实现这些加速是可能的。它以多种方式扩展了这样一个引擎,包括面向列的内存存储和动态查询中间重新规划,以有效地执行SQL。其结果是,该系统与MapReduce上报告的MPP分析数据库的加速相匹配,同时提供了他们所缺乏的容错属性和复杂的分析功能。

相关内容

作者:Michael Armbrust, Ali Ghodsi, reynolds Xin, Matei Zaharia

作者:Michael Armbrust, Tathagata Das,孙立文,Burak Yavuz,朱世雄,Mukul Murthy, Joseph Torres, Herman van Hovell, Adrian Ionescu, Alicja Łuszczak, michaola [Switakowski], michaola Szafra [nski], Xiao Li, Takuya Ueshin, Mostafa Mokhtar, Peter Boncz, Ali Ghodsi, Sameer Paranjpye, Pieter Senster, Reynold Xin, Matei Zaharia

作者:Michael Armbrust, Tathagata Das, Joseph Torres, Burak Yavuz,朱世雄,Reynold Xin, Ali Ghodsi, Ion Stoica, Matei Zaharia

作者:Shoumik Palkar, Firas Abuzaid, Peter Bailis, Matei Zaharia

作者:Michael Armbrust, reynolds S. Xin,程莲,殷怀,Davies Liu, Joseph K. Bradley, Xiangrui孟,Tomer Kaftan, Michael J. Franklin, Ali Ghodsi, Matei Zaharia