Apache Spark:大数据处理的统一引擎
摘要
工业和研究中数据量的增长带来了巨大的机遇,也带来了巨大的计算挑战。由于数据量已经超过了单机的能力,用户需要新的系统将计算扩展到多个节点。因此,针对不同计算工作负载的新集群编程模型出现了爆炸式增长。起初,这些模型相对专业化,针对新的工作负载开发新模型;例如,MapReduce4支持批处理,但谷歌还为交互式SQL查询开发了Dremel,为迭代图算法开发了Prege1。在开源Apacbob下载地址he Hadoop堆栈中,Storm和Impala等系统也是专门的。即使在关系数据库世界中,趋势也已经远离了“一刀切”的系统。不幸的是,大多数大数据应用程序需要结合许多不同的处理类型。“大数据”的本质在于它的多样性和混乱性;典型的管道将需要类似mapreduce的代码来进行数据加载、类似sql的查询和迭代机器学习。 Specialized engines can thus create both complexity and inefficiency; users must stitch together disparate systems, and some applications simply cannot be expressed efficiently in any engine.