Apache火花在大规模正式设置一个新记录排序

通过雷诺鑫

2014年的11月5日在工程的博客

分享这篇文章

一个月前,我们与你共享条目2014灰色竞争,一个第三方基准测量系统如何快速排序100 TB的数据(1万亿条记录)。今天,我们很高兴地宣布我们的条目已经审查基准委员会正式获得了代托纳GraySort比赛!

如果你错过了我们早些时候博客206年EC2上使用火花机,我们分类在23分钟100 TB的数据在磁盘上。相比之下,使用Hadoop MapReduce的前世界纪录2100台机器,花了72分钟。这意味着Apache火花排序相同的数据快3倍使用10 x更少的机器。所有的排序发生在磁盘(HDFS),不使用引发的内存缓存。这个条目与加州大学圣地亚哥分校的一个研究小组构建高性能的系统,我们共同创造一项新的世界纪录。

	Hadoop先生记录	火花记录	火花 1 PB
数据大小	102.5结核病	100年结核病	1000年结核病
运行时间	72分钟	23分钟	234分钟
#节点	2100年	206年	190年
#核	50400年物理	6592年虚拟化	6080年虚拟化
集群磁盘吞吐量	3150 GB / s (美国东部时间)。	618 GB / s	570 GB / s
排序基准代托纳规则	是的	是的	没有
网络	专门的数据中心,10 gbps	虚拟化(EC2) 10 gbps的网络	虚拟化(EC2) 10 gbps的网络
这种速度	1.42 TB /分钟	4.27 TB /分钟	4.27 TB /分钟
排序率/节点	0.67 GB /分钟	20.7 GB /分钟	22.5 GB /分钟

吉姆的名字命名的灰色,基准工作负载是资源密集型的措施:分类100 TB的数据遵循严格的规则产生500 TB的磁盘I / O和200 TB的网络I / O。来自世界各地的组织经常建立专用的那种机器(有时专业软件和专用硬件)参加这个基准测试。

赢得这一基准一般,容错系统引发项目标志着一个重要的里程碑。它说明了火花是履行其承诺作为更快和更可扩展为各种规模的数据处理引擎,从GBs TBs PBs。此外,我们和其他人已经验证的工作,导致火花在过去的几年里。

砖开始以来,我们一直在努力把改善可伸缩性、稳定性和性能的火花。这个基准测试建立在我们的一些主要的最近的工作在火花,包括事shuffle (火星- 2045),新的Netty-based运输模块(火星- 2468)和外部转移服务(火星- 3796)。前已经发布在Apache 1.1火花,和后两个即将到来的Apache火花1.2发行版的一部分。

你可以阅读我们以前的博客了解更BOB低频彩多关于我们赢得进入竞争。也希望未来的博客文章在这些主要的新火花特性。

最后,我们感谢亚伦·戴维森,诺曼·毛雷尔安德鲁•王最小值周,EC2和EBS团队从亚马逊网络服务,引发社会对他们的帮助。我们还要感谢基准委员会成员克里斯·尼伯格Mehul Shah,娜迦Govindaraju的支持。

免费试着砖

开始

看到所有工程的博客的帖子