利用分解体系结构改进Apache Spark

下载幻灯片

Shuffle在Apache Spark中是跨计算单元重新分配数据的中间短语,它有一个重要的原语,即Shuffle数据持久化在本地磁盘上。这种架构存在一些可伸缩性和可靠性问题。此外,在今天的数据中心中,配置存储的假设并不总是成立的。硬件趋势正在转向分解存储和计算架构,以获得更好的成本效率和可伸缩性。

为了解决Spark shuffle的问题并支持分解存储和计算架构,我们实现了一个新的远程Spark shuffle管理器。这种新的体系结构将随机数据写入具有不同hadoop兼容文件系统后端的远程集群。

首先,计算节点的故障将不再引起shuffle数据重计算。Spark执行器还可以动态分配和回收,从而提高资源利用率。

其次,对于大多数目前使用配置存储运行Spark的客户来说,由于成本和系统兼容性的考虑,他们通常很难将每个节点上的磁盘升级到最新的硬件,如NVMe SSD和持久内存。有了这个新的shuffle管理器,他们可以自由地构建一个单独的集群来存储和服务shuffle数据,利用最新的硬件来提高性能和可靠性。

第三,在HPC领域,越来越多的客户正在尝试Spark作为他们的高性能数据分析工具,而HPC集群中的存储和计算通常是分开的。这项工作将使他们的生活更轻松。

在这次演讲中,我们将概述当前Spark shuffle实现的问题,设计新的远程shuffle管理器,并对工作进行性能研究。

试着砖
查看更多Spark + AI欧洲峰会2019视频


«回来
关于郭晨昭

英特尔

陈昭是英特尔公司的大数据工程师。他毕业于浙江大学,2016年加入英特尔。他目前是Spark, OAP和HiBench的贡献者。

卡森王
关于Carson Wang

英特尔

Carson Wang,英特尔数据分析软件集团软件工程经理,专注于优化流行的大数据和机器学习框架,推动构建融合大数据和人工智能平台。bob体育客户端下载他创建并领导了一些开源项目,如RayDP - Spark bob下载地址on Ray, OAP MLlib -高度优化的Spark MLlib, Spark自适应查询执行引擎,Hibench -大数据微基准测试套件等。