Chenzhao郭

英特尔公司大数据工程师

    陈昭是英特尔公司的大数据工程师。他毕业于浙江大学,2016年加入英特尔。他目前是Spark, OAP和HiBench的贡献者。

    过去的会议

    2019年欧洲峰会 利用分解体系结构改进Apache Spark

    2019年10月15日下午05:00 PT

    Shuffle在Apache Spark中是跨计算单元重新分配数据的中间短语,它有一个重要的原语,即Shuffle数据持久化在本地磁盘上。这种架构存在一些可伸缩性和可靠性问题。此外,在今天的数据中心中,配置存储的假设并不总是成立的。硬件趋势正在转向分解存储和计算架构,以获得更好的成本效率和可伸缩性。

    为了解决Spark shuffle的问题并支持分解存储和计算架构,我们实现了一个新的远程Spark shuffle管理器。这种新的体系结构将随机数据写入具有不同hadoop兼容文件系统后端的远程集群。

    首先,计算节点的故障将不再引起shuffle数据重计算。Spark执行器还可以动态分配和回收,从而提高资源利用率。

    其次,对于大多数目前使用配置存储运行Spark的客户来说,由于成本和系统兼容性的考虑,他们通常很难将每个节点上的磁盘升级到最新的硬件,如NVMe SSD和持久内存。有了这个新的shuffle管理器,他们可以自由地构建一个单独的集群来存储和服务shuffle数据,利用最新的硬件来提高性能和可靠性。

    第三,在HPC领域,越来越多的客户正在尝试Spark作为他们的高性能数据分析工具,而HPC集群中的存储和计算通常是分开的。这项工作将使他们的生活更轻松。

    在这次演讲中,我们将概述当前Spark shuffle实现的问题,设计新的远程shuffle管理器,并对工作进行性能研究。

    2018欧洲峰会 Spark SQL自适应执行在大规模EU中释放集群的力量

    太平洋时间2018年10月3日下午05:00

    Spark SQL是一种非常有效的OLAP分布式SQL引擎,在百度生产中被许多内部BI项目广泛采用。然而,百度也面临着大规模的挑战,包括调优数千个作业的shuffle并行性、低效的执行计划和处理数据倾斜。在这次演讲中,我们将探讨英特尔和百度在应对大规模挑战方面的共同努力,并概述我们为百度的基于Spark SQL的Big SQL平台实现的自适应执行模式。bob体育客户端下载在运行时,自适应执行可以更改执行计划,以使用更好的连接策略并自动处理倾斜连接。它还可以改变减速器的数量,以更好地适应数据尺度。一般来说,自适应执行减少了调优SQL查询参数所涉及的工作,并通过在运行时选择更好的执行计划和并行性来提高执行性能。

    我们还将分享在拥有数千台服务器的百度生产集群中使用自适应执行的经验,其中自适应执行有助于将一些复杂查询的性能提高200%。经过进一步分析,我们发现百度数据分析中的几个特殊场景都可以受益于选择更好的连接类型的优化。在这样的场景中,用户想要从网页和移动端分析1000多个广告商的成本,并且每一方每天都有一个包含10tb parquet文件的完整信息表,我们得到了2倍的性能提升。现在我们正在编写探测作业,以便从用户当前的日常作业中检测更多的场景。我们还考虑为上层用户公开基于从自适应执行模式中收集的详细指标的策略界面。

    会议标签:#SAISEco12