Spark SQL 2.0体验使用TPC-DS

下载幻灯片

本演讲总结了在单用户专用和多用户并发执行模式下,使用TPC-DS工作负载来描述Apache Spark SQL 2.0在多tb级别上的SQL能力、性能和可伸缩性的结果。我们跟踪了Spark SQL在1.5、1.6和2.0版本之间的演变,以强调Spark SQL功能和性能的改进速度。我们还提供了最佳实践和配置调优参数,以支持大规模并发执行99个TPC-DS查询。主要收获包括:1)看到Spark SQL 2.0所取得的实质性进展2)了解TPC-DS是什么以及为什么它成为Hadoop系统中首选的SQL工作负载。3)实验结果支持多用户,多tb基于tpc - ds的工作负载的优化执行4)调优和配置更改用于获得出色的Spark SQL性能。



«回来
关于伯尼·希弗

Berni Schiefer是IBM分析组的IBM研究员。他在旧金山的IBM Spark技术中心工作,负责一个全球团队,专注于分析组产品和解决方案的性能和可伸缩性,特别是大数据技术,包括Spark、BigInsights、Big SQL、dashDB、DB2 pureScale和DB2 with BLU加速。他热衷于将先进技术推向市场,尤其强调开发处理器、内存、网络、存储技术和其他硬件和软件加速技术。