公司博客上

Apache Spark和Photon获得SIGMOD奖

2022年6月15日 公司博客上

分享这篇文章

本周,在数据管理社区中,许多最有影响力的工程师和研究人员将在费城亲自参加ACM SIGMOD会议,这是在两年的虚拟会议之后。作为活动的一部分,我们激动地看到以下两个奖项:

  • Apache Spark被授予SIGMOD系统奖
  • Databricks Photon荣获最佳行业论文奖

我们想利用这个机会来讨论一下它的背景,以及我们是如何走到这一步的。

ACM SIGMOD是什么?奖项有哪些?

ACM SIGMOD是美国计算机协会数据管理特殊兴趣小组的缩写。我们知道,名字很长。每个人都说SIGMOD。对于数据库研究人员和工程师来说,这是最负盛名的会议,因为在数据库领域,从列存储到查询优化,许多最具开创性的想法都在这里发表。

SIGMOD系统奖该奖项每年授予一个“对大规模数据管理系统的理论或实践有重大影响的技术贡献的系统”。这些系统往往具有大规模的实际应用程序,并影响了未来数据库系统的设计方式。过去的获奖者包括Postgres, SQLite, BerkeleyDB和Aurora。

最佳行业论文奖每年颁发给一篇论文,基于对现实世界的影响、创新和演示质量的结合。

Apache Spark的数据和AI Origin

大约十年前,Netflix发起了一项名为Netflix Prize的比赛,在比赛中,他们将收集到的大量用户电影评分匿名化,并要求竞争对手提出算法来预测用户如何评价电影。拥有最佳机器学习模型的团队将获得100万美元的奖杯。

加州大学伯克利分校的一群博士生决定参加比赛。他们遇到的第一个挑战是工具不够好。为了建立更好的模型,他们需要一种快速、迭代的方法来清理、分析和处理大量数据(这在学生的笔记本电脑上不合适),他们需要一个足够有表现力的框架来组合实验性的ML算法。

数据仓库作为企业数据的标准,无法处理非结构化数据,缺乏表现力。他们与另一名博士生Matei Zaharia讨论了这一挑战。他们一起设计了一个新的并行计算框架Spark,并采用了一种新的创新分布式数据结构rdd。Spark使用户能够快速而简洁地运行数据并行操作。

或者换句话说,写代码快,运行也快。快速编写是很重要的,因为它使程序更容易理解,并且可以用来更容易地组成更复杂的算法。快速运行意味着用户可以更快地获得反馈,并使用不断增长的数据构建模型。

事实证明,学生们并不孤单。这是行业中数据和人工智能应用的早期阶段,每个人都面临着类似的挑战。随着广泛的需求,该项目转移到Apache软件基金会,并发展成为一个庞大的社区。

今天,Spark是数据处理的事实上的标准,并且还在不断发展:

  • 上个月,它仅在PyPI和Maven中心就被下载了4500万次。这意味着下载量同比增长了90%。
  • 至少在204个国家和地区使用。
  • 它是排名第一的顶级付费技术Stack Overflow的2021年开发者调查

SIGMOD系统奖是对该项目的采用及其对几代系统的影响的验证,将数据和人工智能视为一个统一的包。

光子:新的工作负载和湖屋

随着Apache Spark越来越受欢迎,我们发现组织想要用它做的不仅仅是大规模数据处理和机器学习:他们想要在他们在业务其他地方使用的相同数据集上运行传统的交互式数据仓库应用程序,从而消除管理多个数据系统的需要。这就产生了lakehouse系统:可以进行大规模处理和交互式SQL查询的单个数据存储,结合了数据仓库和数据湖系统的优点。

为了支持这些类型的用例,我们开发了Photon,这是一个快速的c++向量化执行引擎,用于Spark和SQL工作负载,在Spark现有的编程接口后面运行。与Spark相比,Photon支持更快的交互式查询和更高的并发性,同时支持相同的api和工作负载,包括SQL、Python和Java应用程序。我们已经看到了Photon在各种大小的工作负载上的出色结果,从创造了大规模TPC-DS数据仓库基准的世界纪录去年到在小型并发查询上提供3倍的性能

32并发流下10gb TPC-DS查询/小时(越高越好)

设计和实现Photon是具有挑战性的,因为我们需要这个引擎保持Spark的表现力和灵活性(以支持广泛的应用程序),速度永远不会变慢(以避免性能下降),并且在我们的目标工作负载下速度要快得多。此外,与传统的数据仓库引擎不同,Photon需要在lakehouse环境中工作,以开放格式(如Delta Lake和Apache Parquet)处理数据,并对输入过程(例如索引或数据统计的可用性)进行最小的假设。我们的SIGMOD纸描述了我们如何应对这些挑战以及Photon实现的许多技术细节。

我们很高兴看到这项工作被评为最佳行业论文,我们希望它能给数据库工程师和研究人员提供关于这种湖屋系统新模式的挑战的好主意。当然,到目前为止,我们也对我们的客户对Photon所做的事情感到非常兴奋——新引擎已经增长到我们工作负载的重要部分。

如果你正在参加SIGMOD,请到Databricks展台打个招呼。我们很乐意一起讨论数据系统的未来。作为回报,我们会给你一个"最好的数据仓库是湖屋“t恤!

免费试用Databricks

相关的帖子

看到所有公司博客上的帖子