在这次演讲中,我们将重点介绍Spark生态系统中发生的主要努力。特别地,我们将深入研究Spark 3.0中自适应和静态查询优化的细节,以使Spark更易于使用和更快地运行。我们还将演示Koalas(一个开源库,在Spark上提供类似panda的API)中的新功能如何帮助数据科学家更快bob下载地址地从数据中获得见解。
砖
Michael Armbrust是Apache Spark的提交者和PMC成员,也是Spark SQL的最初创建者。他目前在Databricks领导设计和构建结构化流和Databricks Delta的团队。他于2013年在加州大学伯克利分校获得博士学位,并由迈克尔·富兰克林、大卫·帕特森和阿曼多·福克斯担任顾问。他的论文专注于构建允许开发人员快速构建可伸缩交互应用程序的系统,并特别定义了规模独立性的概念。他的兴趣广泛包括分布式系统、大规模结构化存储和查询优化。(daisna21-speakers)
砖
Brooke Wenig是机器学习实践部门的主管。她领导着一个数据科学家团队,为客户开发大规模机器学习管道,并教授关于分布式机器学习最佳实践的课程。她是Learning Spark第二版的合著者,分布式计算与Spark SQL Coursera课程的联合讲师,以及Data Brew播客的联合主持人。她获得加州大学洛杉矶分校计算机科学硕士学位,专注于分布式机器学习。她说一口流利的普通话,喜欢骑自行车。(daisna21-speakers)
砖
Burak Yavuz是Databricks的软件工程师和Apache Spark提交者。他一直在开发结构化流和Delta Lake,以简化数据工程师的生活。Burak在斯坦福大学获得管理科学与工程硕士学位,在伊斯坦布尔博加齐大学获得机械工程学士学位。