reynolds是Apache Spark PMC成员,也是项目的主要贡献者。他发起并领导了DataFrames和Project Tungsten等项目。他也是Databricks的联合创始人和首席架构师。
对人工智能的追求是当今数据领域最重要的优先事项之一。周四上午的主题演讲将由Databricks联合创始人兼首席执行官Ali Ghodsi主持,内容包括数据科学、机器学习、MLOps等开源和Databricks Lakehouse平台的进展。bob下载地址bob体育客户端下载
我们还将邀请到来自麦当劳和微软的数据领导者,以及科学家、工程师、喜剧演员和作家的传奇人物比尔·奈。
参加周三上午的主题演讲,聆听Apache Spark、Delta Lake和MLflow等热门项目的Databricks联合创始人和原创创作者讲述开源社区如何应对数据领域的最大挑战。bob下载地址
请继续关注他们在数据工程和数据分析方面的一些最新创新,以简化和扩展您的工作。
太平洋时间2020年11月17日下午04:00
雷诺鑫
Databricks联合创始人兼首席架构师
在这次由Apache Spark的主要贡献者和PMC成员Reynold Xin所做的主题演讲中,我们将回顾项目的状态,并重点介绍10周年发行版及以后的主要社区发展。reynolds将回顾最近的Spark 3.0版本如何专注于使其更易于使用、更快和更符合ANSI标准。由于Python占笔记本电脑命令的近70%,他将专注于Project Zen的开发——社区努力使Spark更Python化。这包括在开发工具、API设计、错误处理等方面的改进,以提高数据科学家和工程师对数据的效率。
Caryl Yuhas
高级经理,现场工程,数据
阿里Ghodsi
联合创始人兼首席执行官
Apache Spark, Databricks的原始创建者
数据仓库在决策支持和商业智能应用方面有着悠久的历史。但是,数据仓库不太适合处理现代企业中常见的非结构化、半结构化和流数据。这导致组织在大约十年前建立了原始数据的数据湖。但是,他们也缺乏重要的能力。对更好的解决方案的需求导致了湖屋架构的出现,它直接基于用于数据湖的低成本存储实现了与数据仓库中的数据结构和数据管理功能类似的数据结构和数据管理功能。
Databricks首席执行官Ali Ghodsi的主题演讲解释了开源的Delta Lake项目如何让业界充分发挥湖屋建筑bob下载地址的潜力。此外,阿里还将讨论新发布的SQL Analytics服务,该服务允许用户在他们的数据湖上运行传统的分析,而不是将数据转移到数据仓库,而不牺牲性能、安全性或质量。该服务完成了湖屋架构的愿景,允许数据湖成为所有数据工作负载的单一真实来源。
弗朗索瓦Ajenstat
Tableau软件公司首席产品官
布鲁克身上,
机器学习实践主管,Databricks
雷诺鑫
Databricks联合创始人兼首席架构师
在本次主题演讲中,Reynold Xin, Databricks的联合创始人和首席架构师,将探讨SQL Analytics如何为分析工作负载的数据湖带来新的性能水平。传统上,数据湖在分析方面遇到了困难,因为它们难以在高用户并发性下以低延迟交付快速查询性能。Reynold将提供Databricks如何应对这些挑战的技术深度分析。首先,Delta Engine, Databricks的多态向量化执行引擎,提供极快的单个查询吞吐量。其次,SQL Analytics中新的自动伸缩SQL优化集群使计算能力与用户负载相匹配变得很容易。第三,新的SQL Analytics endpoint中的优化将获得查询结果所需的时间减少了6倍。总的来说,SQL Analytics能够为用户的分析工作负载提供数据仓库性能的数据湖经济。
CWI和阿姆斯特丹自由大学教授
Phinean伍德沃德
联合利华架构、信息和分析主管
在本次演讲中,我们将讨论Lakehouse架构如何成为联合利华信息管理基础设施的重要组成部分,以限制传统的企业数据孤岛,并实现对快速决策所需的上下游数据的敏捷访问。因此,IT正在帮助联合利华在许多业务领域提供更高质量的预测,从而在整个公司建立对AI的信任。
马尔科姆·格拉德威尔
畅销书作家、记者和播客主持人
想象一下,如果我们能把政治和自我放在一边,以数据为导向的应对Covid-19大流行会是什么样子。获奖作家兼记者Malcolm Gladwell讨论了我们可以从当前危机中学到的教训,以及数据和数据团队在解决世界上最棘手的问题(包括未来的大流行疫情)方面将如何发挥关键作用。他还揭示了数据团队在他每天的工作中扮演的重要角色。
阿里Ghodsi
Ali Ghodsi -介绍湖屋,三角洲湖(数据)- 46:40
Matei Zaharia - Spark 3.0,考拉1.0 (Databricks) - 17:03
布鲁克维尼格-演示:考拉1.0,火花3.0 (Databricks) - 35:46
Reynold Xin -介绍德尔塔发动机(数据)- 1:01:50
Arik Fraimovich - Redash概述和演示(数据)- 1:27:25
Vish Subramanian -酿酒数据在规模(星巴克)- 1:39:50
实现数据湖屋的愿景
阿里Ghodsi
数据仓库在决策支持和商业智能应用方面有着悠久的历史。但是,数据仓库不太适合处理现代企业中常见的非结构化、半结构化和流数据。这导致组织在大约十年前建立了原始数据的数据湖。但是,他们也缺乏重要的能力。对更好的解决方案的需求导致了数据湖屋的出现,它实现了与数据仓库中的数据结构和数据管理功能类似的数据结构和数据管理功能,直接使用数据湖所使用的低成本存储。
Databricks首席执行官Ali Ghodsi的主题演讲解释了为什么开源Delta Lake项目使行业更接近于实现数据bob下载地址湖屋的全部潜力,包括Databricks统一数据分析平台内的新功能,以显著加快性能。bob体育客户端下载此外,阿里还将宣布新的开源功能,可以对你的数据湖协同运行SQL查询,构bob下载地址建实时仪表板,并在重要变化时发出警报,使所有数据团队更容易分析和理解他们的数据。
Apache Spark 3.0简介:
回顾过去10年,并展望未来10年。
Matei Zaharia和Brooke Wenig
在这个主题演讲中,来自Apache Spark的最初创造者Matei Zaharia,我们将重点介绍Apache Spark 3.0的主要社区开发,以使Spark更容易使用,更快,并与更多数据源和运行时环境兼容。Apache Spark 3.0延续了该项目的最初目标,即通过对SQL和Python api的重大改进,以及自动调优和优化特性来最大限度地减少手动配置,使数据处理更易于访问。今年也是Spark首次开源发布的10周年,我们将回顾该项目及其用户群的增长情况,以及围绕Spark的生态系统(例如Koalbob下载地址as、Delta Lake和可视化工具)是如何演变的,以使大规模数据处理更简单、更强大。
Delta Engine:用于Delta Lake的高性能查询引擎
雷诺鑫
星巴克如何实现其“企业数据使命”,大规模实现数据和机器学习,并提供世界级的客户体验
Vish萨勃拉曼尼亚
星巴克确保我们所做的一切都是通过人性的视角——从我们对世界上最高品质咖啡的承诺,到我们与客户和社区互动的方式,以负责任的方式开展业务。确保这些世界级客户体验的一个关键方面是数据。本次演讲重点介绍了星巴克的企业数据分析任务,该任务有助于以巨大规模的数据为动力做出决策。这包括使用受治理的进程处理千兆字节级别的数据、以业务速度部署平台以及在整个企业范围内启用ML。bob体育客户端下载本环节将详细介绍星巴克如何建立世界级的企业数据平台,以推动世界级的客户体验。bob体育客户端下载
Spark + AI峰会2019主题演讲:Reynold Xin, Databricks, Brooke Wenig, Databricks
大数据和人工智能是紧密相连的:最好的人工智能应用程序需要大量不断更新的训练数据来构建最先进的模型。人工智能一直是大数据和Apache Spark最令人兴奋的应用之一。越来越多的Spark用户希望将Spark与分布式深度学习和为最先进的培训而构建的机器学习框架集成在一起。本次演讲介绍了一个新项目,该项目大幅提高了Spark上分布式深度学习和机器学习框架的性能和故障恢复能力。