Spark + ai峰会2020
主题演讲

观看SPARK + AI 2020北美峰会的所有主题演讲。
演讲嘉宾包括:Ali Ghodsi, Matei Zaharia, Brooke Wenig, Reynold Xin, Vish Subramanian, Phillip Atiba Goff博士,Jennifer Chayes教授,Nate Silver, Clemens Mewald, Lauren Richie, Sue Ann Hong, Rohan Kumar, Sarah Bird, Anurag Sehgal, Kim Hazelwood, Hany Farid, Adam Pazske, Amy Heineike。

实现数据湖屋的愿景

发言人:
阿里Ghodsi ,联合创始人兼首席执行官,Apache Spark的最初创造者,Databricks

数据仓库在决策支持和商业智能应用方面有着悠久的历史。但是,数据仓库不太适合处理现代企业中常见的非结构化、半结构化和流数据。这导致组织在大约十年前建立了原始数据的数据湖。但是,他们也缺乏重要的能力。对更好的解决方案的需求导致了数据湖屋的出现,它实现了与数据仓库中的数据结构和数据管理功能类似的数据结构和数据管理功能,直接使用数据湖所使用的低成本存储。

Databricks首席执行官Ali Ghodsi的主题演讲解释了为什么开源Delta Lake项目使行业更接近于实现数据bob下载地址湖屋的全部潜力,包括Databricks统一数据分析平台内的新功能,以显著加快性能。bob体育客户端下载此外,阿里还将宣布新的开源功能,可以对你的数据湖协同运行SQL查询,构bob下载地址建实时仪表板,并在重要变化时发出警报,使所有数据团队更容易分析和理解他们的数据。

介绍Apache Spark 3.0:回顾过去10年,展望未来10年。

发言人:
马泰Zaharia ,计算机科学助理教授;Apache Spark & MLflow, Databricks的原始创造者

在这个主题演讲中,来自Apache Spark的最初创造者Matei Zaharia,我们将重点介绍Apache Spark 3.0的主要社区开发,以使Spark更容易使用,更快,并与更多数据源和运行时环境兼容。Apache Spark 3.0延续了该项目的最初目标,即通过对SQL和Python api的重大改进,以及自动调优和优化特性来最大限度地减少手动配置,使数据处理更易于访问。今年也是Spark首次开源发布的10周年,我们将回顾该项目及其用户群的增长情况,以及围绕Spark的生态系统(例如Koalbob下载地址as、Delta Lake和可视化工具)是如何演变的,以使大规模数据处理更简单、更强大。

Delta Engine:用于Delta Lake的高性能查询引擎

演讲者:
雷诺鑫 联合创始人兼首席架构师
Apache Spark、Databricks的顶级贡献者和原始创造者

Redash在Databricks上

发言人:
Arik Fraimovich, Redash创始人

星巴克如何实现其“企业数据使命”,大规模实现数据和机器学习,并提供世界级的客户体验

演讲者:
Vish萨勃拉曼尼亚 星巴克数据与分析工程总监

星巴克确保我们所做的一切都是通过人性的视角——从我们对世界上最高品质咖啡的承诺,到我们与客户和社区互动的方式,以负责任的方式开展业务。确保这些世界级客户体验的一个关键方面是数据。本次演讲强调了星巴克的企业数据分析任务,该任务有助于以巨大规模的数据为动力做出决策。这包括使用受治理的进程处理千兆字节级别的数据、以业务速度部署平台以及在整个企业范围内启用ML。bob体育客户端下载本环节将详细介绍星巴克如何建立世界级的企业数据平台,以推动世界级的客户体验。bob体育客户端下载

种族主义和治安:前进的道路

主讲人:菲利普·阿提巴·戈夫博士

戈夫博士的工作是探索种族偏见在哪些方面不是种族歧视的必要前提。也就是说,尽管有关于种族歧视的规范观点——即它源于偏见的显性或隐性态度——但他的研究表明,情境因素促进了种族不平等的结果。

戈夫博士的循证司法方法模型得到了国家科学基金会、司法部、罗素·塞奇基金会、W.K.凯洛格基金会、开放社会基金会、巴尔的摩开放社会研究所、大西洋慈善基金会、威廉·t·格兰特基金会、警察办公室、主要城市酋长协会、NAACP LDF、NIMH、SPSSI、伍德罗·威尔逊基金会、福特基金会和梅隆基金会等机构的支持。戈夫博士是总统的21世纪警务工作组的证人,并曾在国会议员和国会小组、参议院新闻发布会和白宫咨询委员会面前作证。

COVID-19和其他挑战的快速响应研究:加州大学机器学习和数据科学

主讲人:詹妮弗·蔡斯教授

加州大学伯克利分校的计算、数据科学和社会部门(CDSS)正在推进基础研究,并教育下一代科学家和从业者利用计算和数据来解决紧迫的社会问题。在近代史上,没有任何社会挑战像COVID-19大流行那样影响深远和至关重要。应对这一复杂的全球挑战的解决方案将强调计算和数据科学的许多方面,从稀疏、有偏见和可变数据的分析;模拟人类互动的大型网络;通过筛选生物和化学数据来寻找治疗方法和疫苗;以更广泛地影响决策者和公众舆论。

在这次演讲中,我将描述CDSS的整体愿景,以及它如何改变加州大学伯克利分校的教育和研究,在一系列不同的项目之间建立桥梁,并打破传统的竖井式大学结构。2019冠状病毒病(COVID-19)大流行的出现加速了这一新司的工作以及它所促进的跨学科研究和合作。它还强调了大规模提供包容、严格的数据科学教育的重要性,这是伯克利项目的一个标志。我将举一些校园内的例子,说明如何利用计算和数据来应对大流行,以及这些挑战将如何强调底层数据系统的规模、性能、隐私和弹性,从而推动对Spark等系统的下一代需求。

信号与噪声:20年数据分析的重大教训

Nate Silver

在这次技术主题演讲中,Nate将强调他从过去20年的数据分析中获得的最大经验教训,以及它如何与他建立选举模型的方法和预测中的挑战相关联。

介绍下一代数据科学工作空间

主讲人:Ali Ghodsi, Clemens Mewald和Lauren Richie

数据驱动的洞察和决策在任何公司的战略中都是至关重要的,以跟上当今的快速变化步伐并保持相关性,这已经不再是一个秘密。虽然我们认为这是理所当然的,但我们仍然处于使数据团队实现他们的承诺的非常早期的阶段。其中一个原因是,我们还没有为这个职业配备他们应得的现代工具包。

现有的解决方案给数据团队留下了不可能的权衡。让数据科学家在他们的笔记本电脑上自由使用任何开源工具,并不能为生产和治理提供一条清晰的道路。bob下载地址简单地在云中托管这些相同的工具可能会解决一些数据隐私和安全问题,但不会提高生产力和协作。另一方面,大多数健壮的和可扩展的生产环境会减慢数据科学家的速度,从而阻碍创新和实验。

在这次演讲中,我们将推出下一代Databricks数据科学工作空间:为现代数据团队提供开放和统一的体验,专门用于解决这些困难的权衡。我们将介绍利用您所熟悉的开源工具的新功能,为您提供类似笔记本电脑的体验,提供实验的灵活性和创建可靠bob下载地址且可重复的生产解决方案的健壮性。

使用MLflow简化模型开发和管理

主讲人:Matei Zaharia和Sue Ann Hong

随着组织不断发展他们的机器学习(ML)实践,能够处理整个机器学习生命周期的健壮可靠的平台对于成功的结果变得至关重要。bob体育客户端下载构建模型很难一次性完成,但是由于依赖于参数、环境以及数据和业务需求的不断变化的性质,以可重复、敏捷和可预测的方式将它们部署到生产环境中更加困难。

MLflow由Databricks于2018年推出,是用于管理ML整个生命周期的最广泛使用的开源平台。bob下载地址bob体育客户端下载PyPI每月下载量超过200万次,贡献者超过200人,来自开发人员社区的日益增长的支持表明,需要一种开源方法来标准化ML生命周期中涉及的工具、流程和框架。bob下载地址MLflow极大地简化了标准化mlop和生产ML模型的复杂过程。在这次演讲中,我们将介绍MLflow中的新特性,包括简化实验跟踪、改进模型格式以提高可移植性的新创新、管理和比较模型模式的新特性,以及更快地部署模型的新功能。

负责任的机器学习——为数据科学带来责任

发言人:Rohan Kumar和Sarah Bird

负责任的ML是目前人工智能中最受关注的领域。随着ML的重要性日益增加,对我们来说,开展合乎道德的AI实践并确保我们创建的模型达到包容性和透明度的最高标准就变得更加重要。加入Rohan Kumar,他将讲述微软如何将前沿研究带到客户手中,使他们对自己的模型更负责任,并对人工智能的使用更负责任。对于AI社区来说,这是一份公开的邀请,邀请大家合作并为塑造负责任的ML的未来做出贡献。

瑞信如何利用开源数据和人工智能平台推动数字化转型、创新和增长bob下载地址bob体育客户端下载

Anurag Sehgal

尽管人们越来越多地接受大数据和人工智能,但大多数金融服务公司仍然在数据类型、隐私和规模方面面临着重大挑战。瑞信正在通过标准化开放的基于云的平台(包括Azure Databricks)来克服这些障碍,以提高运营的速度和规模,并在整个组织中实现ML的民主化。bob体育客户端下载现在,瑞信通过成功地利用数据和分析来推动数字化转型,更快地将新产品推向市场,并推动业务增长和运营效率,处于领先地位。

深度学习:不仅仅是识别猫和狗

主讲人:Kim Hazelwood

根据最近的一篇博客文章和论文,这次演讲的重点是推荐系统在整个研究社区中往往投资不足,以及为什么这是有问题的。

制造、武器化和检测深度造假

哈尼·法里德

过去几年,假新闻现象出现了令人震惊和令人不安的增长,从个人到国家支持的实体,每个人都可以制造和传播虚假信息。假新闻的影响从误导公众到对民主的生存威胁,再到可怕的暴力。与此同时,最近机器学习的快速发展,使得创建复杂而引人注目的假图像比以往任何时候都更容易。视频和录音让假新闻现象变得更加强大和危险。我将概述这些所谓的“深度造假”的产生,并描述检测它们的新兴技术。

PyTorch:一个现代机器学习研究和生产平台bob体育客户端下载

Adam Pazske

在过去的两年里,PyTorch已经成为机器学习研究中最受欢迎的库之一,许多突破性的进步立即与它们的PyTorch实现一起出现。不幸的是,与研究界相比,行业内的采用相当缓慢,因此当前发展的主要目标之一是使思想更容易从学术界转移到工业界。这包括实现简单的模型打包和导出,简单的移动部署和无python执行-所有这些都集中在出色的用户体验上。在这次演讲中,我将介绍库背后的基本思想,突出最近的进展,介绍令人兴奋的即将推出的功能,并谈论一些成功的故事,以展示迄今为止所取得的进展。

科学vs Covid,来自Covid19Primer.com的教训

Amy Heineike

关于新型冠状病毒的科学研究呈指数级增长,是这场危机中真正鼓舞人心和充满希望的故事之一,但这也是一个数据量巨大的故事。人工智能在使信息可访问和将其置于上下文中方面发挥着至关重要的作用。我们建立了covid19primer.com,将研究与有关它的新闻和社会对话联系起来,并发现趋势和突出评论。到目前为止我们学到了什么,接下来会发生什么?