马泰Zaharia

联合创始人兼首席技术专家,砖。最初的创造者Apache火花™& MLflow砖

马泰Zaharia是斯坦福大学计算机科学系的助理教授在砖和首席技术专家。他开始Apache火花项目在他的博士2009年在加州大学伯克利分校,并在数据中心系统,广泛co-starting Apache便项目和贡献作为Apache Hadoop的提交者。今天,马泰技术领导者MLflow开发工作在砖除了其他方面的平台。bob体育客户端下载马泰的研究工作被认为在2014 ACM博士论文奖的最佳博士论文在计算机科学中,一个NSF事业奖,美国总统早期职业科学家和工程师(PECASE)奖。

看这个演讲者在数据+人工智能峰会2021

过去的会议

2021年峰会 关键提示:数据科学和机器学习

2021年5月27日塔利班PT

AI的追求是一个最大的优先级数据。周四上午的演讲将由砖创始人兼首席执行官阿里Ghodsi和覆盖数据科学的进步,机器学习,MLOps开源和砖Lakehouse的平台。bob下载地址bob体育客户端下载

我们也会加入到数据来自麦当劳的领导人和微软,以及传奇比尔奈,科学家,工程师,喜剧演员和作家。

2021年峰会 关键提示:Lakehouse数据架构、数据工程,和分析

2021年5月26日,喂饲PT

周三上午参加主题听到砖创始人和流行的原创者项目Apache火花,三角洲湖,MLflow开源社区是如何解决在数据的最大挑战。bob下载地址

请继续关注他们展示一些最新的创新工程和数据分析来简化工作和规模。

2021年峰会 三角洲共享而马泰Zaharia和砖的工程师

2021年5月26日,下午03:15 PT吗

在数字经济数据共享已成为重要的企业希望容易和安全地交换数据与客户,合作伙伴和供应商,但到目前为止,数据共享的解决方案已经与一个供应商或商业产品。bob体育外网下载今天,砖公布“三角洲分享”——的行业首个开放协议数据共享——使它简单的共享数据与其他组织无论在哪里生活的数据。加入砖联合创始人兼首席技术专家马泰Zaharia砖工程师和产品经理迈克尔·时常要和托德Greengstein对三角洲的问我任何会话共享。是否你想深入阅读技术,或一个更好的理解的场景,这是会话,你可以问你的问题!

在这个会话表:
马泰Zaharia计算机科学助理教授;最初的创造者Apache火花& MLflow砖
托德·格林斯坦产品团队,砖
杰出工程师迈克尔•Armbrust砖

(daisna21-sessions-od)

周四上午主题

2020年11月18日下午内PT

欢迎从阿里Ghodsi,砖


利用机器学习生产MLflow新特性

马泰Zaharia
计算机科学助理教授最初的创造者Apache火花& MLflow砖

部署和操作机器学习应用程序是具有挑战性的,因为他们是高度依赖于输入数据,可以在复杂的方式失败。问题,如培训/推论数据格式的差异,数据倾斜和配置错误的软件环境中可以很容易地溜进生产应用和影响其质量。为了解决这些类型的问题,组织采用ML专门为机器学习管理平台软件和MLOps实践应用。bob体育客户端下载

在这次演讲中,我将展示一些最新的功能添加MLflow productionizing机器学习,机器学习流行的开源平台于2018年开始由砖。bob下载地址bob体育客户端下载这些包括内置支持模型使用模型注册管理和审查,api自动持续集成和交付(CI / CD),模型模式捕获模型的预期数据格式的差异,与模型explainability工具和集成。我还将讨论其他工作发生在开源MLflow社区,包括与PyTorch深度集成和其日益增长的生态系统模bob下载地址型productionization工具。


演示:CI / CD和MLOps MLflow

得Uhlenhuth
老产品经理,机器学习,数据砖


PyTorch MLflow,从研发到生产

林巧
工程总监、PyTorch Facebook

林巧,工程主管在Facebook AI团队,谈到将机器学习在规模生产,包括与MLflow PyTorch集成。PyTorch她谈到了指导原则和目标在2016年在初始发展的今天,关注生态系统的兼容性。

林评论PyTorch生产生态系统,并讨论如何MLflow和PyTorch综合跟踪、模型和服务模型。


介绍了下一代数据科学的工作区

克莱门斯Mewald
产品管理总监,数据科学和机器学习,数据砖

,这不再是一个秘密数据驱动的见解和在任何公司的战略决策是必不可少的今天跟上快速变化的速度和保持相关。尽管我们认为这一点是理所当然的,我们仍在非常早期的阶段,使数据团队兑现他们的承诺。的一个原因是我们还没有这个职业装备应有的现代工具。

现有解决方案留给数据团队不可能权衡。给数据科学家的自由使用任何开放源码工具在他们的笔记本电脑上没有生产和治理提供一个清晰的路径。bob下载地址只是云托管这些工具解决一些数据的隐私和安全问题,但没有提高生产率也不合作。另一方面,大多数健壮和可伸缩的生产环境阻碍了创新和实验数据科学家放缓下来。

在这个演讲,我们将给一个更新下一代数据科学工作区在砖上,最早引发+人工智能峰会上公布了2020年。具体来说,我们将介绍新功能添加到砖笔记本以及Git-based砖项目。到目前为止,业界认为,协作笔记本仅供实验,而不是生产。我们的方法解决这些挑战,第一次,为数据提供了一个平台团队迅速,自信地从实验到生产。bob体育客户端下载

在这次演讲中,我们将推出新一代的砖数据科学工作空间:一个开放和现代数据统一体验团队专门设计来解决这些艰难的权衡。我们将介绍新特性,利用开源工具您熟悉atrix的给你一个类似笔记本电脑的经验,提供了实验的灵活性和bob下载地址健壮性创建可靠的和可再生的生产解决方案。


讨论与戴姆勒

史蒂芬施瓦茨
生产计划:经理智能数据处理(奔驰操作)、戴姆勒(Daimler)

塞巴斯蒂安Findeisen
数据科学家,戴姆勒

当我们想到豪华轿车,第一想到的往往是最终产品,圆滑的设计,它会有多快,等等。但是我们经常忽略之前那辆车花费大量的工作辊装配生产线。在这个演讲,戴姆勒将给我们一窥数据和ML中发挥重要作用驱动汽车生产自动化,像MLflow MLOps和工具被用于自动化的复杂过程,并提供见解,创建生产效率。


负责任的ML -使问责制数据科学主题

Rohan库马尔
公司副总裁、微软Azure数据

负责任的ML的谈论最多的领域是人工智能。毫升日益增长的重要性,对我们来说更重要的是锻炼道德AI实践和确保我们创建的模型达到最高标准的包容性和透明度。加入Rohan Kumar,他谈到如何微软带来尖端研究顾客的手中使他们更负责人工智能模型的使用和负责任的。对人工智能社区来说,这是一个开放的合作邀请,为塑造负责任的未来毫升。这个主题为您呈现作为一个安可表示从全球峰会。


演示:Azure负责人工智能工具

莎拉的鸟
主要项目经理,微软Azure AI


追求的:数据革命

从美Jemison主题
世界上第一位有色进入空间,前NASA宇航员

勘探遇到的机遇和障碍和清晰的目标需要实现一个非凡的未来——例如人类星际旅行或一个可持续发展的人类生存在地球上,可以大数据并推进它扮演什么角色。

2020年峰会 火花+人工智能2020年峰会:周四上午主题演讲

2020年6月24日凌晨5点PT

克莱门斯Mewal——下一代数据科学工作区(砖)——9:06
劳伦·里奇-演示:下一代数据科学工作区(砖)17:55
马泰Zaharia——MLflow社区(砖)——27:40和产品更新
苏安香港-演示:MLflow(砖)——42:57
Rohan库马尔- ML(微软)——51:52负责
莎拉鸟——演示:毫升(微软)——1:00:21负责
Anurag Sehgal 1:12:58——数据和人工智能(瑞士信贷)


介绍了下一代数据科学的工作区
阿里•Ghodsi克莱门斯Mewald和劳伦·里奇

,这不再是一个秘密数据驱动的见解和在任何公司的战略决策是必不可少的今天跟上快速变化的速度和保持相关。尽管我们认为这一点是理所当然的,我们仍在非常早期的阶段,使数据团队兑现他们的承诺。的一个原因是我们还没有这个职业装备应有的现代工具。

现有解决方案留给数据团队不可能权衡。给数据科学家的自由使用任何开放源码工具在他们的笔记本电脑上没有生产和治理提供一个清晰的路径。bob下载地址只是云托管这些工具解决一些数据的隐私和安全问题,但没有提高生产率也不合作。另一方面,大多数健壮和可伸缩的生产环境阻碍了创新和实验数据科学家放缓下来。

在这次演讲中,我们将推出新一代的砖数据科学工作空间:一个开放和现代数据统一体验团队专门设计来解决这些艰难的权衡。我们将介绍新特性,利用开源工具您熟悉atrix的给你一个类似笔记本电脑的经验,提供了实验的灵活性和bob下载地址健壮性创建可靠的和可再生的生产解决方案。


与MLflow简化模型开发和管理
马泰Zaharia和苏安在香港

组织继续发展他们的机器学习(ML)实践,需要健壮和可靠的平台能够处理整个毫升生命周期变得成功结果的关键。bob体育客户端下载建筑模型已经够困难了,但将其部署到生产可再生的,敏捷,且可预测的方法是指数困难由于依赖参数,环境和不断变化的数据和业务需求的性质。

2018年引入的砖,MLflow是使用最广泛的开源平台管理毫升全生命周期。bob下载地址bob体育客户端下载超过200万PyPI下载一个月,超过200个参与者,越来越多的开发者社区的支持表明了需要对开源方法标准化工具,流程和框架涉及整个毫升生命周期。bob下载地址MLflow大大简化了复杂的过程的标准化MLOps和productionizing毫升模型。在这次演讲中,我们将介绍什么是新的在MLflow,包括简化试验跟踪、新创新模型格式来提高可移植性,新功能来管理和比较模型的模式,和新功能部署模型更快。


负责任的ML -使问责制科学数据
Rohan Kumar和萨拉鸟

负责任的ML的谈论最多的领域是人工智能。毫升日益增长的重要性,对我们来说更重要的是锻炼道德AI实践和确保我们创建的模型达到最高标准的包容性和透明度。加入Rohan Kumar,他谈到如何微软带来尖端研究顾客的手中使他们更负责人工智能模型的使用和负责任的。对人工智能社区来说,这是一个开放的邀请合作,有助于塑造负责任的ML的未来。


瑞士信贷(Credit Suisse)是如何利用开源数据和人工智bob下载地址能平台驱动数字转换、创新和增长bob体育客户端下载
Anurag Sehgal

尽管越来越接受的大数据和人工智能,大多数金融服务公司仍然经历重大挑战在数据类型,隐私,和规模。瑞士信贷(Credit Suisse)是克服这些障碍通过标准化开放,基于云计算平台,包括Azure砖,提高操作的速度和规模,ML整个组织的民主化。bob体育客户端下载现在,瑞士信贷(Credit Suisse)是领先的方式成功地使用数据和分析驱动数字转换,提供新产品更快进入市场,推动业务增长和操作效率。

2020年峰会 火花+人工智能2020年峰会:周三上午主题演讲

2020年6月23日凌晨5点PT

阿里Ghodsi Lakehouse入门,δ(砖)——46:40湖
马泰Zaharia——火花3.0,1.0(砖)——17:03考拉
布鲁克身上——演示:考拉1.0,3.0(砖)——35:46火花
雷诺鑫1:01:50——引入三角洲引擎(砖)
Arik Fraimovich - &演示(砖)——1:27:25 Redash概述
Vish萨勃拉曼尼亚-(星巴克)——1:39:50酿造数据规模


实现数据的视觉Lakehouse
阿里Ghodsi

在决策支持数据仓库有悠久的历史和商业智能应用程序。但是,数据仓库是不适合处理非结构化、半结构化,和流数据常见的现代企业。这导致组织构建数据湖泊大约十年前的原始数据。但是,他们也缺乏重要的功能。需要一个更好的解决方案引发了lakehouse的数据,实现了类似的数据结构和数据管理功能在数据仓库中,直接在低成本存储用于数据的湖泊。

本主题由砖CEO,阿里Ghodsi,解释了为什么开源三角洲湖项目的行业接近lakehouse实现全部潜能的数据,包括新功能bob下载地址在砖统一数据分析平台,极大地加速性能。bob体育客户端下载此外,阿里将宣布新的开源能力协同运行SQL查询数据,建立现场仪表盘,警bob下载地址报在重要更改方便所有数据团队分析和理解他们的数据。


介绍Apache 3.0火花:
回顾过去十年,期待下一个十年。
马泰Zaharia和布鲁克身上

在这个主题从马泰Zaharia,最初的创造者Apache火花,我们将突出主要社区发展与Apache火花3.0的发布引发更容易使用,更快,兼容更多的数据源和运行时环境。Apache火花3.0继续项目的最初目标,使数据处理更可以通过SQL和主要改进Python api和自动调优和优化功能,减少手动配置。今年也是十周年引发最初的开源版本中,我们会思考如何项目及其用户基数增加,以及如何引发周围的生态系统(例如考拉,三角洲湖和可bob下载地址视化工具)是发展大规模数据处理更简单和更强大。


三角洲湖三角洲引擎:高性能查询引擎
雷诺鑫


星巴克是如何实现其“企业数据的使命”,使数据和ML规模和提供世界级的客户体验
Vish萨勃拉曼尼亚

星巴克确保我们所做的一切都是通过人类的镜头——从我们的承诺,世界上最高品质的咖啡,我们与我们的客户和社区的方式做生意负责。一个关键方面来确保这些世界级的客户体验数据。在星巴克这个演讲强调了企业数据分析任务,帮助决策的数据规模巨大。这包括一切从处理数据在pb级别受治理的过程,部署平台商业发展速度,使整个企业的毫升。bob体育客户端下载本阶段将详细说明星巴克如何建立了世界级的企业数据平台推动世界级的客户体验。bob体育客户端下载

峰会的欧洲2019 与MLflow简化模型管理

2019年10月16日凌晨5点PT

去年夏天,砖MLflow推出一个开源的平台来管理机器学习生命周期,包括试验跟踪、可再生的bob下载地址和模型运行包装。bob体育客户端下载MLflow已经迅速从那时起,从几十家公司拥有超过120的贡献者,包括重大贡献从R工作室和微软。它也获得了新功能,如自动记录从TensorFlow和Keras Kubernetes集成和高级Java API。在这次演讲中,我们将介绍一些新特性MLflow,然后集中在一个主要特性:与MLflow模型模型管理注册表。许多组织面临挑战跟踪模型是可用的生产组织和哪些。MLflow模型注册中心提供了一个集中的数据库跟踪这些模型、分享和描述新模型版本,通过api部署模型的最新版本。我们将演示如何将这些特性可以简化常见毫升生命周期任务。

2019年峰会 加速与MLflow 1.0机器学习生命周期

2019年4月24日凌晨5点PT

去年,砖MLflow推出一个开源框架来管理机器学习库来简化生命周期,适用于任何毫升毫bob下载地址升工程。MLflow为实验跟踪提供了工具,可再生的运行和模型管理,使机器学习应用程序更容易开发和部署。在过去的一年中,MLflow社区增长迅速:80贡献者来自超过40家公司对项目贡献代码,并使用MLflow超过200家公司。在这次演讲中,我们将展示我们的开发计划MLflow 1.0, MLflow的下一个版本将稳定MLflow api和引入多个新功能来简化毫升生命周期。我们还将讨论其他MLflow组件,砖和其他公司的工作在2019年余下的时间,如改进的模型管理工具,多步骤的管道和在线监测。

2018年峰会 火花+人工智能与马泰Zaharia聚会

2018年8月8日凌晨5点PT

峰会的欧洲2018 机器学习与MLflow加速生产

2022年12月16日02:42 PT

成功地构建和部署一个机器学习模型很难做一次。使其他数据科学家(或者你自己,一个月后)复制你的管道,来比较不同版本的结果,跟踪运行的,并重新部署和回滚更新模型要困难得多。

在这次演讲中,我将介绍MLflow,从砖一个新的开源项目,简化了机器学习生命周期。bob下载地址MLflow之间提供了api跟踪实验运行多个用户在一个可再生的环境、生产和管理的部署模型。MLflow被设计成一个开放的、模块化的平台,在这个意义上,您可以使用它与任何现有的bob体育客户端下载ML库和开发过程。MLflow创办于2018年6月,已经看到重要的社区的贡献,45贡献者和新功能新多语言api,集成与流行毫升库和存储后端。我经历的一些最新发布的特性和与MLflow解释如何开始。

2018年峰会 MLflow:基础设施完成毫升生命周期

2018年6月5日凌晨5点PT

毫升发展带来许多新的复杂性超出了传统的软件开发生命周期。与传统的软件开发,毫升开发者想尝试多个算法,工具和参数来得到最好的结果,他们需要跟踪这个信息复制工作。此外,开发人员需要使用许多不同的系统productionize模型。要解决这些问题,许多公司正在构建定制的自动化这个生命周期“毫升平台”,但即使是这些平台仅限于几算法和每个公司的内部基础设施的支持。bob体育客户端下载在这次演讲中,我现在MLflow,一个新的开源项目从砖,旨在设计一个开放毫升bob下载地址平台,组织可以使用任何毫升库和开发工具的选择可靠地构建和共享毫升应用程序。bob体育客户端下载MLflow介绍简单的抽象包可再生项目,跟踪结果,和封装模型,可以用于许多现有的工具,加速毫升为任何规模的组织生命周期。

2013年峰会 火花的状态,我们要下一个

2013年12月1日下午内PT

在过去的三年里,火花已迅速从一个研究项目的最活跃的开放源码项目并行计算。bob下载地址我要通过总结最近的增长,来自社区的高亮显示关键的贡献。与此同时,还有许多工作要做真正进行大数据分析和快速访问。我会在砖素描我们如何接近这个问题通过我们的持续工作在Apache火花,和系统的方面,我们相信让大数据引发真正独特。

2014年峰会 火花在大数据的生态系统中所扮演的角色

2014年6月29日凌晨5点PT

Apache火花继续快速增长在这两个社区的规模和技术能力。自从上次火花峰会,2013年12月,火花的贡献者基地已从100贡献超过200,并引发已经成为最活跃的大数据的开放源码项目。bob下载地址我们还看到了重要的添加新组件,如火花SQL运行时,一个更大的机器学习库,和丰富的集成与其他数据处理系统。鉴于所有这些活动,引发标题在哪里?我将分享我们的目标不同的应用程序之间的火花作为一个统一的平台(如流处理、机器学习和SQbob体育客户端下载L)和多样化的大数据存储和运行时系统。

东2015年峰会 2015年新方向的火花

2015年3月17日凌晨5点PT

与Apache引发用户群的增长,开发者社区正努力适应越来越广泛的用例。2014年快速采用火花在企业和重大改进性能、可伸缩性和标准库。在2015年,我们也想使火花可访问更广泛的用户,通过新的高级api针对数据科学:机器学习管道,数据帧,R语言绑定。此外,我们定义扩展点让火花增长作为一个平台,便于插入数据源,算法,以及第三方包。bob体育客户端下载像所有的火花,这些api的设计无缝地插入现有火花应用,给用户一个统一的流媒体平台,批处理和交互式数据处理。bob体育客户端下载

峰会的欧洲2015 2015年使用火花是如何进化的

2015年10月27日凌晨5点PT

引发2015年一年的持续增长,大量增加的核心项目和用例整个行业的快速增长。在这次演讲中,我将回顾火花社区是如何种植和改变了2015年,基于一个大型的Apache引发的用户调查数据砖。我们看到了一些有趣的趋势运行时环境的多样性(越来越不仅仅是Hadoop);类型的应用程序运行在火花;和类型的用户,现在R等功能支持和DataFrames火花。我还将讨论正在进行的工作即将发布的火花来支持新的用例。

东2016年峰会 火花2.0

2016年2月16日下午内PT

接下来的火花将2.0的发布,标志着项目的一大里程碑。在这次演讲中,我将介绍一些大型即将到来的特性,使我们增加版本号为2.0,以及一些在2016年路线图的火花。

2016年峰会 Apache 2.0火花

2016年6月6日凌晨5点PT

下一个版本的Apache火花将2.0,标志着项目的一大里程碑。在这个演讲,我将介绍如何在社区已经达到这一点,并在2.0的一些主要特性。增加最大的是数据集的性能改进,通过项目钨DataFrames和SQL,以及一个新的结构化流API,它提供了更简单、更强大的流处理。我还将讨论一些在未来版本的工作。

峰会的欧洲2016 简化大数据应用与Apache 2.0火花

2016年的10月25日凌晨5点PT

Apache火花2.0发布了今年夏天,已经被广泛采用。我将讨论如何API的变化使得它更容易写批处理,流媒体和实时应用程序。数据API,它现在与DataFrames集成,可以受益于强大的优化等推动查询数据源,而结构化流扩展这个API可以运行许多相同的自动计算以流媒体的方式。

东2017年峰会 期望在2017年为大数据和Apache火花

2017年2月7日,内点PT

大数据仍然是一个快速发展的领域和新的应用程序和基础设施每年出现。在这个演讲,我将介绍新的2016/2017和Apache火花是如何移动的趋势与他们会合。特别是,我将谈论工作砖做使Apache的火花与本机代码更好的交流(如深度学习库),支持异构硬件,简化生产数据管道流和批处理设置通过结构化流。

2017年峰会 机器学习创新炉边谈话

2017年6月6日凌晨5点PT

2017年峰会 扩大Apache火花在2.2及以上版本的用例

2017年6月5日凌晨5点PT

2017年仍是一个令人兴奋的大数据和Apache火花。我将讨论两个重大举措,砖建筑:结构化流,流处理的新的高级API,和新的机器学习库,我们正在开发。这些行动可以提供数量级在当前开源系统性能改进,而使流处理和机器学习比以往任何时候都更容易。bob下载地址

峰会的欧洲2017 深度学习和流媒体在Apache火花2. x

2017年10月24日凌晨5点PT

2017年对于Apache来说仍然是一个令人兴奋的火花。我将讨论新的更新今年火花社区两个主要领域:与结构化流流处理,深度学习与深度学习管道和TensorFlowOnSpark等高级库。在这两个方面,社区正在强大的新功能在同一高层api用于其余的火花生态系统(如DataFrames和ML管道),和提高可扩展性和易用性的流处理和机器学习。

马泰Zaharia