迈克尔时常要

杰出的工程师,砖

迈克尔时常要提交者和PMC成员Apache的火花,火花的原始创造者SQL。他在砖目前领导团队,设计并建造了结构化流和砖三角洲。他在2013年获得加州大学伯克利分校的博士学位,并建议由迈克尔·富兰克林,大卫·帕特森,阿曼德狐狸。他的论文侧重于建立系统,使开发人员能够快速构建可伸缩的交互式应用程序,特别是规模独立的概念定义。他的兴趣广泛包括分布式系统、大规模结构化存储和查询优化。

看这个演讲者在数据+人工智能峰会2021

过去的会议

2021年峰会 关键提示:Lakehouse数据架构、数据工程,和分析

2021年5月26日,喂饲PT

周三上午参加主题听到砖创始人和流行的原创者项目Apache火花,三角洲湖,MLflow开源社区是如何解决在数据的最大挑战。bob下载地址

请继续关注他们展示一些最新的创新工程和数据分析来简化工作和规模。

2021年峰会 三角洲共享而马泰Zaharia和砖的工程师

2021年5月26日,下午03:15 PT吗

在数字经济数据共享已成为重要的企业希望容易和安全地交换数据与客户,合作伙伴和供应商,但到目前为止,数据共享的解决方案已经与一个供应商或商业产品。bob体育外网下载今天,砖公布“三角洲分享”——的行业首个开放协议数据共享——使它简单的共享数据与其他组织无论在哪里生活的数据。加入砖联合创始人兼首席技术专家马泰Zaharia砖工程师和产品经理迈克尔·时常要和托德Greengstein对三角洲的问我任何会话共享。是否你想深入阅读技术,或一个更好的理解的场景,这是会话,你可以问你的问题!

在这个会话表:
马泰Zaharia计算机科学助理教授;最初的创造者Apache火花& MLflow砖
托德·格林斯坦产品团队,砖
杰出工程师迈克尔•Armbrust砖

(daisna21-sessions-od)

在这次演讲中,我们将突出主要的努力发生火花的生态系统。特别是,我们将深入的细节引发3.0中适应性和静态查询优化,使火花容易使用和更快的运行。我们还将演示如何在考拉的新功能,一个开源库,提供了Pandas-like API之上的火花,帮助数据科学家从数据bob下载地址中获得的见解更快。

2019年峰会 迈克尔·阿里Ghodsi Armbrust |三角洲湖

2019年4月23日凌晨5点PT

阿里Ghodsi(砖),迈克尔·Armbrust(砖)——从2019年引发+人工智能峰会主题

峰会的欧洲2018 统一分析的力量——欧盟的主bob体育亚洲版旨

2023年3月1日下午05:46 PT

2018年峰会 大规模威胁检测和响应

2018年6月5日凌晨5点PT

安全监视和威胁反应不同的处理要求大量的日志和遥测数据。处理需求由低延迟交互式查询超过几个月的数据流处理。让事情更有挑战性的工作,我们必须保持保留窗口测量的数据访问。在解决这个问题之前,在大规模环境中使用Apache火花,一遍时,有几件事我知道工作和一些错误我想正确。

我们接近砖上进行合作的挑战:提供一个稳定的统一分析和优化平台,允许我们的团队专注于价值交付使用流媒体,SQL,图表,和毫升;bob体育亚洲版bob体育客户端下载利用解耦的存储和计算而广泛提供高性能的负载;使用S3通知而不是列表操作;把蜂巢Metastore从写路径;对我们的更常见的搜索和索引方法响应时间情况下,没有hard-to-scale索引维护,在我们整个保留窗口。这是关于水果的协作。

砖运行时和三角洲的演示

2018年6月5日凌晨5点PT

2013年峰会 催化剂:查询优化框架,引发和鲨鱼

2013年12月1日下午内PT

查询优化可以大大提高开发人员的生产力和他们写的查询的性能。一个好的查询优化器能够自动重写关系查询执行更有效率,早期使用技术,如过滤数据,利用可用的索引,甚至确保不同数据源加入最有效的顺序。通过执行这些转换,优化器不仅提高了关系查询的执行时间,但是也让开发人员将精力集中于应用程序的语义而不是它的性能。不幸的是,建立一个优化器是一个非常复杂的工程任务,因此许多开源系统执行只有非常简单的优化。bob下载地址过去的研究[1][2]试图应对这种复杂性提供了框架,使优化器写的创造者可能优化作为一组声明规则。然而,使用这些框架需要特殊“优化编译器”的创建和维护,强迫学习的负担对那些希望添加一个复杂的领域特定语言特性来优化器。相反,我们建议催化剂,嵌入在Scala中查询优化框架。催化剂利用Scala的模式匹配功能强大的语言特性,比如和运行时元编程允许开发人员简明地说明复杂关系的优化。在这个演讲我将描述框架,它允许开发人员如何来表达复杂的查询转换的几行代码。我还将描述我们最初的努力改善鲨鱼查询的执行时间大大提高其查询优化功能。
___________
[1]Graefe, g级联查询优化的框架。在数据工程公告。1995年9月。
[2]Goetz Graefe大卫·j·德维特《出埃及记》优化器生成器,学报1987年ACM SIGMOD国际会议管理的数据,p。1987年5月27 - 29,160 - 172年,旧金山,加州,美国

更多阅读:

  • 深入探究引发SQL优化器的催化剂
  • 2014年峰会 执行高级分析与火花SQL关系数据

    2014年6月29日凌晨5点PT

    在这个演讲我将描述SQL火花,一个新的阿尔法组件火花1.0发行版的一部分。火花SQL允许开发人员查询本地数据存储在两个现有的抽样和外部资源如Apache蜂巢。火花SQL的一个关键特性是能够模糊关系表和抽样之间的线,方便开发人员将SQL命令查询外部数据与复杂的分析。除了火花SQL,我还将讨论催化剂优化器框架,它允许火花SQL自动重写查询计划更有效地执行。

    东2015年峰会 超越SQL:火花SQL抽象共同引发的工作

    2015年3月17日凌晨5点PT

    自一年前推出以来,火花SQL已经被证明是一个非常有效的方法来加快现有SQL工作负载利用火花的力量。火花SQL的内置支持读取数据从现有蜂巢仓库允许HQL用户实现更好的性能通过切换查询引擎。然而甚至非SQL工作负载常常可以受益于火花自动优化SQL可以执行。火花的核心SQL SchemaRDD的概念,改进了传统抽样的给他们的知识如何操纵他们的数据。除了丰富的查询,这个结构可以更有效地缓存和洗牌在计算数据。此外,通过添加数据源API,火花SQL更易于计算在结构化数据来自各种各样的格式,包括拼花、JSON、Apache Avro等等。这个演讲将展示的例子,甚至传统的火花工作如何受益于使用SchemaRDDs捕捉丰富的结构信息数据处理。它还将描述内置的JDBC服务器打开松散结构化大数据的世界传统的BI工具。最后,它将揭示的路线图火花SQL和项目发展的方向。

    峰会的欧洲2015 火花DataFrames:简单和快速分析的结构化数据

    2015年10月27日凌晨5点PT

    这篇文章将提供一个技术引发的DataFrame API的概述。首先,我们将回顾DataFrame API和展示如何从各种数据源创建DataFrames如蜂巢,RDBMS数据库,或者像Avro结构化文件格式。然后我们将给示例用户程序,操作DataFrames和指出常见的设计模式。讨论下半年将重点DataFrames的技术实现,如火花的使用SQL的催化剂优化器智能计划用户程序,和快速的使用二进制数据结构引发的核心引擎大大提高性能和内存使用常见类型的操作。

    东2016年峰会 构建火花:DataFrames、数据集和流

    2016年2月17日下午内PT

    随着火花越来越广泛的采用,我们专注于创建高级api,提供更多的机会自动优化。在这个演讲我的概述的一些激动人心的新火花2.0中可用的API,即数据集和流DataFrames /数据集。抽样的数据集提供了一种进化的API,允许用户表达计算为类型安全的lambda函数的域对象,同时还利用提供的强大的优化催化剂优化和钨执行引擎。我将描述高级概念以及深入的细节内部代码自动生成,使我们能够提供良好的性能。流DataFrames /数据集让开发者无缝地将他们现有的结构化管道变成实时增量处理引擎。我将展示这个新API的功能并讨论未来的发展方向包括容易sessionization和event-time-based窗口。

    2016年峰会 构建火花:Dataframes,数据集和流

    2016年6月6日凌晨5点PT

    随着火花越来越广泛的采用,我们专注于创建高级api,提供更多的机会自动优化。在这个演讲我的概述的一些激动人心的新火花2.0中可用的API,即数据集和流DataFrames /数据集。抽样的数据集提供了一种进化的API,允许用户表达计算为类型安全的lambda函数的域对象,同时还利用提供的强大的优化催化剂优化和钨执行引擎。我将描述高级概念以及深入的细节内部代码自动生成,使我们能够提供良好的性能。流DataFrames /数据集让开发者无缝地将他们现有的结构化管道变成实时增量处理引擎。我将展示这个新API的功能并讨论未来的发展方向包括容易sessionization和event-time-based窗口。

    相关文章:

  • 介绍Apache火花2.0
  • DataFrames和数据集
  • 一个故事三个Apache火花api:抽样,DataFrames和数据集
  • 介绍Apache火花数据集
  • 东2017年峰会 生产就绪的结构化流

    2017年2月7日,内点PT

    在火花2.0中,我们介绍了结构化流,它允许用户不断地更新你的世界观和新数据到达时,同时使用相同的SQL抽象熟悉的火花。我谈论我们取得进展之后在健壮性、延迟、表现力和可观察性,使用生产端到端连续应用的例子。

    去年,在Apache 2.0火花,砖引入结构化流媒体,一个新的流处理引擎建立在火花SQL,这彻底改变了开发者可以编写应用程序流处理。结构化流允许用户以同样的方式表达他们的计算会快递一批对静态数据查询。开发人员可以使用强大的高级api包括DataFrames表达查询,数据集和SQL。然后,火花的SQL引擎能够将这批变换转化为可以处理流数据的增量执行计划,同时自动处理后期,无序的数据和确保端到端只有一次容错担保。
    自2.0火花,砖一直在辛勤工作,构建一流的集成与卡夫卡。有了这个新连接,执行复杂、低延迟分析现在一样容易写一个标准的SQL查询。这个功能,除了现有的火花SQL连接,便于分析数据使用一个统一的框架。用户现在可以无缝地从数据中提取的见解,独立于它是否来自混乱/非结构化文件,结构化/柱状历史数据仓库,或抵达实时从卡夫卡/运动。

    在这个会话,Das将穿过一个具体的例子——在不到10行——你读卡夫卡,解析JSON负载数据到单独的列,改变它,丰富它通过加入与静态数据和写出来一个表准备到最后一刻数据批处理和特别查询。他将使用的技术包括基于事件时间的聚合,任意状态操作,使用事件时间水印和自动状态管理。

    峰会的欧洲2017 宣布砖δ

    2017年10月24日凌晨5点PT

    砖CEO阿里Ghodsi介绍砖三角洲,一个新的数据管理系统相结合的规模和成本效率数据,数据仓库的性能和可靠性,以及流媒体的低延迟。

    BOB低频彩了解更多:

  • 砖三角洲的指南
  • 砖三角洲:一个统一的数据管理系统实时大数据