跳到主要内容

从三角洲湖开始

Delta Lake让Apache Spark变得更好

    要播放此视频,请点击这里并接受cookie

    系列的细节

    本次会议是丹尼·李(Denny Lee)和三角洲湖团队“三角洲湖入门”系列的一部分。

    会议摘要

    加入Delta Lake工程团队负责人Michael Armbrust,了解他的团队如何基于Apache Spark将ACID事务和其他数据可靠性技术从数据仓库世界引入云数据湖。

    Apache Spark是大数据的主要处理框架。Delta Lake为Spark增加了可靠性,因此您的分析和机器学习计划可以随时访问高质量、可靠的数据。本次网络研讨会将介绍如何使用Delta Lake增强Spark环境中的数据可靠性。

    主题领域包括:

    • Apache Spark在大数据处理中的作用
    • 使用数据湖作为数据体系结构的重要组成部分
    • 数据湖可靠性挑战
    • Delta Lake如何为Spark处理提供可靠数据
    • Delta Lake增加的具体改进
    • 采用Delta Lake为数据湖供电的便利性

    你需要:
    注册社区版在这里并获得研讨会演示材料和样本笔记本

    迈克尔·阿姆布鲁斯特的个人资料图片

    迈克尔。Databricks的首席软件工程师
    Michael Armbrust是Apache Spark的提交者和PMC成员,也是Spark SQL的最初创建者。他目前在Databricks领导设计和构建结构化流和Databricks Delta的团队。他于2013年在加州大学伯克利分校获得博士学位,并由迈克尔·富兰克林、大卫·帕特森和阿曼多·福克斯担任顾问。他的论文专注于构建允许开发人员快速构建可伸缩交互应用程序的系统,并特别定义了规模独立性的概念。他的兴趣广泛包括分布式系统、大规模结构化存储和查询优化。

    视频记录

    - [Denny]大家好。欢迎参加我们今天的网络研讨会,用Delta Lake让Apache Spark变得更好。

    在我们开始今天的演示之前,我们想回顾一下一些内务事项,以确保您有最好的体验。请注意,为了让大家观看时更舒适,您的音频连接将被静音。如果您有任何顾虑或问题,请在问题小组或聊天中提出。在小组讨论中,我们鼓励你们利用这段时间尽可能多地提出问题,并澄清对今天话题的任何疑问。我们今天的主要主讲人Michael Armbrust是Spark SQL和Structured Streaming的最初创建者,也是Delta Lake的主要创建者之一。他是数据库公司的首席工程师,所以不要再拖延了,把迈克尔带走吧。-谢谢你,Denny。今天我非常高兴能在这里谈论如何通过使用Delta Lake使Apache Spark变得更好。然而,在我开始之前,我想先谈谈数据湖的概念,以及为什么这么多人对它感到兴奋,以及为什么当他们试图设置这些东西时,会有很多挑战。