与三角洲湖建立大规模可靠的数据湖-继续

大多数数据从业者都在努力解决数据可靠性问题——这是他们存在的祸害。特别是数据工程师,他们努力以一种高性能的方式设计、部署和提供可靠的数据,以便他们的组织能够最大限度地利用有价值的企业数据资产。

Delta Lake是一个开源存储层,它将ACID事务引入Apache Spark™和大数据工作负载。Delta Lake基于开放标准,采用联合设计的计算和存储,并与Spark API兼容。它支持高数据可靠性和查询性能,以支持大数据用例,从批处理和流式摄取,快速交互式查询到机器学习。在本教程中,我们将讨论现代数据工程的需求,数据工程师在数据可靠性和性能方面面临的挑战,以及Delta Lake如何提供帮助。通过演示、代码示例和笔记本,我们将解释这些挑战以及使用Delta Lake来解决它们。您将了解如何将这种创新应用于数据架构,以及可以获得哪些好处。

本教程将是教师指导和实践互动会话。关于如何获得教程材料的说明将在课堂上讨论。

你将学到:

  • 了解关键数据可靠性的挑战
  • Delta Lake如何为大规模的数据湖带来可靠性
  • 了解Delta Lake如何适应Apache Spark™环境
  • 如何利用Delta Lake实现数据可靠性提升

先决条件

  • 一台充满电的笔记本电脑(8-16GB内存),配备Chrome或Firefox浏览器
  • 预注册Databricks社区版


«回来
安德烈亚斯•诺伊曼
关于Andreas Neumann

Andreas Neumann是Databricks的软件工程师,他专注于结构化流和Delta Lake。他曾在谷歌、Cask data、Yahoo!和IBM。Andreas拥有德国特里尔大学计算机科学博士学位。

关于如来

Tathagata Das是Apache Spark提交者和PMC的成员。他是Spark Streaming背后的首席开发人员,目前正在开发Structured Streaming。此前,他是加州大学伯克利分校AMPLab的研究生,在那里他与Scott Shenker和Ion Stoica一起进行了关于数据中心框架和网络的研究。

关于Mukul Murthy

Mukul Murthy是Databricks在Delta Lake项目上工作的软件工程师。Mukul获得了加州大学伯克利分校的电气工程和计算机科学学士学位,在加入Databricks之前,Mukul还在微软Office365工作过。