与三角洲湖建立大规模可靠的数据湖-继续

大多数数据从业者都在努力解决数据可靠性问题——这是他们存在的祸害。特别是数据工程师，他们努力以一种高性能的方式设计、部署和提供可靠的数据，以便他们的组织能够最大限度地利用有价值的企业数据资产。

Delta Lake是一个开源存储层，它将ACID事务引入Apache Spark™和大数据工作负载。Delta Lake基于开放标准，采用联合设计的计算和存储，并与Spark API兼容。它支持高数据可靠性和查询性能，以支持大数据用例，从批处理和流式摄取，快速交互式查询到机器学习。在本教程中，我们将讨论现代数据工程的需求，数据工程师在数据可靠性和性能方面面临的挑战，以及Delta Lake如何提供帮助。通过演示、代码示例和笔记本，我们将解释这些挑战以及使用Delta Lake来解决它们。您将了解如何将这种创新应用于数据架构，以及可以获得哪些好处。

本教程将是教师指导和实践互动会话。关于如何获得教程材料的说明将在课堂上讨论。

你将学到:

了解关键数据可靠性的挑战
Delta Lake如何为大规模的数据湖带来可靠性
了解Delta Lake如何适应Apache Spark™环境
如何利用Delta Lake实现数据可靠性提升

先决条件

一台充满电的笔记本电脑(8-16GB内存)，配备Chrome或Firefox浏览器
预注册Databricks社区版

«回来

关于Andreas Neumann

砖

Andreas Neumann是Databricks的软件工程师，他专注于结构化流和Delta Lake。他曾在谷歌、Cask data、Yahoo!和IBM。Andreas拥有德国特里尔大学计算机科学博士学位。

关于如来

砖

Tathagata Das是Apache Spark提交者和PMC的成员。他是Spark Streaming背后的首席开发人员，目前正在开发Structured Streaming。此前，他是加州大学伯克利分校AMPLab的研究生，在那里他与Scott Shenker和Ion Stoica一起进行了关于数据中心框架和网络的研究。

关于Mukul Murthy

砖

Mukul Murthy是Databricks在Delta Lake项目上工作的软件工程师。Mukul获得了加州大学伯克利分校的电气工程和计算机科学学士学位，在加入Databricks之前，Mukul还在微软Office365工作过。

从过去的事件中寻找谈话?检查视频存档

由Databricks组织
如果您有任何问题，或想了解赞助Spark + AI峰会的信息，请联系(电子邮件保护)．

Apache, Apache Spark，火花和Spark标志均为Apache软件基金会．Apache软件基金会与本次活动中提供的材料没有任何关联，也不认可这些材料。