Burak Yavuz是Databricks的软件工程师和Apache Spark提交者。他一直在开发结构化流和Delta Lake,以简化数据工程师的生活。Burak在斯坦福大学获得管理科学与工程硕士学位,在伊斯坦布尔博加齐大学获得机械工程学士学位。
事务日志是理解Delta Lake的关键,因为它是贯穿其许多最重要特性的公共线程,包括ACID事务、可伸缩元数据处理、时间旅行等等。在本节课中,我们将探讨Delta Lake事务日志是什么,它如何在文件级别上工作,以及它如何为多个并发读写问题提供一个优雅的解决方案。
在本次技术讲座中,您将了解到:
发言人:Denny Lee和Burak Yavuz
谁知道时间旅行是可能的呢!
虽然你可以利用三角洲湖的特点,但在封面下到底发生了什么?我们将带您了解ACID事务、Delta时间机、事务协议的概念,以及Delta如何为数据湖带来可靠性。组织最终可以在自己的云存储中标准化一个干净的、集中的、版本化的大数据存储库,用于分析
与会者能从会议中学到什么?
主讲人:Vini Jaiswal和Burak Yavuz
在这次演讲中,我们将重点介绍Spark生态系统中发生的主要努力。特别地,我们将深入研究Spark 3.0中自适应和静态查询优化的细节,以使Spark更易于使用和更快地运行。我们还将演示Koalas(一个开源库,在Spark上提供类似panda的API)中的新功能如何帮助数据科学家更快bob下载地址地从数据中获得见解。
结构化流是2年前在Spark 2.0中引入Spark的一个新的流API,并在Spark 2.2中发布。Databricks客户在生产中使用结构化流处理了超过100万亿行的数据。我们收到了许多关于如何最好地开发、监控、测试、部署和升级这些作业的问题。在这次演讲中,我们的目标是在我们的客户群中分享哪些是有效的,哪些是无效的最佳实践。
我们将解决关于如何提前计划的问题,什么样的代码更改对于结构化流作业是安全的,如何构建流管道,可以通过使用Databricks Delta等工具在不牺牲性能的情况下为您提供最大的灵活性,如何最好地监控流作业并在流落后或实际失败时发出警报,以及如何最好地测试您的代码。
大多数数据从业者都在努力解决数据质量问题和数据管道的复杂性——这是他们存在的祸害。特别是数据工程师,他们努力设计和部署健壮的数据管道,以高性能的方式提供可靠的数据,以便他们的组织能够最大限度地利用有价值的企业数据资产。
Databricks Delta是Databricks Runtime的一部分,是建立在Apache Spark之上的下一代统一分析引bob体育亚洲版擎。Delta基于开放标准,采用联合设计的计算和存储,并与Spark API兼容。它支持高数据可靠性和查询性能,以支持大数据用例,从批处理和流式摄取,快速交互式查询到机器学习。在本教程中,我们将讨论现代数据管道的需求,数据工程师在数据可靠性和性能方面面临的挑战,以及Delta如何提供帮助。通过演示、代码示例和笔记本,我们将解释管道挑战以及使用Delta来解决这些挑战。您将了解如何将这种创新应用于数据架构,以及可以获得哪些好处。
本教程将是教师指导和实践互动会话。关于如何获得教程材料的说明将在课堂上讨论。
你将学到:
-了解关键数据可靠性和性能数据管道的挑战
- Databricks Delta如何帮助大规模建立强大的管道
-了解Delta如何适应Apache Spark™环境
—如何通过Delta实现数据可靠性的提升
-如何使用Delta实现性能提升
先决条件:
-一台充满电的笔记本电脑(8-16GB内存),配备Chrome或Firefox浏览器
-预注册Databricks社区版
Lambda架构、数据仓库、数据湖、预置Hadoop部署、弹性云架构……在处理数据时,我们不得不在生活中的某个时刻处理其中的大多数。在Databricks,我们建立了利用这些架构的数据管道。我们与数百个也建立类似管道的客户合作。在此过程中,我们观察到了一些常见的痛点:HiveMetaStore很容易成为瓶颈,S3的最终一致性令人讨厌,一旦表超过一定规模,任何地方的文件列表都将成为瓶颈,没有一种简单的方法来保证原子性——垃圾数据可能会进入系统。这样的例子不胜枚举。
在了解了所有这些痛点后,我们开始将Structured Streaming引擎用于ETL并分析数据。在这次演讲中,我们将讨论如何利用Structured Streaming、Databricks Delta和Databricks Runtime中提供的其他专门功能(例如基于文件通知的流媒体源)构建健壮、可扩展和高性能的多云数据管道,以及如何利用数据跳过和Z-Order聚类优化Databricks Delta。
您将通过结构化流和Databricks运行时的最新创新,了解在设计可伸缩的数据管道时应该考虑什么。
会议标签:#SAISDev15