Burak•

高级软件工程师，数据

Burak Yavuz是Databricks的软件工程师和Apache Spark提交者。他一直在开发结构化流和Delta Lake，以简化数据工程师的生活。Burak在斯坦福大学获得管理科学与工程硕士学位，在伊斯坦布尔博加齐大学获得机械工程学士学位。

过去的会议

2020年欧洲峰会潜入Delta Lake:打开事务日志

太平洋时间2020年11月17日下午04:00

事务日志是理解Delta Lake的关键，因为它是贯穿其许多最重要特性的公共线程，包括ACID事务、可伸缩元数据处理、时间旅行等等。在本节课中，我们将探讨Delta Lake事务日志是什么，它如何在文件级别上工作，以及它如何为多个并发读写问题提供一个优雅的解决方案。

在本次技术讲座中，您将了解到:

Delta Lake交易日志是什么
事务日志的用途是什么?
事务日志是如何工作的?
在文件级别上检查Delta Lake事务日志
处理多个并发读写
Delta Lake事务日志如何解决其他用例，包括时间旅行和数据沿袭和调试

发言人:Denny Lee和Burak Yavuz

2020年欧洲峰会通过Delta时间机进行数据时间旅行

太平洋时间2020年11月18日下午04:00

谁知道时间旅行是可能的呢!

虽然你可以利用三角洲湖的特点，但在封面下到底发生了什么?我们将带您了解ACID事务、Delta时间机、事务协议的概念，以及Delta如何为数据湖带来可靠性。组织最终可以在自己的云存储中标准化一个干净的、集中的、版本化的大数据存储库，用于分析

数据工程师可以简化他们的管道并回滚错误的写入。
数据科学家可以更好地管理他们的实验。
数据分析师可以做简单的报告。

与会者能从会议中学到什么?

时间旅行用例
关于时间旅行的误解
三角洲湖解决方案

了解Delta事务日志

实践实验室的时间旅行和常见的最佳实践

主讲人:Vini Jaiswal和Burak Yavuz

2019年欧洲峰会开源生态系统的新发展:Apache Spark bob下载地址3.0、Delta Lake和Koalas

2019年10月15日下午05:00 PT

在这次演讲中，我们将重点介绍Spark生态系统中发生的主要努力。特别地，我们将深入研究Spark 3.0中自适应和静态查询优化的细节，以使Spark更易于使用和更快地运行。我们还将演示Koalas(一个开源库，在Spark上提供类似panda的API)中的新功能如何帮助数据科学家更快bob下载地址地从数据中获得见解。

2019年峰会产品化结构化流作业

2019年4月23日下午05:00 PT

结构化流是2年前在Spark 2.0中引入Spark的一个新的流API，并在Spark 2.2中发布。Databricks客户在生产中使用结构化流处理了超过100万亿行的数据。我们收到了许多关于如何最好地开发、监控、测试、部署和升级这些作业的问题。在这次演讲中，我们的目标是在我们的客户群中分享哪些是有效的，哪些是无效的最佳实践。

我们将解决关于如何提前计划的问题，什么样的代码更改对于结构化流作业是安全的，如何构建流管道，可以通过使用Databricks Delta等工具在不牺牲性能的情况下为您提供最大的灵活性，如何最好地监控流作业并在流落后或实际失败时发出警报，以及如何最好地测试您的代码。

2019年峰会使用Databricks Delta构建稳健的生产数据管道

2019年4月23日下午05:00 PT

大多数数据从业者都在努力解决数据质量问题和数据管道的复杂性——这是他们存在的祸害。特别是数据工程师，他们努力设计和部署健壮的数据管道，以高性能的方式提供可靠的数据，以便他们的组织能够最大限度地利用有价值的企业数据资产。

Databricks Delta是Databricks Runtime的一部分，是建立在Apache Spark之上的下一代统一分析引bob体育亚洲版擎。Delta基于开放标准，采用联合设计的计算和存储，并与Spark API兼容。它支持高数据可靠性和查询性能，以支持大数据用例，从批处理和流式摄取，快速交互式查询到机器学习。在本教程中，我们将讨论现代数据管道的需求，数据工程师在数据可靠性和性能方面面临的挑战，以及Delta如何提供帮助。通过演示、代码示例和笔记本，我们将解释管道挑战以及使用Delta来解决这些挑战。您将了解如何将这种创新应用于数据架构，以及可以获得哪些好处。

本教程将是教师指导和实践互动会话。关于如何获得教程材料的说明将在课堂上讨论。

你将学到:
-了解关键数据可靠性和性能数据管道的挑战
- Databricks Delta如何帮助大规模建立强大的管道
-了解Delta如何适应Apache Spark™环境
—如何通过Delta实现数据可靠性的提升
-如何使用Delta实现性能提升

先决条件:
-一台充满电的笔记本电脑(8-16GB内存)，配备Chrome或Firefox浏览器
-预注册Databricks社区版

2018欧洲峰会使用结构化流设计和构建大规模的下一代数据管道

太平洋时间2023年2月11日下午05:26

Lambda架构、数据仓库、数据湖、预置Hadoop部署、弹性云架构……在处理数据时，我们不得不在生活中的某个时刻处理其中的大多数。在Databricks，我们建立了利用这些架构的数据管道。我们与数百个也建立类似管道的客户合作。在此过程中，我们观察到了一些常见的痛点:HiveMetaStore很容易成为瓶颈，S3的最终一致性令人讨厌，一旦表超过一定规模，任何地方的文件列表都将成为瓶颈，没有一种简单的方法来保证原子性——垃圾数据可能会进入系统。这样的例子不胜枚举。

在了解了所有这些痛点后，我们开始将Structured Streaming引擎用于ETL并分析数据。在这次演讲中，我们将讨论如何利用Structured Streaming、Databricks Delta和Databricks Runtime中提供的其他专门功能(例如基于文件通知的流媒体源)构建健壮、可扩展和高性能的多云数据管道，以及如何利用数据跳过和Z-Order聚类优化Databricks Delta。

您将通过结构化流和Databricks运行时的最新创新，了解在设计可伸缩的数据管道时应该考虑什么。

会议标签:#SAISDev15