Burak•

高级软件工程师,数据

    Burak Yavuz是Databricks的软件工程师和Apache Spark提交者。他一直在开发结构化流和Delta Lake,以简化数据工程师的生活。Burak在斯坦福大学获得管理科学与工程硕士学位,在伊斯坦布尔博加齐大学获得机械工程学士学位。

    过去的会议

    2020年欧洲峰会 潜入Delta Lake:打开事务日志

    太平洋时间2020年11月17日下午04:00

    事务日志是理解Delta Lake的关键,因为它是贯穿其许多最重要特性的公共线程,包括ACID事务、可伸缩元数据处理、时间旅行等等。在本节课中,我们将探讨Delta Lake事务日志是什么,它如何在文件级别上工作,以及它如何为多个并发读写问题提供一个优雅的解决方案。

    在本次技术讲座中,您将了解到:

    • Delta Lake交易日志是什么
    • 事务日志的用途是什么?
    • 事务日志是如何工作的?
    • 在文件级别上检查Delta Lake事务日志
    • 处理多个并发读写
    • Delta Lake事务日志如何解决其他用例,包括时间旅行和数据沿袭和调试

    发言人:Denny Lee和Burak Yavuz

    2020年欧洲峰会 通过Delta时间机进行数据时间旅行

    太平洋时间2020年11月18日下午04:00

    谁知道时间旅行是可能的呢!

    虽然你可以利用三角洲湖的特点,但在封面下到底发生了什么?我们将带您了解ACID事务、Delta时间机、事务协议的概念,以及Delta如何为数据湖带来可靠性。组织最终可以在自己的云存储中标准化一个干净的、集中的、版本化的大数据存储库,用于分析

    • 数据工程师可以简化他们的管道并回滚错误的写入。
    • 数据科学家可以更好地管理他们的实验。
    • 数据分析师可以做简单的报告。

    与会者能从会议中学到什么?

    • 时间旅行用例
    • 关于时间旅行的误解
    • 三角洲湖解决方案
      • 了解Delta事务日志
    • 实践实验室的时间旅行和常见的最佳实践

    主讲人:Vini Jaiswal和Burak Yavuz

    在这次演讲中,我们将重点介绍Spark生态系统中发生的主要努力。特别地,我们将深入研究Spark 3.0中自适应和静态查询优化的细节,以使Spark更易于使用和更快地运行。我们还将演示Koalas(一个开源库,在Spark上提供类似panda的API)中的新功能如何帮助数据科学家更快bob下载地址地从数据中获得见解。

    2019年峰会 产品化结构化流作业

    2019年4月23日下午05:00 PT

    结构化流是2年前在Spark 2.0中引入Spark的一个新的流API,并在Spark 2.2中发布。Databricks客户在生产中使用结构化流处理了超过100万亿行的数据。我们收到了许多关于如何最好地开发、监控、测试、部署和升级这些作业的问题。在这次演讲中,我们的目标是在我们的客户群中分享哪些是有效的,哪些是无效的最佳实践。

    我们将解决关于如何提前计划的问题,什么样的代码更改对于结构化流作业是安全的,如何构建流管道,可以通过使用Databricks Delta等工具在不牺牲性能的情况下为您提供最大的灵活性,如何最好地监控流作业并在流落后或实际失败时发出警报,以及如何最好地测试您的代码。

    2019年峰会 使用Databricks Delta构建稳健的生产数据管道

    2019年4月23日下午05:00 PT

    大多数数据从业者都在努力解决数据质量问题和数据管道的复杂性——这是他们存在的祸害。特别是数据工程师,他们努力设计和部署健壮的数据管道,以高性能的方式提供可靠的数据,以便他们的组织能够最大限度地利用有价值的企业数据资产。

    Databricks Delta是Databricks Runtime的一部分,是建立在Apache Spark之上的下一代统一分析引bob体育亚洲版擎。Delta基于开放标准,采用联合设计的计算和存储,并与Spark API兼容。它支持高数据可靠性和查询性能,以支持大数据用例,从批处理和流式摄取,快速交互式查询到机器学习。在本教程中,我们将讨论现代数据管道的需求,数据工程师在数据可靠性和性能方面面临的挑战,以及Delta如何提供帮助。通过演示、代码示例和笔记本,我们将解释管道挑战以及使用Delta来解决这些挑战。您将了解如何将这种创新应用于数据架构,以及可以获得哪些好处。

    本教程将是教师指导和实践互动会话。关于如何获得教程材料的说明将在课堂上讨论。

    你将学到:
    -了解关键数据可靠性和性能数据管道的挑战
    - Databricks Delta如何帮助大规模建立强大的管道
    -了解Delta如何适应Apache Spark™环境
    —如何通过Delta实现数据可靠性的提升
    -如何使用Delta实现性能提升

    先决条件:
    -一台充满电的笔记本电脑(8-16GB内存),配备Chrome或Firefox浏览器
    -预注册Databricks社区版

    2018欧洲峰会 使用结构化流设计和构建大规模的下一代数据管道

    太平洋时间2023年2月11日下午05:26

    Lambda架构、数据仓库、数据湖、预置Hadoop部署、弹性云架构……在处理数据时,我们不得不在生活中的某个时刻处理其中的大多数。在Databricks,我们建立了利用这些架构的数据管道。我们与数百个也建立类似管道的客户合作。在此过程中,我们观察到了一些常见的痛点:HiveMetaStore很容易成为瓶颈,S3的最终一致性令人讨厌,一旦表超过一定规模,任何地方的文件列表都将成为瓶颈,没有一种简单的方法来保证原子性——垃圾数据可能会进入系统。这样的例子不胜枚举。

    在了解了所有这些痛点后,我们开始将Structured Streaming引擎用于ETL并分析数据。在这次演讲中,我们将讨论如何利用Structured Streaming、Databricks Delta和Databricks Runtime中提供的其他专门功能(例如基于文件通知的流媒体源)构建健壮、可扩展和高性能的多云数据管道,以及如何利用数据跳过和Z-Order聚类优化Databricks Delta。

    您将通过结构化流和Databricks运行时的最新创新,了解在设计可伸缩的数据管道时应该考虑什么。

    会议标签:#SAISDev15