从三角洲湖开始

超越Lambda:介绍Delta体系结构

丹尼·李。Databricks的开发者倡导者
Denny Lee是Databricks的开发者倡导者。他是一名实干的分布式系统和数据科学工程师,在为内部部署和云环境开发互联网规模的基础设施、数据平台和预测分析系统方面拥有丰富的经验。bob体育客户端下载他还拥有俄勒冈健康与科学大学(Oregon Health and Sciences University)的生物医学信息学硕士学位,并为企业医疗保健客户构建和实现了强大的数据解决方案。

系列的细节

本次会议是丹尼·李(Denny Lee)和三角洲湖团队“三角洲湖入门”系列的一部分。

会议摘要

Lambda架构是一种流行的技术,其中记录由批处理系统和流系统并行处理。然后在查询期间将结果进行组合,以提供完整的答案。对处理旧的和最近生成的事件的严格延迟要求使得这种体系结构流行起来。这种体系结构的主要缺点是管理两个不同系统的开发和操作开销。过去曾有人尝试将批处理和流处理统一到单个系统中。但在这些尝试中,组织并没有那么成功。但是,随着Delta Lake的出现,我们看到许多客户采用简单的连续数据流模型来处理到达的数据。我们称这种架构为Delta架构。在本节课中,我们将讨论采用连续数据流模型的主要瓶颈,以及Delta体系结构如何解决这些问题。

你需要:
注册社区版在这里并获得研讨会演示材料和样本笔记本。

高级:潜入三角洲湖

深入了解Delta Lake的内部结构,这是一种流行的开源技术,在您的数据湖之上支持ACID事务、时间旅bob下载地址行、模式强制等。

看现在