跳转到主要内容
工程的博客

ACID事务数据湖泊技术谈判:开始使用三角洲湖

2020年11月23日 工程的博客

分享这篇文章

作为我们的数据+人工智能网上聚会,我们探讨的话题从基因组学(客人从Regeneron)到机器学习管道和GPU-accelerated毫升表的性能优化。一个关键的主题区域Lakehouse的探索。

Lakehouse架构模式的兴起是建立在技术创新使湖的数据支持ACID事务和其他特性的传统数据仓库的工作负载。

开始使用三角洲湖技术演讲系列将介绍的技术基础三角洲湖(Apache火花™),构建高度可伸缩的数据管道,处理合并流+批处理工作负载,驱动数据科学与三角洲湖和MLflow,甚至会在幕后与三角洲湖工程师了解的起源。

的

使Apache火花与三角洲湖更好

Apache火花是占主导地位的大数据的处理框架。三角洲湖增加了可靠性引发你的分析和机器学习计划准备访问质量,可靠的数据存储在云低成本对象存储如AWS S3, Azure存储和谷歌云存储。在这个会话中,您将了解使用三角洲湖来提高数据可靠性数据湖泊。

简化和规模数据工程管道

工程管道架构使用公共数据表对应于不同的质量水平,逐步添加结构数据:数据摄入(“青铜”表),转换/特性工程(“银”表)和总表/机器学习培训或预测(“黄金”表)。结合起来,我们将这些表作为一个“种”的架构。它允许数据工程师建立管道始于原始数据作为“单一来源的真相”的所有流动。在这个会话中,您将了解工程管道架构的数据,数据工程管道场景和最佳实践,三角洲湖如何提高数据工程管道,并采用三角洲湖是多么容易构建数据工程管道。

超越λ:引入三角洲体系结构

λ架构是一个受欢迎的技术,记录是由一批处理并行系统和流媒体系统。结果,在查询时结合提供一个完整的答案。随着三角洲湖,我们看到很多我们的客户采用一个简单的连续数据流模型来处理数据的到来。我们称之为建筑“三角洲体系结构。“在这个会话中,我们将介绍采用连续数据流模型的主要瓶颈和三角洲体系结构是如何解决这些问题。

获取数据准备数据科学与三角洲湖和MLflow

当涉及到规划数据科学计划,必须采取一个整个数据分析领域的整体视图。数据工程数据科学的关键推动者,帮助提供可靠、及时质量数据。在这个会话中,您将学习科学数据生命周期,现代数据工程的关键原则,三角洲湖如何帮助可靠的数据准备好分析,是多么容易采用湖三角洲湖权力你的数据,以及如何将三角洲湖内数据基础设施,使数据的科学。

幕后:创世纪的三角洲湖

开发人员提倡丹尼李采访Burak•,软件工程师在砖,了解三角洲湖团队的决策过程和为什么他们设计,架构,实现今天的体系结构。在这个会话中,您将了解团队面临的技术挑战,这些挑战是如何解决,以及他们对未来的计划。

开始

今天开始填满你的三角洲湖通过观察这一点完整的系列

接下来是什么?

如果你想扩大你的知识在三角洲湖,看我们深入三角洲湖技术系列。指导下三角洲湖工程团队,包括Burak•,安德里亚·诺伊曼如来佛“TD”Das,和开发人员的拥护者,丹尼李,您将了解三角洲湖的内部实现。

如果你想听到未来网上聚会,加入我们数据+人工智能网络聚会在meetup.com上

深入三角洲湖
让自己沉浸在三角洲湖的内部,一个流行的开源技术更可靠数据的湖泊。bob下载地址

免费试着砖
看到所有工程的博客的帖子