跳转到主要内容
工程的博客

免费获取三角洲湖:明确的指南(早期版本)

分享这篇文章

在数据+人工智能峰会上,我们兴奋地宣布提前释放的三角洲湖:明确的指南O ' reilly发表。导游教如何构建一个现代lakehouse建筑结合性能、可靠性和数据完整性的一个仓库的灵活性,规模和支持非结构化数据在数据湖。它还展示了如何使用三角洲湖lakehouse的关键推动者,提供ACID事务,时间旅行、模式约束和更加开放的顶部铺格式。三角洲湖增强Apache火花和便于存储和管理大量复杂的数据通过支持数据完整性、数据质量和性能。


得到的早期预览O ' reilly的新电子书一步一步的指导你需要开始使用三角洲湖。


从阅读本指南你能指望什么?了解所有围绕湖泊使用将事务性和可靠性数据三角洲湖。你将获得一个了解大数据技术的演变景观——从数据仓库到数据lakehouse

Lakehouse进化数据
资料来源:数据Lakehouse进化

没有短缺的挑战与构建数据管道,这引导穿过如何解决这些问题,使数据管道健壮和可靠,以便下游用户实现重大价值和依赖他们的数据来做出重要的数据驱动的决策。

虽然许多组织已经标准化Apache火花™随着大数据处理引擎,我们需要添加事务性数据湖泊,以确保高质量的端到端数据管道。这就是三角洲湖。三角洲湖增强Apache火花和便于存储和管理大量复杂的数据通过支持数据完整性、数据质量和性能。和最近的公告迈克尔时常要马泰Zaharia,砖最近发布的三角洲湖1.0Apache火花3.1,增加了实验的支持谷歌云存储,甲骨文云存储IBM Cloud对象存储。在本版本中,我们还介绍了三角洲分享,一个开放的协议大型数据集的安全实时交换,使组织共享数据实时不管他们所使用的计算平台。bob体育客户端下载我们将介绍所有这些版本的循序渐进的指导将来的版本的书。

本指南的目的是走数据工程师、科学家和数据专业人员通过如何建立可靠的数据使用三角洲湖湖泊和大规模的数据管道。此外,您将:

  • 理解关键数据的可靠性及如何应对这些挑战
  • 学习如何使用三角洲湖实现数据可靠性的改进
  • 同时学习如何运行流湖和批处理作业数据
  • 探索如何执行更新、删除和合并命令对数据湖
  • 投入使用时间旅行回滚并检查以前版本的数据
审查事务日志的结构
  • 学习最佳实践来构建有效的、高质量的端到端数据管道实际用例
  • 与其他数据集成技术像转眼间,雅典娜、红移和其他BI工具和编程语言
  • 了解不同的用例事务日志可以绝对的救命稻草,如数据治理(GDPR / CCPA):
简化管理用例与时间旅行

本书读者角色

本指南不需要任何先验知识现代lakehouse建筑然而,大数据的一些知识,数据格式,云架构和Apache火花是有益的。虽然我们邀请任何人有兴趣的数据架构和机器学习来检查我们的导游,这是特别有用:

  • 数据工程师与Apache火花或大数据背景
  • 机器学习工程师参与日常数据工程是谁
  • 数据科学家有兴趣学习幕后策划的工程数据
  • dba(或其他操作人)谁知道SQL和数据库概念和想要应用他们的知识数据的新的世界湖泊
  • 大学的学生学习一切可能的CS,数据和人工智能吗

早期发布的数字图书从可用O ' reilly。你可以阅读电子书的最早怀疑作者的原始和未编辑的内容写这么您可以利用这些技术之前的官方发布这些标题。最后的数字拷贝预计将在2021年底发布的打印副本将在2022年4月。多亏了加里•奥布莱恩,杰斯哈伯曼克里斯Faucher从O ' reilly与图书出版一直帮助我们。

提前释放的三角洲湖:明确的指南
提前释放的三角洲湖:明确的指南

提供你一个先睹为快,这里是一段节选第二章描述三角洲湖是什么。

三角洲湖是什么?

如前所述,随着时间的推移,有不同的数据存储解决方案构建来解决这个问题——从数据库到数据质量湖泊。从数据库数据湖泊过渡允许业务逻辑与存储的分离以及独立规模的计算和存储能力。但迷失在这个转型是确保数据可靠性。提供数据可靠性数据湖泊三角洲湖的发展。
由最初的创造者Apache火花,三角洲湖旨在结合两全其美的(即在线分析工作量。OLAP风格):数据库的事务可靠性数据的水平可伸缩性的湖泊

三角洲湖是一个基于文件的,开源提供ACID事务的存储格式,可扩展的元数据处理,结合流媒体和批量数据处理。它运行在现有数据的湖泊和兼容Apache火花和其他处理引擎。具体地说,它提供了以下功能:

  • 酸担保:三角洲湖确保所有数据更改写入存储是耐用性和对读者自动是可见的。换句话说,没有更多的部分或损坏的文件!我们将讨论更多的酸担保作为交易的一部分记录在本章后面。
  • 可伸缩的数据和元数据处理:因为湖泊三角洲湖是建立在数据,所有读写使用火花或其他分布式处理引擎本质上是可伸缩的pb级别。然而,与大多数其他的存储格式和查询引擎,三角洲湖利用火花规模的所有元数据处理,从而有效地处理数十亿的元数据文件pb级别的表。我们将讨论更多的事务日志在本章后面。
  • 审计历史和时间旅行:三角洲湖事务日志记录每个细节变化提供一个完整的审计跟踪数据的变化。这些数据快照使开发人员能够访问和恢复到早期版本的数据审计,回滚,或者复制实验。我们将在第三章将深入研究这个话题:时间旅行与三角洲。
  • 执行模式和模式演化:三角洲湖自动防止数据的插入一个不正确的模式,即表模式不匹配。在需要的时候,它允许表模式是明确和安全进化以适应数据不会改变。我们将在第四章将深入研究这个话题聚焦模式执法和演化。
  • 支持删除、更新和合并:大多数分布式处理框架不支持原子数据修改操作数据湖泊。三角洲湖支持合并、更新和删除操作,使复杂的用例包括但不限于变更数据获取(CDC), slowly-changing-dimension (SCD)操作,和流媒体插入。我们将在第5章将深入研究这一主题:数据修改三角洲。
  • 流和批处理的统一:三角洲湖表有工作能力都在批处理和流源和下沉。工作能力在各种各样的延迟从流数据摄入批历史回填交互式查询都是工作的。我们将在第6章将深入研究这个话题:流媒体应用程序与三角洲。

(一)管道使用单独的存储系统和(b)使用三角洲湖流和表存储。

上面的图(从VLDB20论文引用)显示了一个数据管道使用三个存储系统实现(一个消息队列,对象存储和数据仓库),或者使用三角洲湖流和表存储。三角洲湖版本删除了需要管理数据的多个副本,只使用低成本的对象存储。有关更多信息,请参考VLDB20论文:三角洲湖:高性能酸表存储在云存储对象。


另外,我们计划涵盖以下主题在这本书的最终版本。

  • 构建数据管道正在建设的关键部分正确的平台和体系结构,因此我们将聚焦于如何构建bob体育客户端下载三角洲湖大奖章架构(第七章)Lakehouse架构(第八章)分别。
  • 作为所有数据的数据可靠性是至关重要的工程和数据科学系统,重要的是,这种能力是可以访问所有系统。因此在集成与三角洲湖(第9章),我们将关注如何三角洲湖与其他开源和专有系统集成包括但不限于转眼间,雅典娜和更多!
  • 与三角洲湖生产多年超过1 exabyte每天处理的数据,有大量的设计技巧和最佳实践,将讨论设计模式使用三角洲湖(第十章)
  • 同样重要的生产环境是构建安全与治理的能力为你的湖,这将是覆盖着安全性和治理(第11章)。
  • 圆了这本书,我们还将讨论重要的主题包括性能和调优(第12章),迁移到三角洲湖(第13章),三角洲湖案例研究(第14章)

请一定要检查出的一些相关内容数据+人工智能峰会2021bob体育客户端下载平台——关键提示有远见和思想领袖包括Bill Inmon:数据仓库的父亲,马拉拉Yousafzai:诺贝尔和平奖得主和教育主张,Moogega库珀博士亚当Steltzner:著名的开拓性的工程师火星探测器“毅力”在nasa喷气推进实验室的使命,索尔Rashidi:曹在雅诗兰黛,DJ帕蒂尔谁创造了Linkedin的标题“数据科学家”,迈克尔时常要砖,杰出的软件工程师,马泰Zaharia:砖联合创始人和首席技术专家,和最初的创造者Apache火花MLflow阿里Ghodsi演讲者:砖的首席执行官兼联合创始人等特性。你的知识水平高技术含量由权威专家了。
免费试着砖

相关的帖子

看到所有工程的博客的帖子