什么是Databricks Lakehouse?

Databricks Lakehouse将数据仓库的ACID事务和数据治理与数据湖的灵活性和成本效益相结合,在所有数据上实现商业智能(BI)和机器学习(ML)。Databricks Lakehouse以开源数据标准将数据保存在大规模可扩展的云对象存储中,允许您以任何方式和任何地方使用数据。bob下载地址

Databricks Lakehouse的组成部分

Databricks Lakehouse的主要组成部分是:

通过使用三角洲湖,您可以使下游数据科学家、分析师和机器学习工程师在处理数据后立即利用相同的生产数据来支持核心ETL工作负载。

Unity Catalog确保您可以完全控制谁可以访问哪些数据,并提供了一个集中的机制来管理所有数据治理和访问控制,而无需复制您的数据。

三角洲表

Databricks上创建的表默认使用Delta Lake协议。当你创建一个新的Delta表:

  • 用于引用表的元数据被添加到声明的模式或数据库中的metastore中。

  • 数据和表元数据保存在云对象存储的目录中。

对Delta表的metastore引用在技术上是可选的;您可以通过使用直接与目录路径交互来创建Delta表火花api.一些基于Delta Lake的新功能将在表目录中存储额外的元数据,但所有Delta表都有:

  • 包含Parquet文件格式的表数据的目录。

  • 一个目录/ _delta_log包含JSON和Parquet格式的表版本元数据。

BOB低频彩了解更多Databricks Lakehouse中的数据对象

统一目录

Unity Catalog在Databricks上统一数据治理和发现。在笔记本、作业和Databricks SQL中,Unity Catalog提供了支持为数据湖和数据仓库设计的工作负载和用户的功能和ui。

  • Unity Catalog亚存储的帐户级管理意味着数据库、数据对象和权限可以在Databricks工作空间之间共享。

  • 您可以利用三层命名空间(<目录>。<数据库>。<表>),用以组织及授权查阅资料。

  • 外部位置和存储凭据也是安全对象,具有与其他数据对象类似的ACL设置。

  • 数据浏览提供一个图形用户界面来浏览数据库和管理权限。

数据湖屋vs数据仓库vs数据湖

数据仓库为商业智能(BI)决策提供了大约30年的动力,已经发展成为一套控制数据流的系统设计指南。数据仓库优化BI报告的查询,但生成结果可能需要几分钟甚至几小时。数据仓库是为不太可能频繁更改的数据设计的,它试图防止并发运行的查询之间发生冲突。许多数据仓库依赖于专有格式,这通常限制了对机器学习的支持。

在数据存储技术进步的推动下,在数据类型和数据量的指数级增长的推动下,数据湖在过去十年中得到了广泛应用。数据湖以低成本高效的方式存储和处理数据。数据湖的定义通常与数据仓库相反:数据仓库为BI分析提供干净、结构化的数据,而数据湖以任何格式永久且廉价地存储任何性质的数据。许多组织将数据湖用于数据科学和机器学习,但由于其未经验证的性质,因此不用于BI报告。

数据湖屋取代了现代数据公司目前对数据湖和数据仓库的依赖,这些公司希望:

  • 开放、直接访问以标准数据格式存储的数据。

  • 为机器学习和数据科学优化的索引协议。

  • 用于BI和高级分析的低查询延迟和高可靠性。

通过将优化的元数据层与云对象存储中以标准格式存储的验证数据相结合,数据湖屋允许数据科学家和ML工程师从驱动BI报告的相同数据构建模型。