bob体育客户端下载平台的博客

宣布Unity Catalog在AWS和Azure上的公开预览

湖屋的统一治理
分享这篇文章

更新:统一目录现在可以在AWS和Azure上使用。

在2021年数据与人工智能峰会上,我们宣布统一目录,数据和人工智能的统一治理解决方案,内置在Databricks Lakehouse平台中。bob体育客户端下载今天,我们很高兴地宣布Unity Catalog面向AWS和Azure的公开预览版。

在这篇博客中,我们将总结Unity Catalog背后的愿景,以及这个版本中可用的一些关键数据治理特性,并概述我们即将到来的路线图。

为什么将Unity Catalog用于数据和AI治理?

数据和人工智能治理方面的主要挑战

数据和人工智能资产的多样性

数据使用量的增加和数据环境的复杂性的增加使组织难以管理和控制所有类型的数据相关资产。不仅仅是文件或表,今天的现代数据资产有多种形式,包括仪表板、机器学习模型和视频和图像等非结构化数据,而传统的数据治理解决方案根本无法对这些数据进行治理和管理。

两个完全不同且不兼容的数据平台bob体育客户端下载

如今,组织使用两种不同的平台进行数据分析和人工智能工作——用于BI的数据仓库bob体育客户端下载和用于大数据和人工智能的数据湖。这导致了跨两个平台的数据复制,带来了重大的治理挑战,因为很难创建统一的数据视图,以查看数bob体育客户端下载据存储在哪里,谁可以访问哪些数据,以及使用不同的治理模型跨两个平台一致地定义和执行数据访问策略。

数据仓库提供对结构化数据的表、行、列和视图的细粒度访问控制;但它们不能提供ML/AI或数据流用例所需的敏捷性和灵活性。相比之下,数据湖以其原生格式保存原始数据,为数据团队提供了执行ML/AI的灵活性。但是,现有的数据湖治理解决方案不提供细粒度的访问控制,只支持文件和目录的权限。数据湖治理还缺乏发现和共享数据的能力,这使得难以发现用于分析或机器学习的数据。

两个完全不同且不兼容的数据平台bob体育客户端下载

不断增长的多云应用

越来越多的组织正在利用多云策略来优化成本,避免供应商锁定,并满足合规性和隐私法规。对于非标准的特定于云的治理模型,跨云的数据治理非常复杂,需要熟悉特定于云的安全和治理概念,如身份和访问管理(Identity and Access Management, IAM)。

用于Lakehouse数据治理的脱节工具

如今,数据团队必须管理大量分散的工具/服务,以满足他们的数据治理需求,如数据发现、编目、审计、共享、访问控制等。由于多个集成点和服务之间的网络延迟,这将不可避免地导致操作效率低下和性能低下。

我们对治理湖屋的愿景

我们背后的愿景统一目录将所有数据和人工智能资产(包括仪表板、笔记本电脑和机器学习模型)的治理统一为跨云的通用治理模型,从而提供更好的本地性能和安全性。通过自动化的数据沿路,Unity Catalog提供了数据在您的组织中如何从源到消费的端到端可见性,使数据团队能够快速识别和诊断数据更改对其数据资产的影响。获取关于如何访问数据以及由谁访问数据的详细审计报告,以满足数据遵从性和安全性需求。通过丰富的数据发现,数据团队可以快速发现和参考BI、分析和ML工作负载的数据,从而加快实现价值的时间。

Unity Catalog也原生支持三角洲分享全球首个数据共享开放协议,实现跨组织无缝数据共享,同时保护数据安全和隐私。

最后,Unity Catalog还提供了跨现代数据堆栈的丰富集成,提供灵活性和互操作性,以利用您选择的工具来满足您的数据和人工智能治理需求。

这个版本提供了Unity Catalog的主要功能

集中元数据管理和用户管理

没有Unity Catalog,每个Databricks工作空间连接到一个Hive metastore,并维护一个单独的Table Access Controls (TACL)服务。这需要跨工作区手动同步元数据,如视图、表定义和acl,从而导致数据和访问控制的一致性问题。

Unity Catalog为跨工作区元数据引入了一个公共层,存储在帐户级别,以便通过允许不同的工作区通过一个公共接口访问Unity Catalog元数据来简化协作。此外,Unity Catalog中的数据权限应用于帐户级身份,而不是本地工作空间的身份,从而实现跨所有工作空间的用户和组的一致视图。

用Unity Catalog为你的数据创建一个单一的真实来源

Unity目录还支持在任何语言(Python、SQL、R和Scala)开发的工作负载上实现一致的数据访问和策略实施。

SQL中的三层名称空间

Unity Catalog还引入了三层命名空间来组织Databricks中的数据。您可以定义一个或多个目录,其中包含模式,而模式又包含表和视图。这给数据所有者更灵活地组织他们的数据,让他们看到他们现有的表注册在Hive目录(hive_metastore)之一,所以他们可以使用Unity目录与他们现有的数据。

例如,您仍然可以直接查询遗留的Hive metastore:

选择*hive_metastore.prod.customer_transactions

您还可以在目录级别区分生产数据并相应地授予权限:

选择*production.sales.customer_address

选择*staging.sales.customer_address

这使您能够灵活地在整个企业和环境范围内按照您选择的分类法组织数据。您可以使用Catalog作为环境范围、组织范围或两者兼而有之。

最新版本的Databricks JDBC Driver现在也支持三层名称空间,它使各种BI和ETL工具能够在Databricks上运行。

湖屋的统一数据访问

Unity Catalog提供了一个统一的数据访问层,为Databricks用户提供了一种简单而流线型的方式来定义和连接到您的数据,通过托管表,外部表或文件,以及管理访问控制。使用外部位置和存储凭据, Unity Catalog可以代表用户读取和写入云租户中的数据。

Unity Catalog支持对托管表、外部表和文件进行细粒度访问控制

集中访问控制

Unity Catalog集中了文件、表和视图的访问控制。它利用动态视图进行细粒度的访问控制,这样您就可以将对行和列的访问限制为授权查询它们的用户和组。

集中授予访问权限

表和视图的访问控制

Unity Catalog目前对细粒度访问控制的支持包括通过使用动态视图进行列、行过滤和数据屏蔽。

动态视图是一种视图,它允许您根据用户或用户的组成员关系制作显示条件语句。

例如,下面的视图只允许(电子邮件保护)以查看邮件列。

创建视图sales_redacted作为选择user_id,情况下current_user()(电子邮件保护)然后电子邮件其他的“修订”结束作为电子邮件,的国家,产品,总计sales_raw

文件访问控制

外部位置控制对以下文件的访问由外部表管理。例如,在上面的例子中,我们创建了一个外部位置s3: / /部门/融资和一张外部桌子s3: / /部门/金融/预测

这意味着我们仍然可以提供对内部文件的访问控制s3: / /部门/融资,不包括预测目录。

例如,考虑以下内容:

格兰特READ_FILE外部地方财政finance_dataengs;

开放、简单、安全的Delta共享数据

在2021年数据+人工智能峰会期间,我们宣布三角洲共享,这是世界上第一个用于安全数据共享的开放协议。Delta Sharing与Unity Catalog原生集成,它使客户能够添加细粒度的治理和数据安全控制,使内部或外部,跨平台或跨云共享数据变得简单和安全。bob体育客户端下载

三角洲分享允许客户安全地跨组织共享实时数据,而不依赖于数据驻留或使用的平台。bob体育客户端下载组织可以简单地基于Apache Parquet和Delta Lake格式共享现有的大规模数据集,而无需将数据复制到另一个系统。Delta Sharing还使数据团队能够灵活地使用他们选择的工具查询、可视化和丰富共享数据。

三角洲共享生态系统
三角洲共享生态系统

此版本中提供的新特性之一是分区过滤,通过在向共享中添加表时添加分区规范,允许数据提供者与不同的数据接收者共享组织的数据子集。我们还改进了Delta共享管理,并引入了接收方令牌管理选项对于metastore管理员。现在,metastore Admin可以使用create receiver命令创建接收者,并且会自动生成一个激活链接,供数据接收者下载包含用于访问共享数据的承载令牌的凭证文件。使用令牌管理功能,现在metastore管理员可以设置接收方承载令牌的到期日期,并在令牌存在暴露的安全风险时轮换令牌。

如欲了BOB低频彩解更多有关在Databricks上进行Delta共享的资料,请浏览Delta共享文件[AWSAzure].

集中数据访问审计

Unity Catalog还通过捕获针对数据执行的操作的审计日志来提供集中的细粒度审计。这可以提供关于谁访问给定数据集的细粒度细节,并帮助您满足合规性和业务需求。

接下来会发生什么?

这只是一个开始,随着我们努力实现统一管理lakehouse的愿景,很快就会有令人兴奋的新功能出现。你可以在下面找到我们下一步工作的快速总结:

端到端数据沿袭
Unity Catalog将自动捕获运行时数据沿袭,直到列和行级别,为数据团队提供数据如何在lakehouse中流动的端到端视图,以满足数据遵从要求和快速分析数据更改的影响。

端到端数据沿袭

与企业数据目录和治理解决方案的更深层次集成
我们正在与我们的数据目录和治理合作伙伴合作,使我们的客户能够将Unity catalog与他们现有的目录bob体育外网下载和治理解决方案结合使用。

数据发现和搜索
通过内置的数据搜索和发现,数据团队可以快速搜索和参考相关数据集,从而提高工作效率并加快获得见解的时间。

机器学习模型/仪表板的治理和共享
我们还将治理扩展到其他数据资产,如机器学习模型、仪表板,为数据团队提供管理、治理和共享不同数据资产类型的单一窗格。

使用基于属性的访问控制(ABACs)的细粒度治理
我们还添加了一个强大的标记功能,允许您根据用户和数据属性一次控制对多个数据项的访问,从而进一步简化了大规模的治理。例如,您可以将多个列标记为PII,并管理对单个规则中标记为PII的所有列的访问。

谷歌云平台统一目录(GCP)bob体育客户端下载
Unity Catalog对GCP的支持也即将推出。

在AWS和Azure上开始使用Unity目录

访问Unity Catalog文档[AWSAzure来了解更多BOB低频彩。

免费试用Databricks

相关的帖子

看到所有产品的帖子