跳到主要内容
bob体育客户端下载平台的博客

在统一目录中宣布数据谱系的一般可用性

分享这篇文章

今天,我们兴奋地宣布数据沿袭的普遍可用性统一目录,可在AWS和Azure上使用。借助数据沿袭的一般可用性,您可以期待Databricks在Databricks Lakehouse平台上为关键任务工作负载提供最高级的稳定性、支持和企业就绪性。bob体育客户端下载请参阅数据沿袭指南(AWS|Azure)开始。

在这篇博客中,我们将探讨组织如何利用数据沿袭作为实用数据治理策略的关键杠杆,GA发行版中可用的一些关键特性,以及如何开始使用Unity Catalog中的数据沿袭。

驱动更好的数据可观察性和数据沿袭的遵从性

Unity Catalog为数据、分析和人工智能提供了统一的治理解决方案,使数据团队能够对所有数据和人工智能资产进行编目,使用基于ANSI SQL的熟悉接口定义细粒度访问权限,审计数据访问和人工智能跨云、跨区域、跨数据平台共享数据bob体育客户端下载

通过Unity Catalog中的自动化数据沿袭,数据团队现在可以自动跟踪敏感数据以满足合规要求和审计报告,确保所有工作负载的数据质量,对整个湖屋的任何数据更改执行影响分析或变更管理,并对数据管道中的任何错误进行根本原因分析。BOB低频彩了解更多在我们之前的博客中,常见的数据沿袭用例

“Data Lineage使我们能够深入了解我们的数据集是如何被谁使用的。这既可以作为基本文档,也可以确定谁将受到数据集更改或弃用的影响,以减少事故的发生。”
- Sam Shuster, Edmunds公司工程师
“Lineage是访问控制的最后一个关键部件。它允许分析人员在遵守所有使用标准和访问控制的同时利用数据来完成工作,即使在另一个环境中重新创建表和数据集也是如此。”
——Chris Locklin, Grammbob体育客户端下载arly的数据平台经理
“Lineage帮助Milliman的专业人员了解数据来自哪里,经过了哪些转换,以及如何在项目的生命周期中使用数据。这个记录良好的端到端流程补充了标准精算流程。”
——Dan McCurley, Milliman的云解决方案架构师

GA发行版中提供的数据沿袭的主要特性

自动实时沿袭:Unity Catalog自动捕获并实时显示以任何语言(Python, SQL, R和Scala)和执行模式(批处理和流)执行的查询的数据流图。实时沿袭减少了手动创建数据流轨迹的操作开销。数据沿袭在连接到Unity Catalog metastore的所有工作空间中自动聚合,这意味着在一个工作空间中捕获的沿袭可以在共享相同metastore的任何其他工作空间中看到。

统一的列和表沿袭图:使用Unity Catalog,用户现在可以在一个谱系图中看到列和表的谱系,让用户更好地理解特定的表或列是由什么组成的,以及数据来自哪里。用户只需单击几下,就可以在沿袭图的上游或下游导航,以查看完整的数据流图。

表和列沿袭在统一目录
表和列沿袭在统一目录

不仅仅是表和列:Unity Catalog还跟踪笔记本、工作流和仪表板的沿袭。这提高了对数据在组织中如何使用的端到端可见性,并允许您了解任何数据更改对下游消费者的影响。

笔记本,工作流和仪表板的血统
笔记本,工作流和仪表板的血统

内置的安全:沿袭图在默认情况下是安全的,并使用Unity Catalog的公共权限模型。用户必须具有查看沿袭数据流图的适当权限,从而增加额外的安全层并降低意外数据泄露的风险。例如,如果用户在表上没有SELECT特权,他们将无法探索表的谱系。类似地,用户只能看到他们有权查看的笔记本、工作流和仪表板的沿袭信息。

沿袭图的内置安全性
沿袭图的内置安全性

合作伙伴集成:Unity Catalog还通过Unity Catalog REST api提供了与各种数据治理合作伙伴的丰富集成,可以轻松地导出谱系信息。bob体育外网下载

开始与数据沿袭在统一目录

请观看下面的演示,以了解实际的数据沿袭。

要播放此视频,请点击这里并接受cookie

数据沿袭包括在没有额外的成本与Databricks高级和企业级。所有引用Unity Catalog metastore的工作负载现在默认启用了数据沿袭,所有读取或写入Unity Catalog的工作负载将自动捕获沿袭。为了利用自动捕获的数据沿袭,请重新启动2022年12月7日之前启动的所有集群或SQL仓库.如果您已拥有Databricks帐户,则可以按照数据沿袭指南(AWS|Azure).如果您不是Databricks的现有客户,请注册高级或企业工作区的免费试用版。

免费试用Databricks

相关的帖子

看到所有bob体育客户端下载平台的博客的帖子