Databricks为Unity目录引入了数据沿袭

2022年6月9日
分享这篇文章

新的数据沿袭功能为客户提供了更多的透明度和主动控制数据如何在他们的湖屋中使用

旧金山——2022年6月9日——作为数据和人工智能公司和数据湖屋范式的先驱,今天宣布了Unity Catalog的数据谱系,显着扩展了湖屋的数据治理能力。数据沿袭描述了数据如何在组织中流动。使用Unity Catalog的这个新功能,客户能够了解他们的lakehouse中的数据来自何处,谁创建了它,何时创建的,随着时间的推移如何修改的,如何使用的等等。Unity Catalog的数据沿袭现在可以在AWS和Microsoft Azure上预览。

组织处理来自多个来源的大量数据,了解这些数据来自哪里,如何移动和变化,谁有权访问这些数据,以及如何使用这些数据是非常困难的。然而,拥有这种理解对于确保信任和评估风险至关重要。有了Unity Catalog的数据谱系,数据团队可以看到所有受数据变化影响的下游消费者——应用程序、仪表板、机器学习模型或数据集等——并轻松了解影响的严重程度,从而快速通知相关的利益相关者。

数据沿袭使数据消费者(如数据科学家、数据工程师和数据分析师)在执行分析时能够感知上下文,从而获得更高质量的结果。此外,数据管理员可以看到哪些数据集不再被访问或已经过时,从而淘汰不必要的数据,既降低了风险,又确保最终用户只使用高质量的数据。Unity Catalog中的新功能为企业提供了整个数据生命周期的完整视图,因此数据领导者可以了解如何收集数据,是否更新数据以及使用的过程。

Databricks联合创始人兼首席技术专家Matei Zaharia表示:“在我们努力打造行业最强大的湖屋平台的过程中,数据谱系等治理能力至关重要。bob体育客户端下载“如果没有良好的数据沿袭,跟踪数据驱动型组织成功所需的业务和验证过程是具有挑战性的。我们的目标是确保我们的客户能够专注于洞察,并通过统一、透明的整个数据生态系统视图转向主动的数据管理实践。”

Unity Catalog的主要功能包括自动运行时沿袭,以捕获Databricks中生成的所有沿袭,与手动标记数据相比,提供更高的准确性和效率。为表、视图和列捕获这些信息,以提供上游和下游数据流的细粒度图。此外,沿袭适用于Databricks支持的所有工作负载,包括SQL、Python、R和Scala,允许所有数据角色通过数据智能和更好的洞察力来增强他们的工具。这包括捕获诸如笔记本、工作流和仪表板等条目的沿袭。

数据谱系还可以帮助组织更好地满足合规性标准,使其更容易跟踪受合规性法规(如通用数据保护法规(GDPR)或加州消费者隐私法案(CCPA)或健康保险流通与责任法案(HIPAA))约束的数据流。这种数据可追溯性元素是现代数据体系结构的关键组成部分,它允许客户满足其法律要求。

有关如何开始在Unity目录中预览数据沿袭的更多信息,请阅读我们的博客

对砖
Databricks是一家数据和人工智能公司。全球7000多家组织,包括康卡斯特、康迪纳仕、H&M和超过40%的财富500强企业,都依靠Databricks Lakehouse平台来统一他们的数据、分析和人工智能。bob体育客户端下载Databricks总部位于旧金山,在全球设有办事处。Databricks由Delta Lake, Apache Spark™和MLflow的原始创建者创建,其使命是帮助数据团队解决世界上最棘手的问题。要了解BOB低频彩更多信息,请关注Twitter、LinkedIn和Facebook上的Databricks。

联系人:(电子邮件保护)

近期新闻公报

Databricks加强在韩国的承诺,任命Jungwook Jang为国家经理
读到现在
Databricks加强在日本的承诺,任命Toshifumi Sasa为国家经理
读到现在
Databricks扩大在印度的业务,任命Anil Bhasin为国家经理
读到现在
Databricks为其Lakehouse平台获得扩展FedRAMP®授权bob体育客户端下载
读到现在
Databricks任命Samuel Bonamigo为EMEA高级副总裁兼总经理
读到现在
查看所有

资源

联系

传媒查询:

(电子邮件保护)

保持联系

通过我们的时事通讯、社交媒体渠道和博客RSS订阅与我们保持联系。
订阅时事通讯

得到的资产

如果您想使用Databricks的资料,请联系 (电子邮件保护) 并提供以下资料:

你的名字和头衔
公司名称及地点
请求说明
查看品牌指南