数据治理最佳实践
本文描述了对数据治理的需求,并分享了可用于在整个组织中实现这些技术的最佳实践和策略。
为什么数据治理很重要?
数据治理是确保数据带来价值并支持业务策略的监督。数据治理封装了为安全管理组织内的数据资产而实现的策略和实践。随着数据的数量和复杂性不断增长,越来越多的组织开始关注数据治理,以确保核心业务成果:
一致性和高质量的数据是分析和机器学习的基础。
缩短了洞察的时间。
数据民主化,也就是让组织中的每个人都能做出数据驱动的决策。
支持HIPAA、FedRAMP、GDPR或CCPA等行业法规的风险和合规性。
成本优化,例如防止用户启动大型集群,并为使用昂贵的GPU实例创建护栏。
好的数据治理解决方案是什么样的?
数据驱动型公司通常在湖屋上构建数据架构进行分析。数据湖屋是一种体系结构,可以直接对存储在数据湖中的大量数据进行高效、安全的数据工程、机器学习、数据仓库和商业智能。数据湖屋的数据治理提供以下关键功能:
统一目录:除了每个数据对象的元数据外,统一的目录还存储了所有数据、ML模型和分析工件。统一的目录还混合了来自其他目录的数据,比如现有的Hive metastore。
统一数据访问控制:跨所有数据资产和所有云的单一统一权限模型。这包括针对个人身份信息(PII)的基于属性的访问控制(ABAC)。
数据审核:通过警报和监控功能对数据访问进行集中审计,以促进问责制。
数据质量管理:强大的数据质量管理,内置质量控制、测试、监控和执行,以确保下游BI、分析和机器学习工作负载可获得准确和有用的数据。
数据沿袭:数据沿袭以获得端到端可见性,了解数据如何在lakehouse中从源流向消费。
数据发现:轻松的数据发现使数据科学家、数据分析师和数据工程师能够快速发现和引用相关数据,并加快实现价值的时间。
数据共享:数据可以跨云和平台共享。bob体育客户端下载
数据治理和数据库
Databricks通过Unity Catalog和Delta Sharing为数据和人工智能提供集中治理。
统一目录是Databricks Lakehouse上的数据和人工智能的细粒度治理解决方案。它通过提供一个管理和审计数据访问的中心位置,帮助简化数据的安全性和治理。
三角洲分享是Databricks开发的一种开放协议,用于与其他组织或组织内的其他团队安全地共享数据,而不管他们使用哪种计算平台。bob体育客户端下载
有关采用Unity Catalog和Delta Sharing的最佳实践,请参见Unity Catalog最佳实践.
每个好的数据治理故事都始于强大的身份基础。要了解如何在Databricks中最佳地配置身份,请参见身份最佳实践.
BOB低频彩
以下是一些资源,可以帮助您构建满足组织需求的全面数据治理解决方案:
开始使用Unity目录,了解如何开始与统一目录。
使用Delta Sharing安全地共享数据,了解如何安全地与其他组织共享数据。
的数据安全与信任中心,它提供了有关如何将安全性构建到Databricks Lakehouse平台的每一层的信息。bob体育客户端下载
保密管理,以获取有关如何使用Databricks secrets存储凭据并在笔记本电脑和作业中引用凭据的信息。你不应该硬编码秘密或者以纯文本的形式存储它们。
表访问控制(遗留)允许您为数据应用数据治理控件。
IAM角色凭据传递(遗留)允许用户使用登录Databricks时使用的身份自动从Databricks集群验证到S3桶。