介绍砖统一目录:Lakehouse细粒度数据治理和人工智能
2021年5月26日, 在公告
更新:统一目录现在一般用于AWS和Azure。
数据系统,如湖S3, ADLS和GCS大多数数据存储在今天的企业由于可伸缩性、低成本、和开放接口。随着时间的推移,这些系统也成为一个有吸引力的地方,由于过程数据lakehouse技术,如三角洲湖支持ACID事务和快速查询。然而,一个领域数据湖泊仍难以管理比传统数据库管理;到目前为止,这些系统只提供工具来管理权限在文件级别(例如S3和ADLS acl),使用特定于云的概念,比如我不熟悉的大多数数据专业人员的角色。
这就是为什么我们非常高兴宣布统一目录,细粒度lakehouse数据治理和安全使用熟悉,开放接口。统一目录允许组织管理细粒度数据权限使用标准ANSI SQL或一个简单的UI,使他们能够安全地打开lakehouse广泛的内部消费。它统一在云层和数据类型。最后,它超越管理表来管理其他类型的数据资产,如毫升模型和文件。因此,企业得到一个简单的方法来管理他们的数据和艾城的资产:
今天数据湖治理工具有什么困难吗?
尽管所有的云存储系统(例如S3, ADLS和gc)提供安全控制的今天,这些工具造成的和成为特定于云计算的漏洞,这两个原因问题组织扩大规模。我们经常看到客户遇到四个问题:
- 缺乏细粒度(行、列和视图级别)安全:云数据湖泊通常只可以设置文件或目录的权限级别,因此很难分享只与特定的用户表的一个子集。这使它乏味在企业用户不应该对整个表的访问。
- 治理与物理数据布局:因为治理控制是在文件级别,数据团队必须精心结构来支持他们的数据布局所需的政策。例如,一个团队可能数据分割成不同的目录由国家和给每个目录访问到不同的组。但当治理规则改变团队应该做什么?如果不同的州在一个国家采用不同的数据规定,组织可能需要重组其所有数据。
- 非标准,成为特定于云计算的漏洞的接口:云治理api如我不熟悉数据专业人员(例如,数据库管理员),和不同的云。今天,越来越多的企业开始在多个云存储数据,(例如,满足隐私法规),所以他们需要能够在云管理数据。
- 不支持其他资产类型:数据治理湖api工作文件在湖中,但是现代企业工作流产生广泛的其他类型的数据资产。例如,SQL工作流通常围绕着观点,数据科学工作负载产生毫升模型,许多工作负载连接到数据源之外的其他湖泊(例如,数据库)。在现代合规景观,这些资产需要适用同样的方式,如果他们包含敏感数据。因此,数据团队已经在许多不同的系统重装相同的安全策略。
统一目录的方法
统一目录解决这些问题通过实现细粒度的数据治理方法基于开放标准的跨数据资产类型和云。它是围绕四个关键设计原则:
- 细粒度的权限:统一目录可以执行权限的数据行,列或视图级别而不是文件,所以,你可以分享你的数据有一个新用户没有复制它。
- 一个开放的、标准的接口:统一目录的许可模型基于ANSI SQL,立刻使其熟悉任何数据库专业。我们还建立了一个用户界面,使治理容易数据管家,我们扩展SQL模型支持基于属性的访问控制,允许您标记很多对象具有相同的属性(例如,“PII数据”)和一个政策适用于所有的人。最后,基于相同的SQL接口可以用来管理毫升模型和外部数据源。
- 中央控制:统一目录可以跨多个数据砖工作区、地理区域和云层,允许您管理所有企业数据集中。这个中心位置也使它来跟踪血统和审计所有的访问。
- 从任何平台安全访问:bob体育客户端下载虽然我们爱砖平台,我们知道,很多客户也会从其他平台访问数据,他们bob体育客户端下载想让他们的治理规则在他们工作。统一目录执行安全权限从任何客户机连接到JDBC / ODBC或通过三角洲分享,开放协议我们已经推出了交换范围广泛的平台之间的大型数据集。bob体育客户端下载
让我们看看如何使用统一目录来实现共同治理任务。
轻松地管理权限使用ANSI SQL
统一编目带来细粒度的集中式控制所有数据资产跨云通过开放标准ANSI SQL数据控制语言(DCL)。这意味着管理员可以轻松地授予许可任意特定于用户的使用熟悉的SQL子集的数据,不需要学习一个晦涩难懂的,特定于云的接口。我们还添加了一个强大的标记功能,允许您控制访问多个数据项基于属性进一步简化大规模治理。
下面是几个例子如何使用SQL grant语句的联合目录权限添加到现有的数据存储在您的数据。
首先,你可以在目录中创建表从头开始或通过指向现有数据在云存储系统中,如S3,访问特定于云的凭证:
创建外部表iot_events位置s3:/…与凭据iot_iam_role
现在,您可以简单地使用SQL标准格兰特
语句设置权限,如任何数据库。下面是一个例子,如何把权限授予iot_events等整个团队工程师,或日期和国家列营销组:
格兰特选择在iot_events来工程师格兰特选择(日期、国家)在iot_events来市场营销
统一目录也理解SQL视图。这允许您创建SQL视图在一个复杂的方式聚合数据。下面是如何使用基于访问控制授予访问business_analysts只有一个版本的数据:
创建视图aggregate_data作为选择日期、国家数(*)作为num_events从iot_events集团通过日期、国家格兰特选择在aggregate_data来business_analysts
此外,统一目录允许你设置政策在许多项目使用属性(基于属性的访问控制),一种强大的方法来简化大规模治理。例如,您可以标记多个列如PII PII和管理访问所有列标记为在一个规则:
改变表iot_events添加pii属性在电子邮件改变表用户添加pii属性在电话格兰特选择在数据库iot_data有属性不在(pii)来product_managers
最后,相同的属性系统允许您轻松地管理MLflow模型和其他对象在一个一致的方式与你的原始数据:
格兰特执行在模型有属性(eu_data)来eu_product_managers
在UI中发现和管理数据资产
统一目录的UI很容易发现、描述、审计和管理数据资产在一个地方。视觉上,数据管理员可以设置或审查所有权限和目录捕获的审计和血统信息显示您如何产生和访问每个数据资产。UI设计的合作,这样的数据用户可以记录每个资产和看谁使用它。
共享数据组织与三角洲地区共享
每个组织都需要共享数据与客户、合作伙伴和供应商合作。bob体育外网下载统一目录实现开源bob下载地址三角洲分享跨组织标准让你安全地共享数据,不管他们运行在云计算平台或(任何三角洲共享客户端可以连接到数据)。bob体育客户端下载
开放的接口,以方便访问
统一编目工作与您现有的目录、数据存储和计算系统你可以利用现有投资,建立一个不会过时的治理模型。它可以挂载现有数据Apache蜂巢Metastores或云存储系统,如S3, ADLS和GCS不动它。它还与治理平台Privacera和Immuta让你自定义工作流管理bob体育客户端下载对数据的访问。最后,我们设计了统一目录,这样你也可以访问它的计算平台除了砖:ODBC / JDBC接口和高通量通过访问bob体育客户端下载三角洲分享让你安全地查询数据计算系统。