使用统一的目录与三角洲住表管道

预览

三角洲表支持统一目录是在生活公共预览

除了现有的支持持久化表蜂巢metastore,你可以使用统一目录与你的三角洲生活表管道:

  • 统一目录中定义一个目录你的管道将保存表。

  • 从统一编目表读取数据。

您的工作空间可以包含使用统一目录或蜂巢metastore的管道。然而,一个单一的管道不能写蜂巢metastore和统一目录和现有管道不能升级到使用统一目录。现有的管道,不使用统一目录并不受此影响预览,并将继续坚持数据到蜂巢metastore使用配置的存储位置。

除非另有指定在本文档中,所有现有的数据源和三角洲住表功能支持与管道使用统一的目录。这两个PythonSQL接口支持管道使用统一的目录。

你的管道中创建的表也可以查询使用砖从统一目录共享集群运行时13.1及以上或SQL仓库。从分配表不能查询或任何隔离集群。

管理权限表由统一目录创建管道,使用GRANT和REVOKE

需求

以下是需要创建表统一目录从三角洲地区生活表管道:

  • 你的管道必须配置为使用预览通道

  • 你必须有使用目录目标目录上的特权。

  • 你必须有创建物化视图使用模式如果你的管道产生特权在目标模式物化视图

  • 你必须有创建使用模式如果你的管道产生特权在目标模式流表

  • 如果没有指定一个目标模式的管道设置,您必须创建物化视图创建至少一个模式在目标目录上的特权。

限制

以下是限制在使用统一目录与达美住表:

  • 现有管道使用蜂巢metastore不能升级到使用统一目录。迁移现有管道蜂巢metastore写道,您必须创建一个新的管道和摄取数据从数据源(年代)。

  • 你不能在一个工作区中创建一个团结Catalog-enabled管道附加到metastore期间创建统一编目公共预览。看到升级到特权的继承

  • Init脚本,不支持第三方库和罐子。

  • 数据操作语言(DML)查询,修改不支持流表的模式。

  • 物化视图中创建一个增量表管道不能用作直播源以外的管道,例如,在另一个管道或下游的笔记本。

  • 你不能改变管道使用统一目录的所有者。

  • 出版模式,指定一个存储位置不支持管理。所有表存储在目录存储位置如果目标目录指定一个,否则,它们存储在metastore根存储位置。

  • 历史标签数据浏览器不会显示历史上为流表和物化视图。

  • 位置属性不支持在定义一个表。

  • 蜂巢metastore Catalog-enabled管道不能统一发布。

  • Python UDF私下支持预览。启用此功能,请联系您的砖领域工程的代表。当UDF支持启用时,使用Python UDF管道必须添加“PythonUDF.enabled”:“真正的”自定义集群标签的默认和维护集群管道。

  • 你不能使用三角洲分享δ住表物化视图或表发布到流媒体统一目录。

  • 你不能使用事件日志表值函数在一个管道或查询访问多个管道的事件日志。

  • 你不能分享一个视图的创建event_log表值函数与其他用户。

  • 不支持单节点集群与团结Catalog-enabled管道。因为δ生活表可以创建一个单节点集群运行更小的管道,管道可能会失败,错误消息引用单节点模式。如果发生这种情况,确保你指定至少一名工人配置您的计算设置

请注意

底层文件从上游支持物化视图可能包括数据表(包括可能的个人身份信息)不出现在物化视图的定义。这个数据是自动添加到底层存储支持增量刷新物化视图。

因为底层文件的物化视图可以从上游风险暴露数据表不是物化视图模式的一部分,砖建议不要与不可信共享底层存储下游消费者。

例如,假设一个物化视图的定义包括一个计数(不同的field_a)条款。尽管物化视图定义只包括聚合截然不同的条款,底层文件将包含一个列表的实际值field_a

改变现有的功能

当DLT配置为统一目录,保存数据表的生命周期由三角洲住表管道。因为管道管理表的生命周期:

  • 当一个表被删除从三角洲住表管道定义,对应的物化视图或流表条目被删除从统一目录下管道更新。实际的数据保留一段时间,这样就可以恢复,如果误删除。可以恢复数据通过添加物化视图或表回管道流的定义。

  • 删除三角洲生活表管道导致删除所有表中定义的管道。由于这一变化,三角洲生活表更新UI提示您确认删除一条管道。

写表从三角洲生活统一编目表管道

写你的表统一目录,当你创建一个管道中,选择统一目录存储选项,选择一个目录中目录下拉菜单,并提供一个数据库名称目标模式字段。

数据摄取到统一目录管道

你的管道配置为使用统一目录可以读取数据:

  • 统一目录管理和外部表、视图物化视图和流表。

  • 蜂巢metastore表和视图。

  • 自动加载器使用cloud_files ()从统一目录读取外部函数的位置。

  • Apache卡夫卡和亚马逊运动。

下面是阅读的例子从统一目录和蜂巢metastore表。

从统一目录表批摄入

创建刷新生活table_name作为选择*my_catalogmy_schema表1;
@dltdeftable_name():返回火花(“my_catalog.my_schema.table”)

流的变化从一个统一目录表

创建刷新流媒体table_name作为选择*(my_catalogmy_schema表1);
@dltdeftable_name():返回火花readStream(“my_catalog.my_schema.table”)

从蜂巢metastore摄取数据

一个管道,使用统一目录可以从蜂巢metastore读取数据表使用hive_metastore目录:

创建刷新生活table_name作为选择*hive_metastoresome_schema;
@dltdeftable3():返回火花(“hive_metastore.some_schema.table”)

摄取数据自动加载程序

创建刷新流媒体table_name作为选择*cloud_files(<路径- - - - - -- - - - - -加州大学- - - - - -外部- - - - - -位置>,“json”)
@dlt(table_properties={“质量”:“青铜”})deftable_name():返回(火花readStream格式(“cloudFiles”)选项(“cloudFiles.format”,“json”)负载(f{path_to_uc_external_location}))

分享物化视图(生活表)

默认情况下,创建的表管道只有管道所有者可以查询。你可以给其他用户查询一个表使用的能力格兰特查询语句,你可以撤销访问使用撤销语句。在统一目录权限的更多信息,请参阅统一目录管理权限

格兰特选择在桌子上

格兰特选择my_catalogmy_schemalive_table用户@com

取消选择在桌子上

撤销选择my_catalogmy_schemalive_table用户@com

创建表或创建物化视图特权授予

格兰特创建模式my_catalog{物化视图|表}。my_schema{本金|用户}

管道视图血统

血统表δ生活表中管道在数据浏览器是可见的。物化视图或统一Catalog-enabled管道流表,数据浏览血统UI显示了上游和下游表。血统是只显示中定义表之间的管道;表定义外的管道和管道中读数据中没有显示浏览器UI血统。了解更BOB低频彩多关于统一目录血统,明白了捕获和视图数据沿袭统一目录

物化视图或流管道表在一个联合Catalog-enabled三角洲生活表,数据浏览血统UI也会链接到管道产生物化视图或流表如果管道从当前工作区中访问。