创建集群和SQL仓库与统一目录访问

这篇文章展示了如何创建一个Databricks集群或SQL仓库,可以访问Unity Catalog中的数据。

SQL仓库用于运行Databricks SQL工作负载,例如查询、仪表板和可视化。SQL仓库允许您访问Unity Catalog数据,并在默认情况下运行特定于Unity Catalog的命令,只要您的工作空间附加到Unity Catalogmetastore

集群用于在数据科学与工程和Databricks机器学习基于人物的环境中运行工作负载,使用笔记本电脑或自动化作业。为了创建一个可以访问Unity Catalog的集群,你在其中创建集群的工作空间必须附加到一个Unity Catalog metastore,并且必须使用一个Unity Catalog-capable访问模式(共享或单用户)。

您可以使用这些计算资源中的任何一种来处理Unity Catalog中的数据,这取决于您正在使用的环境:用于Databricks SQL的SQL仓库,或用于数据科学与工程和Databricks机器学习环境的集群。

请注意

有关预览版中可用的集群配置UI更改的信息,请参见创建集群

什么是集群访问模式?

在Databricks中创建任何集群时,必须选择特定于希望使用集群的工作负载类型的访问模式。Unity Catalog使用特定的集群访问模式来加强安全性。如果集群没有配置支持Unity-Catalog的访问模式之一(共享或单用户),则集群不能访问Unity Catalog中的数据。

所有访问方式如下表所示:

访问模式

对用户可见

加州大学的支持

支持的语言

笔记

单用户

总是

是的

Python, SQL, Scala, R

只能分配给单个用户使用。从一个角度来阅读,你必须有选择在所有引用的表和视图上。不支持动态视图。不支持凭据传递。

共享

总是(需要保费计划

是的

Python(适用于Databricks Runtime 11.1及以上版本),SQL

不支持Init脚本、第三方库和jar。不支持Spark-submit作业。不支持凭据传递。不支持Databricks Runtime ML。

未共享隔离

管理员可以通过强制用户隔离在管理控制台。

没有

Python, SQL, Scala, R

有一个无隔离共享集群的相关帐户级别设置

自定义

隐藏(适用于所有新集群)

没有

Python, SQL, Scala, R

此选项仅在现有集群没有指定的访问模式时显示。

您可以通过设置集群访问模式为来升级现有集群以满足Unity Catalog的要求单用户共享

需求

创建一个可以访问Unity Catalog的集群

集群是为运行笔记本和自动化作业等工作负载而设计的。

要创建一个可以访问Unity Catalog的集群,工作空间必须附加到一个Unity Catalog metastore。

Databricks运行时要求

Unity Catalog需要运行Databricks Runtime 11.1或以上版本的集群。

Databricks Runtime的早期版本支持Unity Catalog的预览版本。在Databricks Runtime早期版本上运行的集群不支持所有Unity Catalog GA特性和功能。

步骤

创建集群。

  1. 在侧栏上,使用角色切换器选择数据科学与工程或机器学习。

  2. 在侧栏上,单击新建>集群

  3. 选择要使用的访问模式。

    创建UC集群

    对于运行在标准Databricks Runtime版本上的集群,请选择其中之一单用户共享访问模式连接到Unity目录。如果使用Databricks Runtime for Machine Learning,则必须选择单用户访问模式连接到Unity目录。看到什么是集群访问模式?

  4. 选择Databricks运行时11.1或以上版本。

  5. 完成你的集群配置并点击创建集群

当集群可用时,它将能够运行使用Unity Catalog的工作负载。

创建一个可以访问Unity Catalog的SQL仓库

SQL仓库需要在Databricks SQL中运行工作负载,例如查询、仪表板和可视化。默认情况下,所有SQL仓库都可以连接到Unity Catalog。看到创建SQL仓库对于特定的配置选项。