创建集群和SQL仓库统一目录访问

本文将展示如何创建一个砖集群或SQL的仓库,可以在统一目录访问数据。

SQL仓库用于运行砖SQL工作负载,如查询、仪表板和可视化。SQL仓库允许您访问统一编目数据和运行统一Catalog-specific命令默认情况下,只要你的工作区是附加到一个统一的目录metastore

集群用于运行工作负载数据科学与工程和砖机器学习persona-based环境,使用笔记本或自动工作。创建一个集群,可以访问目录,统一工作区创建集群必须连接到一个目录metastore和必须使用Unity-Catalog-capable统一访问模式(共享或单用户)。

你可以处理数据在统一目录使用这些计算资源,这取决于您所使用的环境:砖SQL SQL仓库,或集群的数据科学与工程和砖机的学习环境。

请注意

信息集群的配置界面更改,可在预览,明白了创建一个集群

集群访问模式是什么?

当你创建任何集群在砖,你必须选择一个访问模式是特定于您想要使用的类型的工作负载集群。统一目录执行安全使用特定集群访问模式。如果没有配置了一个集群Unity-Catalog-capable访问模式(或单用户)共享,集群不能访问数据在统一目录。

下表列出了所有可用的访问模式:

访问模式

对用户可见

加州大学的支持

支持的语言

笔记

单用户

总是

是的

Python, SQL, Scala, R

可以单用户和由单个用户使用。阅读从一个视图,你必须有选择所有引用的表和视图。不支持动态视图。

共享

总是(保费计划要求)

是的

Python(砖运行时的11.3 LTS和上图),SQL

可以使用多个用户与用户之间数据隔离。看到共享的局限性

任何隔离共享

管理员可以隐藏这个集群类型执行用户隔离在管理页面设置。

没有

Python, SQL, Scala, R

有一个相关帐户级别设置为任何隔离共享集群

自定义

隐藏(所有新集群)

没有

Python, SQL, Scala, R

这个选项显示只有如果你有现有的集群,而无需指定的访问模式。

你可以升级现有集群的要求统一目录通过设置集群访问模式单用户共享。有额外的访问模式的局限性对结构化流统一目录,看看结构化流媒体支持

重要的

在不支持集群API访问模式。

共享访问模式的局限性

  • 不支持Init脚本。

  • 集群在砖运行时库不支持13.0及以下。

  • 支持集群级Python库砖运行时的13.1及以上。支持Python轮子,也可以作为工作空间上传文件,但不使用DBFS filepaths引用的库,包括库上传到DBFS根。不支持非python库。看到集群库

  • 不支持Spark-submit工作。

  • 砖不支持运行时毫升。

  • 不能使用Scala, R,抽样api,或客户直接从云存储读取数据,比如DBUtils。

  • 不能使用用户定义函数(udf),包括UDAFs UDTFs,大熊猫火花(applyInPandasmapInPandas),蜂巢udf。

  • 必须作为low-privilege用户集群节点上运行的命令禁止访问文件系统的敏感部分或创建网络连接端口80和443。

试图绕过这些限制将会失败。这些限制是通过集群用户不能访问未经授权的数据。

请注意

  • 对于许多用例,替代特性可以用来代替init脚本配置集群。

  • 如果您的工作负载需要init脚本、集群库jar或用户定义的函数,您可能有资格使用这些特性在一个私人预览。想要了BOB低频彩解更多关于私人的条款和条件预览和请求访问,注册在这里

需求

创建一个集群,可以访问统一目录

等运行工作负载集群设计笔记本和自动工作。

创建一个集群,可以访问目录,统一工作区metastore必须附加到一个统一的目录。

砖运行时的要求

统一目录需要砖运行的集群运行时11.3 LTS或以上。

步骤

创建一个集群:

  1. 在侧边栏,使用角色切换器选择数据科学与工程或机器学习。

  2. 在侧边栏,点击新的>集群

  3. 选择您想要使用的访问模式。

    创建集群加州大学

    为集群上运行标准砖运行时版本,选择单用户共享访问模式连接统一目录。如果你对机器学习使用砖运行时,你必须选择单用户访问模式连接统一目录。看到集群访问模式是什么?

  4. 选择一个砖11.3 LTS以上的运行时版本。

  5. 完成你的集群配置并点击创建集群

当集群是可用的,它将能够运行工作负载,使用统一目录。

创建一个可以访问的SQL仓库统一目录

SQL仓库需要在砖SQL运行工作负载,如查询、仪表板和可视化。默认情况下所有SQL仓库可以连接到统一目录。看到配置SQL仓库为特定的配置选项。