Customer-managed VPC

重要的

此功能要求您的帐户在Databricks平台E2版本bob体育客户端下载.所有新的Databricks帐户和大多数现有帐户现在都是E2。如果您不确定您拥有哪种帐户类型,请与Databricks代表联系。

重要的

这篇文章提到了这个术语数据平面,是Databricks平台的计算层。bob体育客户端下载在本文上下文中,数据平面指的是AWS帐户中的经典数据平面。相比之下,支持无服务器数据平面的无服务器SQL仓库(公开预览)在Databricks AWS帐户中运行。要了解BOB低频彩更多信息,请参见Serverless计算

概述

默认情况下,集群创建在单个AWS VPC(虚拟私有云)中,由Databricks在您的AWS帐户中创建和配置。您可以选择在自己的VPC中创建Databricks工作空间,该特性称为customer-managed VPC.您可以使用客户管理的VPC来对您的网络配置进行更多的控制,以符合您的组织可能需要的特定的云安全和治理标准。

重要的

配置要使用的工作区AWS PrivateLink对于任何类型的连接,都要求您的工作空间使用客户管理的VPC。

客户管理的VPC是一个很好的解决方案,如果你有:

  • 防止PaaS提供商在您自己的AWS帐户中创建vpc的安全策略。

  • 创建新VPC的审批流程,由内部信息安全或云工程团队以良好的文档方式配置和保护VPC。

福利包括:

  • 较低的权限级别:您可以更好地控制自己的AWS帐户。并且您不需要通过跨帐户IAM角色授予Databricks许多权限,就像您为Databricks管理的VPC所做的那样。例如,创建vpc不需要权限。这个有限的权限集可以使您更容易获得在平台堆栈中使用Databricks的批准。bob体育客户端下载

  • 简化网络操作:网络空间利用率更高。与默认的CIDR /16相比,可选地为工作空间配置更小的子网。并且不需要其他解决方案可能需要的复杂的VPC对等配置。

  • vpc合并:多个Databricks工作区可以共享一个数据平面VPC,通常用于计费和实例管理。

  • 限制传出连接:默认情况下,数据平面不限制Databricks Runtime worker的外发连接。对于配置为使用客户管理的VPC的工作区,可以使用出口防火墙或代理设备将出站流量限制为允许的内部或外部数据源列表。

Customer-managed VPC

为了利用客户管理的VPC,必须在首次创建Databricks工作空间时指定VPC。不能将已使用databicks管理的VPC的工作空间移动到客户管理的VPC中。但是,您可以通过更新工作空间配置的网络配置对象,将带有客户管理VPC的现有工作空间从一个VPC移动到另一个VPC。看到更新工作区

要在自己的VPC中部署工作空间,您必须:

  1. 根据要求创建VPCVPC需求

  2. 在创建工作空间时,使用Databricks引用VPC网络配置。

    向数据库注册VPC时,需要提供VPC ID、子网ID和安全组ID。

VPC需求

您的VPC必须满足本节所述的要求,才能运行Databricks工作空间。

VPC地区

工作区数据平面vpc可以位于AWS区域ap-northeast-1ap-northeast-2ap-south-1ap-southeast-1ap-southeast-2ca-central-1一来就eu-west-2eu-central-1us-east-1us-east-2us-west-1,us-west-2

重要的

不能使用VPCus-west-1如果你想用的话customer-managed键为加密。

VPC分级

您可以在一个AWS帐户中与多个工作区共享一个VPC。然而,你不能在工作空间之间重用子网或安全组.请确保您的VPC和子网大小相应。Databricks为每个节点分配两个IP地址,一个用于管理流量,另一个用于Apache Spark应用程序。每个子网的总实例数等于可用IP地址数的一半。BOB低频彩详情请浏览子网

VPC的IP地址范围

Databricks不限制工作空间VPC的网络掩码,但每个工作空间子网之间必须有一个网络掩码/ 17而且/ 26.这意味着如果您的工作空间有两个子网,并且它们的子网掩码都为/ 26,则工作空间VPC的网络掩码为/ 25或更小。

重要的

如果您已经为您的VPC配置了从CIDR块,请确保“数据库”工作区的子网都配置了相同的VPC CIDR块。

DNS

VPC中需要开启DNS主机名和DNS解析功能。

子网

数据专家至少要有访问权限每个工作区有两个子网,每个子网在不同的可用分区中。中每个可用分区不能指定多个Databricks工作区子网创建网络配置API调用.作为网络设置的一部分,每个可用分区可以有多个子网,但是Databricks工作区只能为每个可用分区选择一个子网。

Databricks为每个节点分配两个IP地址,一个用于管理流量,另一个用于Spark应用程序。每个子网的总实例数等于可用IP地址数的一半。

每个子网之间必须有一个子网掩码/ 17而且/ 26

重要的

为客户管理的VPC指定的子网只能预留给一个Databricks工作空间使用。不能与任何其他资源共享这些子网,包括其他Databricks工作区。

额外子网要求

重要的

使用集群安全连通性的工作空间(2020年9月1日以后的默认),需要VPC能够对外访问公网。

子网路由表

工作空间子网的路由表必须为四零(0.0.0.0/0)以适当的网络设备为目标的流量。如果工作空间使用安全集群连接(这是2020年9月1日之后新工作空间的默认设置),四零流量必须以NAT网关或您自己的托管NAT设备或代理设备为目标。

重要的

Databricks需要添加子网0.0.0.0/0到允许列表。要控制出口流量,请使用出口防火墙或代理设备阻止大部分流量,但允许Databricks需要连接到的url。看到配置防火墙和出站接入(可选)

这只是一个基本的指导方针。您的配置要求可能不同。如有疑问,请联系Databricks代表。

安全组

数据库必须能够访问至少一个AWS安全组,且不超过五个安全组。您可以重用现有的安全组,而不是创建新的安全组。

安全组规则如下:

出口(出站):

  • 允许对工作空间安全组的所有TCP和UDP访问(用于内部流量)

  • 允许TCP访问0.0.0.0/0对于这些端口:

    • 443:用于Databricks基础设施、云数据源和图书馆存储库

    • 3306:亚稳态

    • 6666:只需要你使用PrivateLink

入口(入站):所有工作区都需要(这些可以是单独的规则,也可以合并为一个):

  • 当流量源使用同一个安全组时,允许所有端口通过TCP协议

  • 当流量源使用同一个安全组时,允许所有端口使用UDP协议

子网级网络acl

子网级网络acl不能拒绝任何流量的进入或出口。Databricks在创建工作区时验证以下规则:

  • 允许所有0.0.0.0/0

  • 出口:

    • 允许所有流量进入工作区VPC CIDR,用于内部流量

    • 允许TCP访问0.0.0.0/0的端口:

      • 443:用于Databricks基础设施、云数据源和图书馆存储库

      • 3306:亚稳态

      • 6666:只需要你使用PrivateLink

重要的

如果你配置了额外的允许否认将Databricks需要的规则设置为最高优先级(规则号最低),使其优先。

请注意

Databricks需要添加子网级网络acl0.0.0.0/0到允许列表。要控制出口流量,请使用出口防火墙或代理设备阻止大部分流量,但允许Databricks需要连接到的url。看到配置防火墙和出站接入(可选)

创建VPC

要创建vpc,您可以使用各种工具:

使用AWS Console,创建和配置VPC及相关对象的基本说明如下所示。有关完整的说明,请参阅AWS文档。

请注意

这些基本的指示可能并不适用于所有的组织。您的配置要求可能不同。本节不涵盖配置nat、防火墙或其他网络基础设施的所有可能方法。如果您有任何问题,请在继续之前联系Databricks代表。

  1. AWS中的vpc页面

  2. 请查看右上方的区域选择器。如果需要,切换到工作区的区域。

  3. 在右上角,单击橙色按钮创建VPC

    创建新的VPC编辑器
  4. 点击VPC及更多

  5. 名牌自动生成为您的工作区键入一个名称。Databricks建议在名称中包含地区。

  6. “VPC地址范围”可根据实际需要修改。

  7. 对于公网子网,单击2.Databricks工作空间不直接使用这些子网,但是在这个编辑器中启用nat需要它们。

  8. 对于私有子网,单击2为工作空间子网的最小值。如果需要,您可以添加更多。

    Databricks工作区至少需要两个私有子网。如果需要调整它们的大小,例如与多个需要单独子网的工作区共享一个VPC,请单击自定义子网CIDR块

  9. 对于NAT网关,单击1 AZ

  10. 确保底部的以下字段已启用:启用DNS主机名而且启用DNS解析

  11. 点击创建VPC

  12. 在查看新创建的VPC时,单击左侧导航中的,更新VPC的相关设置。为了便于查找相关对象,在按VPC过滤字段,选择新的VPC。

  13. 点击子网AWS称之为私人标记为1和2的子网,您将使用它们来配置您的主工作区子网。修改子网VPC需求

    如果创建了额外的私有子网用于PrivateLink,请配置私有子网3启用AWS PrivateLink

  14. 点击安全组中指定的安全组安全组

    如果您将使用后端PrivateLink连接,请按照本节的PrivateLink文章中指定的方法,使用入站和出站规则创建一个额外的安全组步骤1:配置AWS网络对象

  15. 点击网络acl,修改网络acl子网级网络acl

  16. 选择是否执行本文后面指定的可选配置。

  17. 在数据库中注册VPC,创建网络配置使用帐户控制台或通过使用帐户API

更新cidr

稍后,您可能需要更新与原始子网重叠的子网cidr。

更新cidr和其他工作空间对象:

  1. 终止所有在需要更新的子网中运行的集群(和其他计算资源)。

  2. 通过AWS控制台,删除需要更新的子网。

  3. 用更新的CIDR范围重新创建子网。

  4. 更新两个新子网的路由表关联。您可以在每个可用分区中重用现有子网。

    重要的

    如果跳过此步骤或错误配置路由表,可能导致集群启动失败。

  5. 使用新的子网创建一个新的网络配置对象。

  6. 更新工作区以使用这个新创建的网络配置对象

配置防火墙和出站接入(可选)

如果你正在使用安全的集群连接(2020年9月1日的默认值),使用出口防火墙或代理设备来阻止大部分流量,但允许Databricks需要连接到的url:

  • 如果防火墙或代理设备与Databricks工作空间VPC在同一个VPC中,请对流量进行路由,并将其配置为允许以下连接。

  • 如果防火墙或代理设备在不同的VPC或内部网络中,请选择路由0.0.0.0/0首先连接到该VPC或网络,并将代理设备配置为允许以下连接。

重要的

Databricks强烈建议将目的地指定为出口基础结构中的域名,而不是IP地址。

允许以下传出连接:

  • Databricks web应用:必须的。也用于对工作区的REST API调用。

  • 数据安全集群连接(SCC)中继:如果您的工作空间使用安全集群连接,则必需,这是帐户中的工作空间的默认E2版平台bob体育客户端下载截至2020年9月1日。

  • AWS S3全局URL: Databricks访问S3根桶时的要求。

  • AWS S3区域URL:可选的。但是,您可能会使用其他S3 bucket,在这种情况下,还必须允许S3区域端点。Databricks建议创建一个S3 VPC端点,以便此流量通过AWS网络骨干网上的私有隧道。

  • AWS STS全球URL:必须的。

  • AWS STS区域URL:由于预期切换到区域端点,因此需要。

  • AWS Kinesis区域URL: Kinesis端点用于获取管理和监控软件所需的日志。对于大多数区域,使用区域URL。然而,对于vpcus-west-1此时,VPC端点今天不会生效,需要确保Kinesis URL被允许使用us-west-2(不us-west-1).Databricks建议您创建一个Kinesis VPC端点,以便此流量通过AWS网络骨干网上的私有隧道。

  • 表亚metastore RDS区域URL(按数据平面区域):如果你的Databricks工作空间使用默认的Hive metastore,这是必需的,它总是与你的数据平面区域在同一个区域。这意味着它可能与控制平面处于相同的地理位置,但区域不同。您可以选择不使用默认的Hive metastore实现您自己的表metastore实例,在这种情况下,您负责其网络路由。

需要的数据平面地址

允许从以下地址连接到您所在的地区:

端点

VPC地区

地址

港口

Webapp

ap-northeast-1

tokyo.cloud.www.neidfyre.com

443

ap-northeast-2

seoul.cloud.www.neidfyre.com

443

ap-south-1

mumbai.cloud.www.neidfyre.com

443

ap-southeast-1

singapore.cloud.www.neidfyre.com

443

ap-southeast-2

sydney.cloud.www.neidfyre.com

443

ca-central-1

canada.cloud.www.neidfyre.com

443

eu-central-1

frankfurt.cloud.www.neidfyre.com

443

一来就

ireland.cloud.www.neidfyre.com

443

eu-west-2

london.cloud.www.neidfyre.com

443

us-east-1

nvirginia.cloud.www.neidfyre.com

443

us-east-2

ohio.cloud.www.neidfyre.com

443

us-west-1

oregon.cloud.www.neidfyre.com

443

us-west-2

oregon.cloud.www.neidfyre.com

443

鳞状细胞癌继电器

ap-northeast-1

tunnel.ap东北- 1. cloud.www.neidfyre.com

443

ap-northeast-2

tunnel.ap东北- 2. cloud.www.neidfyre.com

443

ap-south-1

tunnel.ap -南- 1. - cloud.www.neidfyre.com

443

ap-southeast-1

tunnel.ap东南- 1. cloud.www.neidfyre.com

443

ap-southeast-2

tunnel.ap东南- 2. cloud.www.neidfyre.com

443

ca-central-1

tunnel.ca中央- 1. cloud.www.neidfyre.com

443

eu-central-1

tunnel.eu中央- 1. cloud.www.neidfyre.com

443

一来就

tunnel.eu -西方- 1. cloud.www.neidfyre.com

443

eu-west-2

tunnel.eu -西方- 2. cloud.www.neidfyre.com

443

us-east-1

tunnel.us -东- 1. - cloud.www.neidfyre.com

443

us-east-2

tunnel.us -东- 2. - cloud.www.neidfyre.com

443

us-west-1

tunnel.cloud.www.neidfyre.com

443

us-west-2

tunnel.cloud.www.neidfyre.com

443

S3全球对于根桶

所有

s3.amazonaws.com

443

S3区域其他桶:Databricks建议使用VPC终端

所有

s3。<区域名称> .amazonaws.com

443

STS全球

所有

sts.amazonaws.com

443

运动: Databricks推荐使用VPC终端

大部分地区

运动。<区域名称> .amazonaws.com

443

us-west-1

kinesis.us -西方- 2. amazonaws.com

443

RDS(如果使用内置亚稳态)

ap-northeast-1

mddx5a4bpbpm05.cfrfsun7mryq.ap东北- 1. rds.amazonaws.com

3306

ap-northeast-2

md1915a81ruxky5.cfomhrbro6gt.ap东北- 2. rds.amazonaws.com

3306

ap-south-1

mdjanpojt83v6j.c5jml0fhgver.ap -南- 1. - rds.amazonaws.com

3306

ap-southeast-1

md1n4trqmokgnhr.csnrqwqko4ho.ap东南- 1. rds.amazonaws.com

3306

ap-southeast-2

mdnrak3rme5y1c.c5f38tyb1fdu.ap东南- 2. rds.amazonaws.com

3306

ca-central-1

md1w81rjeh9i4n5.co1tih5pqdrl.ca中央- 1. rds.amazonaws.com

3306

eu-central-1

mdv2llxgl8lou0.ceptxxgorjrc.eu中央- 1. rds.amazonaws.com

3306

一来就

md15cf9e1wmjgny.cxg30ia2wqgj.eu -西方- 1. rds.amazonaws.com

3306

eu-west-2

mdio2468d9025m.c6fvhwk6cqca.eu -西方- 2. rds.amazonaws.com

3306

us-east-1

mdb7sywh50xhpr.chkweekm4xjq.us -东- 1. - rds.amazonaws.com

3306

us-east-2

md7wf1g369xf22.cluz8hwxjhb6.us -东- 2. - rds.amazonaws.com

3306

us-west-1

mdzsbtnvk0rnce.c13weuwubexq.us -西方- 1. rds.amazonaws.com

3306

us-west-2

mdpartyyphlhsp.caj77bnxuhme.us -西方- 2. rds.amazonaws.com

3306

数据控制平面基础设施

ap-northeast-1

35.72.28.0/28

443

ap-northeast-2

3.38.156.176/28

443

ap-south-1

65.0.37.64/28

443

ap-southeast-1

13.214.1.96/28

443

ap-southeast-2

3.26.4.0/28

443

ca-central-1

3.96.84.208/28

443

一来就

3.250.244.112/28

443

eu-west-2

18.134.65.240/28

443

eu-central-1

18.159.44.32/28

443

us-east-1

3.237.73.224/28

443

us-east-2

3.128.237.208/28

443

us-west-1而且us-west-2

44.234.192.32/28

443

使用实例概要访问S3(可选)

访问S3挂载使用实例配置文件,设置如下Spark配置:

  • 要么在每个源笔记本中

    scala火花相依“fs.s3a.stsAssumeRole.stsEndpoint”“https://sts <地区> .amazonaws.com”。火花相依“fs.s3a.endpoint”“https://s3 <地区> .amazonaws.com”。
    python火花相依“fs.s3a.stsAssumeRole.stsEndpoint”“https://sts <地区> .amazonaws.com”。火花相依“fs.s3a.endpoint”“https://s3 <地区> .amazonaws.com”。
  • 在集群的Apache Spark配置中

    火花hadoopfss3a端点https//s3.<地区>。amazonawscom火花hadoopfss3astsAssumeRolestsEndpointhttps//sts.<地区>。amazonawscom

若要为所有集群设置这些值,请将这些值作为您的集群政策

警告

对于S3服务,在笔记本或集群级别应用其他区域端点配置存在限制。值得注意的是,即使在出口防火墙或代理中允许全局S3 URL,对跨区域S3访问的访问也会被阻止。如果Databricks部署可能需要跨区域S3访问,那么不要在笔记本或集群级别应用Spark配置,这一点很重要。

限制S3桶访问(可选)

大多数对S3的读取和写入都是自包含在数据平面内的。但是,有些管理操作来源于控制平面,由Databricks管理。如果需要限制S3桶只能访问指定的源IP地址,可以创建S3桶策略。桶策略中包含aws: SourceIp列表。如果您使用VPC端点,请将其添加到策略的Endpoint中,允许访问该Endpointaws: sourceVpce

有关S3桶策略的详细信息,请参见限制对特定IP地址的访问在Amazon S3文档中。工作桶策略示例也包括在本主题中。

桶策略需求

您的桶策略必须满足这些要求,以确保您的集群正确启动,并且您可以连接到它们:

  • 对象的访问必须允许控制平面NAT地址

  • 需要允许数据平面VPC访问,可执行以下操作之一:

    • (推荐)配置网关VPC EndpointCustomer-managed VPC把它加到aws: sourceVpce到桶策略,或者

    • 将数据平面NAT IP地址添加到aws: SourceIp列表。

  • 当使用Amazon S3的端点策略,你的保单必须包括:

  • 避免从公司网络中失去连接, Databricks建议始终允许来自至少一个已知且受信任的IP地址的访问,例如企业VPN的公共IP。这是因为即使在AWS控制台中也应用拒绝条件。

请注意

部署带有S3桶策略限制的新工作空间时,必须允许访问控制平面NAT-IP美国西区域,否则部署失败。部署工作空间后,可以删除美国西并更新控制平面NAT-IP以反映您的区域。

所需的ip和存储桶

该表包括使用S3桶策略和VPC Endpoint策略来限制对工作空间的S3桶的访问时所需的信息。

地区

控制平面NAT IP

神器存储桶

日志存储桶

共享数据集桶

ap-northeast-1

18.177.16.95/32

databricks-prod-artifacts-ap-northeast-1

databricks-prod-storage-tokyo

databricks-datasets-tokyo

ap-northeast-2

54.180.50.119/32

databricks-prod-artifacts-ap-northeast-2

databricks-prod-storage-seoul

databricks-datasets-seoul

ap-south-1

13.232.248.161/32

databricks-prod-artifacts-ap-south-1

databricks-prod-storage-mumbai

databricks-datasets-mumbai

ap-southeast-1

13.213.212.4/32

databricks-prod-artifacts-ap-southeast-1

databricks-prod-storage-singapore

databricks-datasets-singapore

ap-southeast-2

13.237.96.217/32

databricks-prod-artifacts-ap-southeast-2

databricks-prod-storage-sydney

databricks-datasets-sydney

ca-central-1

35.183.59.105/32

databricks-prod-artifacts-ca-central-1

databricks-prod-storage-montreal

databricks-datasets-montreal

eu-central-1

18.159.32.64/32

databricks-prod-artifacts-eu-central-1

databricks-prod-storage-frankfurt

databricks-datasets-frankfurt

一来就

46.137.47.49/32

databricks-prod-artifacts-eu-west-1

databricks-prod-storage-ireland

databricks-datasets-ireland

eu-west-2

3.10.112.150/32

databricks-prod-artifacts-eu-west-2

databricks-prod-storage-london

databricks-datasets-london

us-east-1

54.156.226.103/32

databricks-prod-artifacts-us-east-1

databricks-prod-storage-virginia

databricks-datasets-virginia

us-east-2

18.221.200.169/32

databricks-prod-artifacts-us-east-2

databricks-prod-storage-ohio

databricks-datasets-ohio

us-west-1

52.27.216.188/32

databricks-prod-artifacts-us-west-2

databricks-prod-storage-oregon

databricks-datasets-oregon

us-west-2

52.27.216.188/32

databricks-prod-artifacts-us-west-2

databricks-prod-storage-oregon

databricks-datasets-oregon

桶策略示例

这些示例使用占位符文本来指示在哪里指定推荐的IP地址和所需的存储桶。检查需求以确保您的集群正确启动,并且您可以连接到它们。

限制对Databricks控制平面、数据平面和受信任ip的访问:

S3桶策略使用Deny条件,有选择地允许用户指定的控制平面、NAT网关和企业VPN IP地址访问。将占位符文本替换为环境的值。可以添加任意数量的IP地址到策略中。为每个希望保护的S3桶创建一个策略。

重要的

如果使用“VPC端点”,此策略不完整。看到限制对控制平面、VPC端点和信任ip的访问

“席德”“IPDeny”“效应”“否认”“校长”“*”“行动”“s3: *”“资源”“攻击:aws: s3::: < s3 bucket >”“攻击:aws: s3::: < s3 bucket > / *”),“条件”“NotIpAddress”“aws: SourceIp”“< CONTROL-PLANE-NAT-IP >”“< DATA-PLANE-NAT-IP >”“< CORPORATE-VPN-IP >”

限制对Databricks控制平面、VPC端点和可信ip的访问:

如果使用VPC Endpoint访问S3,则必须在策略中添加第二个条件。此条件允许您的VPC端点通过将其添加到aws: sourceVpce列表。

这个桶有选择地允许您的VPC端点、控制平面和您指定的企业VPN IP地址访问。

使用“VPC端点”时,可以使用“VPC端点”策略,不支持使用S3桶策略。VPCE策略必须允许访问您的根S3桶和所需的桶区域的工件、日志和共享数据集桶.你可以了解VPC端点策略在AWS文档中。

将占位符文本替换为环境的值。

“席德”“IPDeny”“效应”“否认”“校长”“*”“行动”“s3: *”“资源”“攻击:aws: s3::: < s3 bucket >”“攻击:aws: s3::: < s3 bucket > / *”),“条件”“NotIpAddressIfExists”“aws: SourceIp”“< CONTROL-PLANE-NAT-IP >”“< CORPORATE-VPN-IP >”},“StringNotEqualsIfExists”“aws: sourceVpce”“< VPCE-ID >”