跳到主要内容
公司博客上

从Azure Databricks安全访问Azure数据源

2020年2月28日 公司博客上

分享这篇文章

Azure砖是一个统一的数据分析平台,是微软Azure云的一部分。bob体育客户端下载建立在…基础上的三角洲湖MLFlow考拉而且Apache火花Azure Databricks是微软Azure云上的第一方服务,提供一键式设置、与其他Azure服务的本地集成、交互式工作空间和企业级安全性,为全球大小客户提供数据和AI用例。该平台实bob体育客户端下载现了任何企业中不同数据角色之间的真正协作,如数据工程师、数据科学家、数据分析师和SecOps /云工程。

本文是两篇系列文章中的第一篇,我们将概述Azure Databricks体系结构,以及客户如何以安全的方式连接到他们自己管理的Azure数据服务实例。

Azure Databricks体系结构概述

Azure Databricks是一个管理应用程序在Azure云上。在高层次上,体系结构由控制/管理平面和数据平面组成。控制平面位于微软管理的订阅中,并容纳了诸如web应用程序、集群管理器、作业服务等服务。在默认部署中,数据平面是客户订阅中的完全托管组件,其中包括联接核供应国集团还有一个根存储账户,叫做DBFS

数据平面也可以部署在客户管理的VNET中,以允许SecOps和云工程团队根据其企业治理策略为服务构建安全和网络架构。这种能力被称为自带VNET或VNET注入.该图显示了此类客户体系结构的代表性视图。

Azure Databricks是Azure云上的托管应用程序。在高层次上,体系结构由控制/管理平面和数据平面组成。

安全连接到Azure数据服务

企业安全是Databricks和Microsoft构建软件的核心原则,因此它被视为Azure Databricks的一等公民。在本博客的上下文中,安全连接是指确保从Azure Databricks到Azure数据服务的流量保持在Azure网络骨干网上,并具有将Azure Databricks白名单作为允许来源的固有能力。作为安全最佳实践,我们推荐了几个选项,客户可以使用它们来建立Azure数据服务的数据访问机制,例如Azure Blob存储Azure数据湖存储Gen2Azure Synapse数据仓库Azure CosmosDB等。请进一步阅读Azure私有链接和服务端点的讨论。

选项1:Azure私有链接

从Azure Databricks访问Azure Data服务的最安全方法是配置私人联系.根据Azure文档-私有链接使您能够访问Azure PaaS服务(例如,Azure存储、Azure Cosmos DB和SQL数据库)和Azure托管客户/合作伙伴服务私人端点在你的虚拟网络.之间的交通虚拟网络该服务通过微软的网络骨干网,消除了公共互联网的暴露。你也可以自己创建专线服务在你的虚拟网络(VNet)并私下交付给您的客户。使用Azure Private Link的设置和消费体验在Azure PaaS、客户拥有的和共享的合作伙伴服务之间是一致的.详情请参考此。

请参阅下面的Azure Databricks和Private Link如何一起使用。

Azure数据库和Azure数据服务私有端点位于单独的vnet中

Azure数据库和Azure数据服务私有端点位于单独的vnet中

ALT TAG =相同VNET中的Azure数据和Azure数据服务私有端点

Azure数据和Azure数据服务私有端点在同一个VNET

私有端点注意事项

在实现私有端点之前,请考虑以下几点:

  • 默认提供数据泄露保护功能。在Azure Databricks的情况下,一旦客户将访问控制平面中的特定服务列入白名单,这将应用。
  • 保持Azure网络骨干网上的流量,即公共网络不用于任何数据流。
  • 将您的私有网络地址空间扩展到Azure数据服务,即Azure数据服务有效地获得您的一个vnet中的私有IP,并可被视为您更大的私有网络的一部分。
  • 私有连接到其他区域的Azure数据服务,即区域A中的VNET可以通过私有链路连接到区域B中的端点。
  • 与其他安全访问机制相比,私有链接的设置相对复杂一些。
  • 看到的文档参阅私网优惠的详细清单及个别服务的可用性。

可以使用私有链接的一个例子是,当客户在生产中使用一些Azure数据服务以及Azure Databricks时,如Blob Storage、ADLS Gen2、SQL DB等。业务希望用户从ADLS Gen2中查询已屏蔽的聚合数据,但限制用户访问其他数据源中未屏蔽的机密数据。在这种情况下,只能使用上面讨论的任何子选项为ADLS Gen2服务建立私有端点。

下面是如何配置这样一个环境:

1 -为ADLS Gen2设置私有链路

2 -在VNET中部署Azure Databricks

请注意,每个Azure数据服务可以配置多个私有链接,这允许您构建符合企业治理需求的体系结构。

选项2:Azure虚拟网络服务端点

根据Azure文档,虚拟网络(VNET)服务端点扩展您的虚拟网络私有地址空间。端点还将VNet的标识扩展到Azure服务通过直接连接。端点允许您保护您的临界Azure服务资源仅用于您的虚拟网络.从你的VNet到Azure服务总是停留在微软Azure网络骨干。

服务端点提供以下好处():

提高您的安全性Azure服务资源

不同虚拟网络的私有地址空间可以相互重叠。您不能使用重叠的网络空间来惟一地标识源自特定VNET的流量。一旦为VNET中的子网启用了服务端点,就可以添加虚拟网络防火墙规则,通过将VNET标识扩展到这些资源来保护Azure数据服务。这样的配置有助于消除对这些资源的公共访问,并只允许来自VNET的流量。

为Azure数据服务流量提供最佳路由虚拟网络

今天,VNET上用于通过云/基于内部部署的虚拟设备引导公共网络流量的任何路由也用于Azure数据服务流量。服务端点为Azure流量提供最佳路由。

保持Azure网络骨干网上的流量

服务端点始终将Azure数据服务流量直接从您的VNET引导到Microsoft Azure网络骨干网上的资源。将流量保持在Azure网络骨干网上允许您通过强制隧道继续审计和监视来自虚拟网络的出站Internet流量,而不会影响数据服务流量。有关自定义路由和强制隧道的更多信息,请参见Azure虚拟网络流量路由

设置简单,没有管理开销

您不再需要在虚拟网络中保留公共IP地址来通过IP防火墙保护Azure数据服务资源。设置服务端点不需要网络地址转换(NAT)或网关设备。您可以通过简单的子网设置来配置服务端点。维护端点没有额外的开销。

Azure服务端点与Azure Databricks

Azure服务端点与Azure Databricks

Azure服务端点注意事项

在实现服务端点之前,请考虑以下几点:

  • 默认情况下不提供数据泄露保护。
  • 保持Azure网络骨干网上的流量,即公共网络不用于任何数据流。
  • 不会将您的专用网络地址空间扩展到Azure数据服务。
  • 无法私下连接到其他区域的Azure数据服务(除了成对的地区).
  • 看到的文档查看Azure服务端点的优点和限制的详细列表。

以上面提到的私有链接为例,以及它在服务端点上的样子。在这种情况下,可以在Azure Databricks子网上配置Azure存储服务端点,然后可以在ADLS Gen2防火墙规则中将相同的子网列入白名单。

下面是如何配置这样一个环境:

1 -ADLS Gen2的安装服务端点

2 -在VNET中部署Azure Databricks

3 -在ADLS Gen2上配置IP防火墙规则

安全Azure数据访问入门

我们讨论了从Azure Databricks环境中安全地访问Azure数据服务的几个可用选项。根据您的业务具体情况,您可以使用Azure专用链接或虚拟网络服务端点。一旦网络连接方法最终确定,您可以使用安全认证方法连接到这些资源:

在本系列的下一篇博客中,我们将深入探讨如何建立一个固定的、锁定的环境来防止数据泄露(换句话说,实现一个数据泄露防止数据丢失体系结构)。它将混合使用上述讨论的选择和Azure防火墙.如有任何问题,请与Microsoft或Databricks客户团队联系。

免费试用Databricks

相关的帖子

看到所有公司博客上的帖子