跳到主要内容
bob体育客户端下载平台的博客

安全,释放数据湖的真正潜力

通过Vinay瓦夫

2020年3月16日 产品

分享这篇文章

在过去的几年里,Databricks在企业大规模部署数据分析方面积累了丰富的经验。在许多情况下,我们的客户有成千上万的人在不同的业务部门使用我们的产品,用于各种不同的用例——所有这些用例都涉及访问从私人和敏感数据到公共数据的各种数据分类。这给我们带来了大规模部署、运营和保护数据分析平台的各种挑战。bob体育客户端下载在这篇博文中,我想谈谈其中的一些经验。

保护数据湖的挑战

在打破数据孤岛的过程中,许多组织将来自不同来源的所有数据推入一个数据湖,数据工程师、数据科学家和业务分析师可以在这里处理和查询数据。这解决了向用户提供数据的挑战,但也带来了一个新的挑战,即保护和隔离不同类别的数据,使用户不被允许访问这些数据。

我们从经验中学到的是,从运营生产中的单个用例到运营企业中的任何团队都可以利用的平台,会带来许多安全问题:bob体育客户端下载

  • 我们如何确保访问数据湖的每个计算环境都是安全的,并且符合企业治理控制?
  • 我们如何确保每个用户只能访问他们被允许访问的数据?
  • 我们如何审计谁正在访问数据湖以及他们正在对哪些数据进行读写?
  • 我们如何创建一个受策略控制的环境,而不依赖于用户遵循最佳实践来保护我们公司的最敏感数据?

对于小型团队或针对特定用例的小型数据集,这些问题很容易回答和实现。然而,很难大规模地操作数据,使每个数据科学家、工程师和分析师都能最大限度地利用数据。这正是Databricks平台构建的目的——在企业规模上安全地简化和支bob体育客户端下载持数据分析。

根据我们的经验,这里有一些平台需要注意的主题bob体育客户端下载

用于核心安全性的云原生控件

企业在创建和维护数据湖方面投入了大量资金和资源,并承诺这些数据可以用于整个企业的各种产品和服务。没有一个平台可bob体育客户端下载以解决所有的企业需求,这意味着这些数据将被不同的产品使用,要么是本土产品,要么是供应商收购的,要么是云原生的。因此,必须以开放格式统一数据,并尽可能使用云本地控件进行保护。为什么?两个原因。首先,云提供商已经找到了如何扩展其核心安全控制的方法。第二,如果保护和访问数据需要专用工具,那么你必须将这些工具与所有访问数据的工具集成在一起。这可能是一场大规模的噩梦。所以,如果有疑问,就选择云原生。

这正是databricks平台所做的。bob体育客户端下载它集成了IAM,用于身份的AAD和用于数据加密的KMS/密钥库,用于访问令牌的STS,用于实例防火墙的安全组/ nsg。这使得企业可以控制他们的信任锚,将他们的访问控制策略集中在一个地方,并无缝扩展到Databricks。

云原生安全

隔离环境

计算和存储分离是存储和处理大量数据的公认体系结构模式。在减少整体攻击面方面,保护可以访问数据的计算环境是最重要的一步。如何保护计算环境?让我想起了FBI的Dennis Hughes的一句话:“唯一安全的计算机是不插电的,锁在保险箱里,埋在地下20英尺的秘密地点,我甚至不太确定这一点”——当然是肯定的,但这并不能帮助我们实现目标,让所有企业数据科学家和工程师在全球范围内大规模地开展新的数据项目。那么是什么呢?隔离,隔离,隔离。

步骤1。确保分析的云工作空间只能从安全的企业边界访问。如果员工需要在远程工作,他们需要通过VPN连接到公司网络,以访问任何可能接触数据的东西。这将允许企业IT监视、检查和执行对云中工作空间的任何访问策略。

步骤2。隐形化,我指的是实现Azure私有链接AWS privateLink.确保平台用户、笔记本电脑和处理查询的计算集群之间的所有流量都经过加密,并通过云提供商的网络骨bob体育客户端下载干网传输,外部世界无法访问。这还可以减少数据泄露,因为受到攻击或恶意用户无法向外部发送数据。VPC/VNET对等解决了类似的需求,但在操作上更加密集,并且不能扩展。

步骤3。限制和监视您的计算机。应该通过限制ssh和网络访问来保护执行查询的计算集群。这可以防止任意包的安装,并确保您只使用定期扫描漏洞并持续监控以验证的映像。这可以通过Databricks简单地点击:“启动集群”来完成。完成了!

Databricks使上面的事情变得非常容易。动态IP访问列表允许管理员仅从其公司网络访问工作区。此外,私有链路确保用户->数据库->集群->数据之间的整个网络流量保持在云提供商网络中。启动的每个集群都使用扫描过漏洞并锁定的映像启动,这样就可以限制违反合规性的更改——所有这些都是工作空间创建和集群启动中内置的。

网络隔离
网络隔离

保护数据

数据湖的数据安全/保护面临的挑战是,数据湖拥有大量数据,这些数据可能具有不同级别的分类和敏感性。这些数据通常由用户通过不同的产品和服务访问,并且可以包含PII数据。如何为100个或1000个工程师提供数据访问权限,同时确保他们只能访问被允许访问的数据?

删除PII数据

在数据进入数据湖之前,请删除PII数据。这在很多情况下都是可能的。这已被证明是最小化遵从性范围并确保用户不会意外使用/泄漏PII数据的最成功的途径。有几种方法可以做到这一点,但将其作为饮食的一部分是最好的方法。如果您必须在数据湖中拥有可以被分类为PII的数据,请确保构建查询它的功能,并在需要时删除它(通过CCPAGDPR).这篇文章演示如何使用delta实现这一点。

强大的访问控制

大多数企业都有某种形式的数据分类。访问控制策略取决于数据在数据湖中的存储方式。如果在不同分类下分类的数据被分离到不同的文件夹中,那么将IAM角色映射到分离的存储中可以实现清晰的分离,身份提供程序中的用户/组可以与一个或多个这些角色关联。如果这种方法足够,那么它比实现细粒度访问控制更容易扩展。

如果在数据对象级别定义分类,或者需要在行/列/记录级别实现访问控制,则体系结构需要集中式访问控制层,可以对每个查询强制执行细粒度访问控制策略。这应该集中的原因是可能有不同的工具/产品访问数据湖,并且每种工具/产品都有不同的解决方案,这将需要在多个地方维护策略。在基于属性的访问控制方面,有些产品具有丰富的功能,云提供商也在实现此功能。胜者将拥有易用性和可伸缩性的正确组合。

无论您做什么,重要的是要确保您可以将访问属性返回给单个用户。用户执行的查询应该在访问数据之前假定该用户的身份和角色,这不仅可以为您提供粒度访问控制,还可以为遵从性提供必要的审计跟踪。

加密

加密不仅可以作为获得第三方基础设施数据“所有权”的一种方式,还可以用作访问控制的附加层。在这里使用云提供商密钥管理系统,而不是第三方,因为它们与所有服务紧密集成。对于所有您希望与第三方加密提供商使用的云服务,实现相同级别的集成几乎是不可能的。

想要在安全性方面走得更远的企业应该在客户管理的密钥上配置策略,这些密钥用于加密/解密数据,并将其与存储文件夹本身的访问控制结合起来。这种方法确保了管理存储环境的用户与需要访问存储环境中的数据的用户之间的职责分离。即使创建了新的IAM角色来访问数据,他们也不会被授权访问KMS密钥来解密数据,从而创建了第二级强制执行。

释放数据湖的潜力

只有当数据湖中的数据对所有想要使用它的工程师和科学家都可用时,数据湖的真正潜力才能实现。要做到这一点,需要在数据平台中植入强大的安全结构。bob体育客户端下载构建这样一个可以扩展到全球所有用户的数据平bob体育客户端下载台是一项复杂的任务。Databricks提供了这样一个平台,受到世界上一些bob体育客户端下载最大的公司的信任,作为他们人工智能驱动的未来的基础。

BOB低频彩了解更多关于创建简单、可扩展和生产就绪数据平台的其他步骤,请准备以下博客bob体育客户端下载

在您的组织中实现大规模数据转换

免费试用Databricks
看到所有产品的帖子