bob体育客户端下载平台的博客

增量共享的安全最佳实践

客户可使用的最佳实践,以加强其湖屋上的Delta Sharing请求

2022年8月1日<!-- --> 在<!-- -->产品

分享这篇文章

更新:三角洲分享现在在AWS和Azure上普遍可用。

的数据lakehouse它使我们能够整合我们的数据管理架构,消除竖井,并为所有用例利用一个公共平台。bob体育客户端下载数据仓库和人工智能用例在单一平台上的统一对组织来说是巨大的进步,但一旦他们迈出了这一步,下一个要考虑的问题是“无论接收者使用哪个客bob体育客户端下载户端、工具或平台来访问数据,我们如何简单安全地共享数据?”幸运的是,lakehouse这个问题也有答案:与Delta sharing共享数据。

三角洲分享

三角洲分享是世界第一吗开放的协议用于在内部和跨组织实时安全地共享数据,而不依赖于数据所在的平台。bob体育客户端下载这是开放性的关键组成部分lakehouse架构,以及以以前不可能的方式组织我们的数据团队和访问模式的关键促成因素,例如数据网格

Delta Sharing是世界上第一个用于在组织内部和跨组织实时安全共享数据的开放协议。

安全设计

注意这一点很重要三角洲分享从头开始构建,并考虑到安全性,允许您利用以下功能开箱即用,无论使用bob下载地址开源版本或其托管等效

  • 端到端TLS加密从客户端到服务器到存储帐户
  • 短期证书例如预先签名的url用于访问数据
  • 轻松地管理、跟踪和审计访问到您的共享数据集统一目录

我们将在本博客中分享的最佳实践是附加的,允许客户根据其风险概况和数据的敏感性调整适当的安全控制。

安全最佳实践

我们的最佳实践建议三角洲分享共享敏感数据的方法如下:

  1. 根据您的需求评估开源版bob下载地址本和托管版本
  2. 为每个亚metastore设置适当的接收令牌生命期
  3. 建立证书轮换流程
  4. 考虑共享、收件人和分区的正确粒度级别
  5. 配置IP访问列表
  6. 配置数据库审计日志
  7. 配置存储帐户的网络限制
  8. 在存储帐户上配置登录

1.评估bob下载地址版本管理根据您的需求

正如我们上面所建立的,Delta Sharing从头开始就以安全为首要考虑。但是,使用版本管理

  • Delta Sharing on Databricks由统一目录,它允许您从一个地方集中提供对不同用户集之间的任何数据集的细粒度访问。对于开源版本,您将bob下载地址需要在多个共享服务器之间分离具有不同数据访问权限的数据集,并且还需要对这些服务器和底层存储帐户施加访问限制。为了便于部署,a码头工人形象提供了开源版本,但重要的是要注意,跨大型企bob下载地址业扩展部署将给负责管理它们的团队带来不小的开销。
  • 就像数据库的其他人一样Lakehouse平bob体育客户端下载台统一目录作为托管服务提供。您不需要担心服务的可用性、正常运行时间和维护等问题,因为我们为您担心这些问题。
  • 统一目录允许您开箱即用地配置全面的审计日志功能。
  • 数据所有者将能够使用SQL语法管理共享。此外,还可以使用REST api来管理共享。使用熟悉的SQL语法简化了我们共享数据的方式,减少了管理负担。
  • 使用开源版本,您需要bob下载地址负责数据共享的配置、基础设施和管理,但使用托管版本,所有这些功能都是开箱即用的。

出于这些原因,我们建议评估这两个版本,并根据您的需求做出决定。如果易于设置和使用、开箱即用的治理和审计以及外包服务管理对您很重要,那么托管版本可能是正确的选择。

2.为每个亚metastore设置适当的接收令牌生命期

当你启用三角洲分享,则为接收方凭据配置令牌生命期。如果将令牌生命期设置为0,则接收方令牌永远不会过期。

设置适当的令牌生命周期对于监管、遵从性和声誉的立场至关重要。拥有一个永不过期的代币是一个巨大的风险;因此,建议使用寿命短的令牌作为最佳实践。向令牌已经过期的接收者授予新令牌要比调查生命期设置不正确的令牌的使用要容易得多。

请参阅文档(AWSAzure),以配置令牌在适当的秒、分、小时或天之后过期。

3.建立证书轮换流程

您可能有许多原因想要轮换凭据,从现有令牌的到期,到担心凭据可能已被破坏,或者甚至只是您修改了令牌的生命周期,并希望发布符合该到期时间的新凭据。

为了确保这些请求以可预测和及时的方式得到满足,建立一个流程非常重要,最好是建立一个SLA。这可以很好地集成到您的IT服务管理流程中,由指定的数据所有者、数据管理员或DBA为该metastore完成适当的操作。

请参阅文档(AWSAzure),以了解如何轮换证书。特别是:

  • 如果需要立即轮换凭据,请设置——existing-token-expire-in-seconds0,现有的令牌将立即过期。
  • Databricks在担心凭证可能已被泄露时,建议采取以下措施:
    1. 撤销收件人对共享的访问权限。
    2. 旋转收件人并设置——existing-token-expire-in-seconds0这样现有的令牌就会立即过期。
    3. 通过安全通道与预期的收件人共享新的激活链接。
    4. 激活URL被访问后,再次授予收件人对共享的访问权限。

4.考虑共享、收件人和分区的正确粒度级别

版本管理,每个共享可以包含一个或多个表,并可以与一个或多个接收者相关联,使用细粒度控制来管理访问多个数据集的人或方式。这允许我们以一种很难实现的方式提供对多个数据集的细粒度访问bob下载地址一个人。我们甚至可以更进一步,通过提供分区规范,只添加要共享的表的一部分(请参阅关于AWSAzure).

通过实现共享和接收者来遵循最小特权原则来利用这些特性是值得的,这样,如果接收者凭据受到损害,它将与尽可能少的数据集或尽可能小的数据子集关联。

5.配置IP访问列表

默认情况下,访问您的共享所需要的只是一个有效的Delta共享凭据文件,因此,通过对凭据的使用位置实施网络级限制,将凭据泄露的可能性降至最低是至关重要的。

配置Delta共享IP访问列表(参见文档)AWSAzure),限制收件人访问受信任的IP地址,例如,企业VPN的公共IP地址。

将IP访问列表与访问令牌组合在一起可以大大降低未经授权的访问风险。对于以未经授权的方式访问数据的人来说,他们需要既获得了您的令牌的副本,又处于相同的授权网络上,这比仅仅获得令牌本身要困难得多。

6.配置数据审计日志

审计日志是您的系统中发生的事情的权威记录Databricks Lakehouse平bob体育客户端下载台,包括所有有关的活动三角洲分享.因此,我们强烈建议您为每个云配置Databricks审计日志(参见文档)AWSAzure),并建立自动管道来处理这些日志,并对重要事件进行监控/警报。

查看我们的博客,使用审计日志监视您的Databricks Lakehouse平台bob体育客户端下载为了更深入地了解这个主题,包括您需要设置的所有代码Delta活动表管道、配置砖的SQL提醒并运行SQL查询回答以下重要问题:

  • 我的Delta股票中哪只最受欢迎?
  • 从哪些国家访问我的Delta共享?
  • 是否在没有应用IP访问列表限制的情况下创建了增量共享收件人?
  • 是否使用超出我的可信IP地址范围的IP访问列表限制创建了Delta共享收件人?
  • 访问我的Delta Shares的尝试是否违反了IP访问列表限制?
  • 访问我的Delta股份的尝试是否多次验证失败?

7.配置存储帐户的网络限制

一旦共享服务器成功地验证了delta共享请求,就会生成一个短期凭据数组并返回给客户机。然后客户端使用这些url直接从云提供商请求相关文件。这种设计意味着传输可以在大带宽下并行进行,而无需通过服务器传输结果。这还意味着,从安全角度来看,您可能希望在存储帐户上实现与delta共享接收方本身类似的网络限制——如果数据本身托管在任何人都可以从任何地方访问的存储帐户中,那么在接收方级别保护共享就没有意义了。

Azure

在Azure上,Databricks建议使用身份管理(目前在公共预览中)来代表访问底层存储帐户统一目录.然后客户可以配置存储防火墙以限制所有其他访问到可信的私有端点、虚拟网络或公共IP范围,delta共享客户端可以使用这些IP访问数据。请联系您的Databricks代表以获取更多信息。

重要提示:同样,在决定应用什么网络级别限制时,考虑所有潜在的用例是很重要的。例如,除了通过增量共享访问数据外,一个或多个Databricks工作空间也可能需要访问数据,因此您应该允许来自这些工作空间使用的相关可信私有端点、虚拟网络或公共IP范围的访问。

AWS

在AWS上,Databricks建议使用S3桶策略来限制对S3桶的访问。例如,下面的Deny语句可用于限制对可信IP地址和vpc的访问。

重要提示:在决定应用什么网络级别的限制时,考虑所有潜在的用例是很重要的。例如:

  • 当使用托管版本时,预签名url由统一目录,因此您将需要允许从Databricks控制平面NAT地址
  • 很可能一个或多个Databricks工作空间也需要访问数据,因此如果底层S3桶在同一区域,并且您正在使用VPC端点连接到S3或数据平面流量解析到的公共IP地址(例如通过NAT网关),那么您应该允许来自相关VPC id的访问。
  • 为了避免失去公司网络内的连接,Databricks建议始终允许来自至少一个已知且可信的IP地址的访问,例如公司VPN的公共IP。这是因为即使在AWS控制台中也应用拒绝条件。
“版本”“2012-10-17”“声明”:【“席德”“DenyAccessFromUntrustedNetworks”“效应”“否认”“校长”“*”“行动”“s3: *”“资源”:【“攻击:aws: s3::: <斗> "“攻击:aws: s3::: <斗> / *”),“条件”: {“NotIpAddressIfExists”: {“aws: SourceIp”:【“< databricks_nat_ip >”“< other-allowed-ip >”“< other-allowed-ip >”},“StringNotEqualsIfExists”: {“aws: SourceVpc”:【“< allowed_vpc_id >”“< allowed_vpc_id >”}<!-- -->}<!-- -->}<!-- -->]<!-- -->}</ allowed_vpc_id > < /allowed_vpc_id > </ other-allowed-ip > < /other-allowed-ip > </ databricks_nat_ip > < /桶桶> < / >

除了网络级别限制外,还建议您将对底层S3桶的访问限制为使用的IAM角色统一目录.原因是,正如我们所见,统一目录提供对数据的细粒度访问,而AWS IAM/S3提供的粗粒度权限是不可能实现的。因此,如果有人能够直接访问S3 bucket,他们就可以绕过那些细粒度的权限,访问比您预期的更多的数据。

重要提示:如上所述,即使在AWS控制台中也适用“拒绝”条件,因此建议您还允许对管理员角色的访问,少数特权用户可以使用该角色访问AWS UI/ api。

“席德”“DenyActionsFromUntrustedPrincipals”“效应”“否认”“校长”“*”“行动”“s3: *”“资源”:【“攻击:aws: s3::: <斗> "“攻击:aws: s3::: <斗> / *”),“条件”: {“StringNotEqualsIfExists”: {“aws: PrincipalArn”:【“< uc_iam_role_arn >”“< aws_admin_iam_role_arn >”]<!-- -->}<!-- -->}<!-- -->}</ aws_admin_iam_role_arn > < / uc_iam_role_arn > </桶> < /桶>

8.配置存储帐户的登录

除了对底层存储帐户实施网络级限制外,您可能还希望监视是否有人试图绕过这些限制。因此,Databricks建议:

结论

lakehouse解决了导致我们拥有碎片化数据架构和访问模式的大部分数据管理问题,并严重限制了组织期望从其数据中看到价值的时间。现在数据团队已经从这些问题中解脱出来,开放但安全的数据共享已成为下一个前沿。

三角洲分享是世界第一吗开放的协议用于在内部和跨组织实时安全地共享数据,而不依赖于数据所在的平台。bob体育客户端下载通过使用三角洲分享结合上面概述的最佳实践,组织可以轻松而安全地与企业规模的用户、合作伙伴和客户交换数据。bob体育外网下载

现有的数据市场未能使数据提供者和数据消费者的业务价值最大化,但随着市场的发展,数据市场的价值也在增加砖的市场您可以利用Databricks Lakehouse平台来接触更多的客户,降低成本,并bob体育客户端下载为所有数据产品提供更多价值。

如果你有兴趣成为数据提供商合作伙伴我们很乐意听到你的声音

免费试用Databricks

相关的帖子

看到所有<!-- -->产品<!-- -->的帖子