跳转到主要内容
bob体育客户端下载平台的博客

监控你的砖Lakehouse平台与审计日志bob体育客户端下载

学习如何得到完整的可视性与砖Lakehouse平台相关的关键事件bob体育客户端下载
分享这篇文章

这个博客是我们的第二部分管理要点系列中,我们将关注话题,管理和维护数据砖环境是很重要的。在本系列中,我们将分享最佳实践等主题工作区管理、数据治理、运维&自动化和成本跟踪和退款-留意更多的博客很快!

砖Lakehouse平台已经走了很长的路bob体育客户端下载我们上次2020年6月对审计日志记录在博客中写道。我们已经设置世界纪录,收购的公司,推出新产品带来的好处lakehouse架构全新的观众喜欢数据分析师公民数据科学家。世界已经发生了巨大变化。我们中的许多人已经远程工作的大部分时间,和远程工作将增加了可接受的使用政策的压力,如何测量他们被跟踪。

因此,我们认为现在是一个很好的时间重温审计日志记录对你的主题砖Lakehouse平台bob体育客户端下载。在这个博客中,我们将把我们的最佳实践建议及时更新最新的特性,允许您从回顾性分析主动监视和报警——所有的重要事件发生在你的lakehouse:

帐户审计日志级别
集中式控制和统一目录
简单和可靠的审计日志处理与达美住表
容易与砖的SQL查询
简单的可视化与数据砖SQL
自动报警与砖SQL
信任,但要核查。有360个Lakehouse可见性
最佳实践综述
结论

帐户审计日志级别

审计日志是至关重要的原因——从合规成本控制。他们是你的权威lakehouse记录发生的事情。但在过去,平台管理员必须配置审计日bob体育客户端下载志记录单独为每个工作区,从而增加了开销,由于组织的风险盲点工作区创建没有启用审计日志。

现在客户可以利用一个砖帐户来管理所有用户,组,工作区和你猜对了——审计日志进行集中从一个地方。这对平台管理员让生活更简单,并从安全的角度来看风险要小得多。bob体育客户端下载一旦客户配置审计日志记录在账户层面,他们可以睡得很香的知识,我们将继续提供低延迟的所有重要事件发生在他们的lakehouse——所有新的和现有的工作空间下创建帐户。

查看文档(AWS,GCP)建立帐户级别审计日志数据砖Lakehouse平台了。bob体育客户端下载

集中式控制和统一目录

统一目录(加州大学)是世界上第一个细粒度和集中治理层为所有的数据和人工智能产品在云。结合集中式控制层和全面审计日志可以回答这样的问题:

  • 什么是最受欢迎的数据资产在我的组织?
  • 试图未经授权地访问我的数据产品,和他们试图运行查询是什么?
  • δ股票被限制只信任网络吗?
  • 哪些国家是我的三角洲的股票被访问的?
  • 美国是我的三角洲的股票被访问的?
  • 这位置是我的三角洲的股票被访问的?

客户已经在加州大学的预览可以看到这样子通过搜索的审计日志事件名= =“unityCatalog”,或通过检查提供的回购的示例查询。如果你正在寻找这些类型的功能为你lakehouse请报名在这里!

简单和可靠的审计日志处理三角洲生活表

成功客户的一个标志,我们看过一遍又一遍,那些专注于数据质量作为第一优先发展lakehouse速度比那些不。历史上这是说起来容易做起来难。工程师已经花太多时间担心诸如大小、管理和扩展基础设施现在需要找到时间来整合他们的代码与开源或者第三方数据质量和测试框架。bob下载地址,更重要的是,这些框架通常难以规模庞大的数据,使其适用于离散集成测试,但离开工程师与另一个头痛当他们想要验证representative-scale性能测试的结果。

进入三角洲生活表(DLT)。DLT,工程师们能够把他们的数据代码,利用内置的数据质量控制,这样的时间和精力,否则他们将需要在上述任务可以被重定向到更多的生产活动,如确保附近永远是坏的质量数据业务的关键决策过程。

因为ETL管道这一过程审计日志记录将受益匪浅的可靠性、可伸缩性和内置的DLT提供的数据质量控制,我们已经采取了ETL管道共享是我们的一部分以前的博客并转换DLT

这个DLT管道读取JSON文件中包含您的审计日志使用自动装卸机,一个简单而轻松地摄取数据的可伸缩的解决方案到lakehouse (GCP)看到AWS的文档,Azure。然后创建一个铜和银表每个帐户和工作区级别操作,转换数据,并使其更容易使用每一步。最后,它会创建一个表为每个黄金砖服务(详见文档AWS,Azure,GCP)

使用JSON文件之后,三角洲生活表(DLT)管道创建一个青铜,白银和黄金表为每个帐户和每个工作区级行动。

银表允许您执行所有砖服务,详细的分析调查等场景的特定用户的行为在整个砖Lakehouse平台bob体育客户端下载。黄金表同时允许您执行更快的查询有关特定的服务。这是特别有用当你想配置警报相关的具体行动

下面的例子将为客户开箱即用的AWS和丰富。Azure砖客户设立了他们的诊断日志被送到一个Azure存储账户,可能需要微调。原因是诊断日志模式在Azure上略有不同,对吗AWSGCP

得到新的DLT管道运行在您的环境,请使用以下步骤:

样本数据砖三角洲生活表(DLT)“大奖章”工作流。

  1. 克隆的Github回购使用Git的回购集成(详见文档AWS,Azure,GCP)。
  2. 创建一个新的DLT管道,连接dlt_audit_logs.py笔记本(详见文档AWS,Azure,GCP)。你需要输入以下配置选项:

    INPUT_PATH:云存储路径,你为审计日志配置交付。这通常会是一个受保护的存储用户帐户不暴露你的砖。

    b。OUTPUT_PATH:云存储路径你想使用审核日志δ湖泊。这通常会是一个受保护的存储用户帐户不暴露你的砖。

    c。CONFIG_FILE:路径audit_logs.json文件一旦检出回购。
  3. 注意:一旦你通过UI编辑可配置的设置,您需要编辑JSON,这样您就可以添加身份验证所需的配置和INPUT_PATH OUTPUT_PATH集群对象:

    AWS的。添加instance_profile_arn aws_attributes对象。

    b。在Azure服务主体秘密添加到spark_conf对象。

    c。对GCP添加google_service_account gcp_attributes对象。
  4. 现在你应该准备配置您的管道运行基于适当的时间表和触发器。一旦成功了,您应当会看到类似这样的:

有几件事你应该知道:

  1. 管道流程数据基于可配置的日志级别和服务名称列表的基础上CONFIG_FILE上面引用的。
  2. 默认情况下,日志级别ACCOUNT_LEVEL WORKSPACE_LEVEL。现在这些是唯一的审计水平,我们使用砖,但不能保证我们不会在将来添加额外的日志级别。值得定期检查审计日志模式,以确保你没有遗漏任何日志,因为增加了新的审计水平(见文档AWS,Azure,GCP)。
  3. 名可能会改变我们添加新特性,因此服务平台。bob体育客户端下载他们也可能取决于你是否利用等功能pci dss合规控制增强的安全模式。你可以定期检查在我们的公共文档(服务名称的列表AWS,Azure,GCP),但因为这是更大的可能性,我们还添加了一个检测模式的DLT管道让你意识到如果引入新服务的日志你不期待,因此摄入lakehouse。阅读有关我们如何使用预期的更多信息在三角洲生活表检测潜在的这样的数据质量问题。

期望阻止坏数据通过验证和完整性检查,避免流入表数据质量的错误与预定义的错误政策(失败,下降,警报或检疫数据)。

样品砖三角洲的生活表(DLT)可视化项目审计日志,报告“大奖章”工作流kpi。

dlt_audit_logs.py笔记本电脑你会注意到我们为每个表包括下列装饰:

@dlt.expect_all ({})

这是我们为三角洲集数据的期望的生活方式表。您还会注意到,青铜表我们设定一个期望称为unexpected_service_names我们比较传入的值包含在名列给我们可配置的列表。如果检测到新名在我们没有跟踪的数据,我们可以看到这个期望失败,知道我们可能需要添加新的或无足迹的名我们的配置:

样品砖三角洲的生活表(DLT)可视化项目审计日志,报告发病率的开始回升的名”中发现工作流。

找到更多关于期望,看看我们的文档AWS,AzureGCP

在砖,我们相信三角洲生活表是ETL的未来。如果你喜欢你所看到的,想了解更多,请查看我们的入门指南!

轻松查询砖的SQL

既然你策划审计日志到青铜,白银和黄金表,砖的SQL可以查询与出色的性价比。如果您导航到数据浏览器(参见文档AWS,Azure)你会发现青铜,白银和黄金目标数据库中的表内指定上面的DLT配置

潜在的使用情况下这可能是特别调查潜在的滥用,找出是谁创造的巨大的GPU集群走出你的预算。

为了让你开始,我们提供一系列的例子账户工作空间水平覆盖服务和SQL查询场景你会特别关心。你会发现这些检查SQL笔记本当你克隆回购,但你可以复制和粘贴在砖SQL SQL来运行它们。注意,假设数据库叫做audit_logs查询。如果你选择称之为中的其他东西上面的DLT配置,只是audit_logs替换为您的数据库的名称。

简单的可视化与砖的SQL

以及通过一流的SQL查询数据和经验闪电快速查询引擎砖SQL允许您快速构建仪表盘与直观的拖放界面,然后与关键利益相关者分享。更重要的是,他们可以设置为自动刷新,确保你的决策者总是获得最新的数据。

很难抢占的所有东西,你可能会想在这里展示你的关键利益相关者,但是希望SQL查询和相关的可视化演示这里应该给你看到什么是可能的:

δ股票被访问是哪个国家的?

样本数据砖SQL仪表板三角洲住表(DLT)审计日志项目,报告“三角洲共享请求的国家。”

样品砖三角洲住表的SQL仪表板(DLT)项目审计日志,报告的三角洲共享请求纬度/经度。

我的工作有多可靠?

样品砖三角洲住表的SQL仪表板(DLT)项目审计日志,报告工作运行成功诉失败率。

失败的登录尝试

峰值在失败的登录尝试可以表明蛮力攻击,应监测和趋势。在下面的图表为例,常规的月度上涨可能旋转30天的密码政策的症状,但一个特定用户的激增在一月份看起来可疑。

样品砖三角洲住表的SQL仪表板(DLT)项目审计日志,报告“失败的登录尝试。”

你可以找到所有的SQL查询用来构建这些可视化以及更多的除了示例SQL查询提供的回购。

自动报警砖的SQL

与任何平台,有些事件会你bob体育客户端下载会关心别人,多和一些你关心的太多,你要主动告知时发生。好消息是,你可以很容易地配置数据砖SQL警告通知你当一个SQL查询将返回一个击中这些事件之一。你甚至可以做一些简单的修改示例SQL查询我们之前给你们开始:

  • 更新查询,使其时间约束(即通过添加一个时间戳> =当前日期()- 1)
  • 更新查询返回一个计数的事件你不希望看到(即通过添加一个count(*)和适当的WHERE子句)
  • 现在您可以配置警报每天运行和触发事件的计数> 0
  • 对于更复杂的报警条件逻辑的基础上,考虑使用情况报表(见文档AWS,Azure)

例如,下面的SQL查询时可以用来提醒:

1。最后一天内已经有工作空间配置更改:

选择requestParams.workspaceConfKeys,requestParams.workspaceConfValues,电子邮件,(*)作为audit_logs.gold_workspace_workspace在哪里actionName=“workspaceConfEdit”时间戳> =当前日期()- - - - - -1集团通过1,2,3订单通过DESC

2。有下载的工件从工作区中可能包含数据的最后一天:

downloads_last_day作为(选择时间戳,电子邮件,这是actionNameaudit_logs.gold_workspace_notebook在哪里actionName(“downloadPreviewResults”、“downloadLargeResults”)联盟所有选择时间戳,电子邮件,这是actionNameaudit_logs.gold_workspace_databrickssql在哪里actionName(“downloadQueryResult”)联盟所有选择时间戳,电子邮件,这是actionNameaudit_logs.gold_workspace_workspace在哪里actionName(“workspaceExport”)requestParams.workspaceExportFormat! =“源”订单通过时间戳DESC)选择日期(时间戳)作为日期,电子邮件,这是actionName,(*)作为downloads_last_day在哪里时间戳> =当前日期()- - - - - -1集团通过1,2,3,4

这些可以加上自定义提醒模板如下给平台管理员足够的信息调查是否可接受的使用政策违反了:bob体育客户端下载

警报“{{ALERT_NAME}}”改变状态为{{ALERT_STATUS}}

有下列意外事件在最后一天:

{{QUERY_RESULT_ROWS}}

看看我们的文档说明如何配置警报(AWS,Azure),以及添加额外警惕目的地如松弛或PagerDuty (AWS,Azure)。

信任,但要核查。有360个Lakehouse可见性

砖的审计日志提供全面的记录lakehouse执行的操作。然而,如果你不使用统一目录(如果你不相信我,那么你应该)那你的一些交互最关心底层云提供商可能只有捕获日志。一个例子可能会访问你的数据,如果你使用原生云访问控制是唯一真正捕获在粗粒度级别允许存储访问日志。

我们之前的博客,(以及其他原因)你可能也想加入你的砖与各种日志记录和审计日志监控输出捕获从底层的云提供商。,同时建议在前面的博客还是有用的,请继续关注未来修订包括DLT管道进行这些工作负载!

最佳实践综述

总而言之,这里有5个日志和监测的最佳实践管理员,我们谈到了在本文中:

  1. 启用审计日志记录在账户级别。从一开始你的可审核性lakehouse旅程允许你建立一个历史基线。通常,你才意识到你有多需要审计日志当你真的,真的需要他们。最好是有历史基线比从这个错误中学习,相信我。
  2. 采用统一的目录。使云间和cross-workspace分析带来了一个新的水平Lakehouse的治理和控制。
  3. 使用DLT自动化你的日志管道——理想。这确保你执行数据卫生和及时性不需要很多复杂的代码,甚至允许您设置简单的通知和提醒如果(当)打破或改变。
  4. 使用一个大奖章架构你的日志数据。这确保了一旦你管道带来了高质量、及时的数据,它不会倾倒到一个数据库中,没有人能找到,就很容易使用砖SQL查询!
  5. 使用砖SQL设置自动提醒你真正关心的事件
  6. 把你的砖审计日志到更广泛的生态系统日志。这可能包括云提供商日志和从你的身份提供商日志或其他第三方应用程序。创建一个360度的观点发生了什么在你Lakehouse尤其相关景观在当今不稳定的安全!

结论

在两年前我们对审计日志记录的上一篇博文,砖Lakehouse平台bob体育客户端下载明显,世界已经改变了。我们大多数人已经远程工作在这段时间里,但远程工作将增加压力和审查可接受的使用政策和如何测量他们被跟踪。幸运的是,砖Lakehouse平台bob体育客户端下载已经和继续作出巨大的进步让这个问题更加简单数据团队管理。

这个博客的作者要感谢我们之前博客的作者对这些主题:

  • 米克罗斯克里斯汀
  • 克雷格·Ng
  • 安娜Shrestinian
  • 阿Garg
  • Sajith Appukuttan

站在巨人的肩膀上。

免费试着砖
看到所有bob体育客户端下载平台的博客的帖子