Databricks架构概述

本文提供Databricks体系结构的高级概述,包括其与AWS结合使用的企业体系结构。

高级体系结构

Databricks的结构可以实现安全的跨职能团队协作,同时保持Databricks管理的大量后端服务,因此您可以专注于数据科学、数据分析和数据工程任务。

数据库运行在一个控制飞机和一个数据平面

尽管架构可能因自定义配置而异,但下图表示AWS环境中Databricks的最常见结构和数据流。

下图描述了Classic数据平面的整体架构。有关用于无服务器SQL仓库的无服务器数据平面的体系结构详细信息,请参见Serverless计算

图:AWS架构上的数据

控制平面和数据平面

  • 控制平面包括Databricks在其自己的AWS帐户中管理的后端服务。Notebook命令和许多其他工作空间配置存储在控制平面中,并在静止时加密。

  • 数据平面是处理数据的地方。

    • 对于大多数Databricks计算,计算资源都在您的AWS帐户中经典数据平面.这是Databricks用于笔记本、作业以及专业和经典Databricks SQL仓库的数据平面类型。

    • 如果启用Databricks SQL的无服务器计算,则Databricks SQL的计算资源处于共享中无服务器数据平面.笔记本、作业、专业和经典Databricks SQL仓库的计算资源仍然位于客户帐户的经典数据平面中。看到Serverless计算

使用Databricks连接器将集群连接到外部数据源在您的AWS帐户之外获取数据或存储数据。您还可以从外部摄取数据流数据源,例如事件数据、流数据、物联网数据等。

您的数据湖以静止状态存储在您自己的AWS帐户中。

工作结果存储在你的帐户中。

交互式笔记本结果存储在控制平面(在UI中表示的部分结果)和AWS存储的组合中。如果希望交互式笔记本结果仅存储在云帐户存储中,可以要求Databricks代表启用交互式笔记本导致客户帐户你的工作空间。注意,一些关于结果的元数据,如图表列名,继续存储在控制平面中。此功能已在公共预览

E2架构

2020年9月,Databricks发布了平台的E2版本,提供:bob体育客户端下载

加上令牌管理、IP访问列表、集群策略和IAM凭据传递等特性,E2架构使AWS上的Databricks平台更安全、更可伸缩、更易于管理。bob体育客户端下载

在E2平台上创建新帐户(选择的自定义帐户除外)。bob体育客户端下载大多数现有帐户已迁移。如果您不确定您的帐户是否在E2平台上,请联系您的Databricks代表。bob体育客户端下载