Databricks架构概述

本文提供Databricks体系结构的高级概述,包括其与谷歌Cloud结合使用的企业体系结构。

高级体系结构

Databricks的结构可以实现安全的跨职能团队协作,同时保持Databricks管理的大量后端服务,因此您可以专注于数据科学、数据分析和数据工程任务。

数据库运行在一个控制飞机和一个数据平面

下图表示谷歌Cloud上Databricks的数据流:

图:关于GCP架构的数据

控制平面和数据平面

  • 控制平面包括Databricks在其自己的谷歌云帐户中管理的后端服务。Notebook命令和许多其他工作空间配置存储在控制平面中,并在静止时加密。

  • 您的谷歌云帐户管理数据平面,并且是您的数据驻留的位置。这也是处理数据的地方。使用Databricks连接器将集群连接到外部数据源在您的谷歌云帐户之外摄取数据,或用于存储。您还可以从外部摄取数据流数据源,例如事件数据、流数据、物联网数据等。

您的数据存储在您的谷歌云帐户中的数据平面和您自己的数据源中,而不是控制平面,因此您保持对数据的控制和所有权。

工作结果存储在你的帐户中。

交互式笔记本结果存储在控制平面(UI中显示的部分结果)和您的谷歌云存储的组合中。如果希望交互式笔记本结果仅存储在云帐户存储中,可以要求Databricks代表启用交互式笔记本导致客户帐户你的工作空间。注意,一些关于结果的元数据,如图表列名,继续存储在控制平面中。此功能已在公共预览