Databricks架构概述
本文提供Databricks体系结构的高级概述,包括其与AWS结合使用的企业体系结构。
高级体系结构
Databricks的结构可以实现安全的跨职能团队协作,同时保持Databricks管理的大量后端服务,因此您可以专注于数据科学、数据分析和数据工程任务。
数据库运行在一个控制飞机和一个数据平面.
尽管架构可能因自定义配置而异,但下图表示AWS环境中Databricks的最常见结构和数据流。
下图描述了Classic数据平面的整体架构。有关用于无服务器SQL仓库的无服务器数据平面的体系结构详细信息,请参见Serverless计算.
控制平面和数据平面
控制平面包括Databricks在其自己的AWS帐户中管理的后端服务。Notebook命令和许多其他工作空间配置存储在控制平面中,并在静止时加密。
数据平面是处理数据的地方。
对于大多数Databricks计算,计算资源都在您的AWS帐户中经典数据平面.这是Databricks用于笔记本、作业以及专业和经典Databricks SQL仓库的数据平面类型。
如果启用Databricks SQL的无服务器计算,则Databricks SQL的计算资源处于共享中无服务器数据平面.笔记本、作业、专业和经典Databricks SQL仓库的计算资源仍然位于客户帐户的经典数据平面中。看到Serverless计算.
使用Databricks连接器将集群连接到外部数据源在您的AWS帐户之外获取数据或存储数据。您还可以从外部摄取数据流数据源,例如事件数据、流数据、物联网数据等。
您的数据湖以静止状态存储在您自己的AWS帐户中。
工作结果存储在你的帐户中。
交互式笔记本结果存储在控制平面(在UI中表示的部分结果)和AWS存储的组合中。如果希望交互式笔记本结果仅存储在云帐户存储中,可以要求Databricks代表启用交互式笔记本导致客户帐户你的工作空间。注意,一些关于结果的元数据,如图表列名,继续存储在控制平面中。此功能已在公共预览.
E2架构
2020年9月,Databricks发布了平台的E2版本,提供:bob体育客户端下载
Multi-workspace账户:为每个帐户创建多个工作区帐户API 2.0.
Customer-managed vpc:在您自己的VPC中创建Databricks工作空间,而不是使用Databricks在您的AWS帐户中创建和配置的默认架构,即在单个AWS VPC中创建集群。
安全的集群连接:也称为“无公共IP”,安全集群连接允许您启动所有节点都只有私有IP地址的集群,从而提供增强的安全性。
用于托管服务的客户管理密钥:提供KMS密钥,用于对数据库管理控制平面的笔记本和保密数据进行加密。
加上令牌管理、IP访问列表、集群策略和IAM凭据传递等特性,E2架构使AWS上的Databricks平台更安全、更可伸缩、更易于管理。bob体育客户端下载
在E2平台上创建新帐户(选择的自定义帐户除外)。bob体育客户端下载大多数现有帐户已迁移。如果您不确定您的帐户是否在E2平台上,请联系您的Databricks代表。bob体育客户端下载