砖
bob体育客户端下载平台演示
免费开始

在这个演示中,我们将概述Databricks平台,包括平台架构、Databricks数据科学与工程、Databricksbob体育客户端下载机器学习和Databricks SQL环境。
视频记录
让我们看一看Databricks平台的体系结构。bob体育客户端下载虽然理解所有组件的细节以及它们是如何集成的是平台管理员的责任,但作为数据工程师,最好对结构以及它们是如何组合在一起的有一个广泛的理解。bob体育客户端下载
该图说明了Databricks体系结构。控制平面由Databricks在其自己的云帐户(AWS Azure或GCP)中管理的后端服务组成,这些后端服务与云服务一致,并由客户使用。尽管大部分数据不在这里,但有些元素(如笔记本命令和工作空间配置)存储在控制平面中,并在静止时加密。通过控制平面及其提供的相关UI和api,可以启动集群、启动作业并获得结果,并与表元数据进行交互。
点击展开文字记录→
Databricks web应用程序提供了三种不同的服务,以满足各种角色的特定需求,Databricks SQL, Databricks机器学习和数据科学与工程工作空间(也称为工作空间)。
Databricks集群是一组计算资源和配置,可以在其上运行数据工程、数据科学和数据分析工作负载。您可以将这些工作负载作为笔记本中的一组命令或作业运行。典型的应用包括生产ETL管道、流分析、临时分析和机器学习。集群位于组织的云帐户内的数据平面中。
虽然集群管理是控制平面的一个功能,是Databricks平台提供的服务的一部分,但集群本身由一组一个或多个虚拟机实例组成,Apache Spark™️在这些虚拟机实例上分布计算工作负载。bob体育客户端下载在典型情况下,集群在一个或多个工作节点旁边有一个驱动程序节点。虽然Databricks也提供单节点模型,但通常仅限于小工作量的开发或测试。驱动程序将工作负载分布在可用的工作节点上。
Databricks对通用集群和作业集群进行了区分。通用集群使用交互式笔记本协同分析数据。您可以使用工作区或以编程方式使用命令行接口或rest API创建一个通用集群。您可以手动终止和重新启动一个通用集群,多个用户可以共享通用集群以进行协作的交互式分析。作业集群以快速和健壮的方式运行自动化作业。
当您在新的作业集群上运行作业时,Databricks作业调度器将创建作业集群,并在作业完成时终止集群。不能重新启动作业集群。这些属性确保每个作业都有独立的执行环境。对于作业集群,最近由作业调度器终止的最多30个集群将保留配置信息。对于通用集群,为过去30天内终止的最多70个集群保留配置信息,以保留信息。超过这个时间段,管理员必须固定集群。

准备开始了吗?

