单节点集群
请注意
本文描述遗留集群UI。有关预览UI的详细信息,包括集群访问模式的术语更改,请参见创建集群.有关新的和旧的集群类型的比较,请参见集群UI更改和集群访问模式.
单节点集群是由Apache Spark驱动和不包含Spark worker组成的集群。单节点集群支持Spark作业和所有Spark数据源,包括三角洲湖.标准集群至少需要一个Spark worker来运行Spark作业。
单节点集群有助于:
使用Spark加载和保存数据的单节点机器学习工作负载
轻量级探索性数据分析
单节点集群属性
单节点集群具有以下属性:
本地运行Spark。
驱动程序同时充当主节点和辅助节点,没有辅助节点。
在集群中每个逻辑核心生成一个执行程序线程,减去一个驱动程序内核。
所有
stderr
,stdout
,log4j
日志输出保存在驱动日志中。单节点集群不能转换为标准集群。若要使用标准集群,请创建集群并将笔记本附加到该集群。
限制
大规模的数据处理将耗尽单节点集群的资源。对于这些工作负载,Databricks建议使用标准模式集群。
单节点集群不是为共享而设计的。为了避免资源冲突,Databricks建议在必须共享集群时使用标准模式集群。
标准模式集群不能扩展到0个工人。改用单节点集群。
单节点集群不兼容进程隔离。
单机集群不开启GPU调度功能。
在单节点集群中,Spark无法读取带UDT列的Parquet文件。错误信息如下:
Spark驱动异常停止,正在重新启动。您的笔记本将自动重新连接。
要解决这个问题,禁用本机Parquet读取器:
火花.相依.集(“spark.databricks.io.parquet.nativeReader.enabled”,假)
REST API
您可以使用集群API来创建单节点集群.
单节点集群策略
集群政策简化单节点集群的集群配置。
考虑一个数据科学团队的例子,该团队的成员没有创建集群的权限。管理员可以创建集群策略,授权团队成员使用创建最大数量的Single Node集群池而且集群政策:
创建一个游泳池:
集最大容量来
10
.在自动驾驶仪的选择,使本地存储启用自动伸缩.
集实例类型来单节点集群.
选择Databricks版本。Databricks建议尽可能使用最新版本。
点击创建.
将出现池的属性页面。记录新创建的池的池ID和实例类型ID页。
创建一个集群政策:
从池属性中设置池ID和实例类型ID。
指定约束根据需要。
将集群策略授予团队成员。你可以使用管理用户、服务主体和组简化用户管理。
{“spark_conf.spark.databricks.cluster.profile”:{“类型”:“固定”,“价值”:“singleNode”,“隐藏”:真正的},“instance_pool_id”:{“类型”:“固定”,“价值”:“singleNodePoolId1”,“隐藏”:真正的},“spark_version”:{“类型”:“固定”,“价值”:“7.3.x-cpu-ml-scala2.12”,“隐藏”:真正的},“autotermination_minutes”:{“类型”:“固定”,“价值”:120,“隐藏”:真正的},“num_workers”:{“类型”:“固定”,“价值”:0,“隐藏”:真正的},“docker_image.url”:{“类型”:“禁止”,“隐藏”:真正的}}
单节点作业集群策略
若要为作业设置集群策略,可以定义类似的集群策略。设置cluster_type.type
来固定
而且cluster_type.value
来工作
.删除对auto_termination_minutes
.
{“cluster_type”:{“类型”:“固定”,“价值”:“工作”},“spark_conf.spark.databricks.cluster.profile”:{“类型”:“固定”,“价值”:“singleNode”,“隐藏”:真正的},“instance_pool_id”:{“类型”:“固定”,“价值”:“singleNodePoolId1”,“隐藏”:真正的},“num_workers”:{“类型”:“固定”,“价值”:0,“隐藏”:真正的},“spark_version”:{“类型”:“固定”,“价值”:“7.3.x-cpu-ml-scala2.12”,“隐藏”:真正的},“docker_image.url”:{“类型”:“禁止”,“隐藏”:真正的}}