集群未能启动

学习如何解决 集群启动失败。

写的亚当Pavlacka

去年发表在:2022年3月4日

本文描述了几个场景集群未能启动,并提供故障排除步骤为每个场景基于错误消息日志中找到。

集群超时

错误消息:

司机未能及时开始INTERNAL_ERROR:火花司机未能开始300秒内集群在200秒内未能保持健康

导致

集群可以失败发射如果它有一个连接到外部蜂巢metastore和它试图下载所有的蜂巢metastore库从Maven回购。集群下载近200个JAR文件,其中包括依赖关系。如果砖集群管理器不能确认司机5分钟内准备好,然后集群启动失败。这可能发生,因为JAR下载占用太多的时间。

解决方案

蜂巢库存储在DBFS DBFS位置并在本地访问它们。看到火花选项

全球或提供集群范围内的init脚本

错误信息:

集群无法始于50分钟。后与异常原因:超时< xxx >尝试

导致

Init脚本运行在集群向上阶段RPC(远程过程调用)发送给每个工人在本地机器上运行脚本。所有rpc之前必须返回他们的状态过程仍在继续。如果任何RPC支安打并没有回答一个问题(例如,由于瞬态网络问题),那么小时超时,导致集群设置工作失败。

解决方案

使用一个集群级init脚本而不是全球或cluster-named init脚本。与集群级init脚本,砖不使用同步阻塞的rpc获取init脚本执行状态。

太多的UI库安装在集群

错误信息:

图书馆安装1800秒后超时。库没有安装:

导致

这通常是一个断断续续的问题由于网络问题。

解决方案

通常你可以解决这个问题,重新运行或重新启动集群的工作。

图书馆安装后配置超时3分钟。获取和安装jar时,超时可能发生由于网络问题。为了缓解这个问题,您可以下载从Maven库DBFS位置和安装它。

云提供商限制

错误信息:

集群终止。原因:云提供商的限制

导致

这个错误通常是由云提供商返回。

解决方案

看到云提供商的错误信息集群意外终止

云提供商关闭

错误信息:

集群终止。原因:云提供商关闭

导致

这个错误通常是由云提供商返回。

解决方案

看到云提供商的错误信息集群意外终止

遥不可及的实例(Azure)

错误信息:

集群终止。原因:实例访问时是遇到意外错误设置集群。请重试和联系Azure砖如果问题依然存在。内部错误消息:超时而放置节点

导致

这个错误通常是由云提供商返回。通常,当你有一个Azure砖工作区部署到你自己的虚拟网络(联接)(而不是当你推出一个新创建的默认VNet Azure砖工作空间)。如果工作空间的虚拟网络部署的视线或已经ExpressRoute连接本地资源,虚拟网络不能让ssh连接到集群节点当Azure砖试图创建一个集群。

解决方案

添加一个用户定义的路由(UDR)给Azure砖控制平面的ssh访问集群实例,Blob存储实例和工件的资源。这个定制的UDR允许出站连接,不干扰集群的创建。详细的UDR说明,请参阅步骤3:创建用户定义的航线,并将它们与你的Azure砖虚拟网络的子网。更多VNet-related故障诊断信息,请参阅故障排除

这篇文章有用吗?