本文描述了几个场景集群未能启动,并提供故障排除步骤为每个场景基于错误消息日志中找到。
集群超时
错误消息:
司机未能及时开始INTERNAL_ERROR:火花司机未能开始300秒内集群在200秒内未能保持健康
导致
集群可以失败发射如果它有一个连接到外部蜂巢metastore和它试图下载所有的蜂巢metastore库从Maven回购。集群下载近200个JAR文件,其中包括依赖关系。如果砖集群管理器不能确认司机5分钟内准备好,然后集群启动失败。这可能发生,因为JAR下载占用太多的时间。
解决方案
蜂巢库存储在DBFS DBFS位置并在本地访问它们。看到火花选项。
全球或提供集群范围内的init脚本
错误信息:
集群无法始于50分钟。后与异常原因:超时< xxx >尝试
导致
Init脚本运行在集群向上阶段RPC(远程过程调用)发送给每个工人在本地机器上运行脚本。所有rpc之前必须返回他们的状态过程仍在继续。如果任何RPC支安打并没有回答一个问题(例如,由于瞬态网络问题),那么小时超时,导致集群设置工作失败。
解决方案
使用一个集群级init脚本而不是全球或cluster-named init脚本。与集群级init脚本,砖不使用同步阻塞的rpc获取init脚本执行状态。
太多的UI库安装在集群
错误信息:
图书馆安装1800秒后超时。库没有安装:
导致
这通常是一个断断续续的问题由于网络问题。
解决方案
通常你可以解决这个问题,重新运行或重新启动集群的工作。
图书馆安装后配置超时3分钟。获取和安装jar时,超时可能发生由于网络问题。为了缓解这个问题,您可以下载从Maven库DBFS位置和安装它。
云提供商限制
错误信息:
集群终止。原因:云提供商的限制
导致
这个错误通常是由云提供商返回。
解决方案
看到云提供商的错误信息集群意外终止。
云提供商关闭
错误信息:
集群终止。原因:云提供商关闭
导致
这个错误通常是由云提供商返回。
解决方案
看到云提供商的错误信息集群意外终止。
遥不可及的实例(Azure)
错误信息:
集群终止。原因:实例访问时是遇到意外错误设置集群。请重试和联系Azure砖如果问题依然存在。内部错误消息:超时而放置节点
导致
这个错误通常是由云提供商返回。通常,当你有一个Azure砖工作区部署到你自己的虚拟网络(联接)(而不是当你推出一个新创建的默认VNet Azure砖工作空间)。如果工作空间的虚拟网络部署的视线或已经ExpressRoute连接本地资源,虚拟网络不能让ssh连接到集群节点当Azure砖试图创建一个集群。
解决方案
添加一个用户定义的路由(UDR)给Azure砖控制平面的ssh访问集群实例,Blob存储实例和工件的资源。这个定制的UDR允许出站连接,不干扰集群的创建。详细的UDR说明,请参阅步骤3:创建用户定义的航线,并将它们与你的Azure砖虚拟网络的子网。更多VNet-related故障诊断信息,请参阅故障排除。