火花与司机工作失败是暂时不可用

学习如何区分活跃和死砖工作。

写的亚当Pavlacka

去年发表在:2022年5月10日

问题

砖笔记本返回下列错误:

司机暂时不可用

这个问题可以是间歇性的或不是。

一个相关的错误消息:

失去了连接到集群。笔记本可能是分离的。

导致

这个错误的一个常见原因是,司机正在内存瓶颈。,当这一切发生的时候,司机崩溃的内存(伯父)条件,重新启动或无法响应,由于频繁的完整的垃圾收集。内存瓶颈的原因可以有下列:

  • 司机实例类型不是最优加载驱动程序上执行的。
  • 有内存密集型操作上执行的司机。
  • 有许多笔记本电脑或者工作并行运行在同一集群。

解决方案

解决方案例子的情况各不相同。解决这个问题最简单的方法在缺乏具体细节是提高司机的记忆。你可以增加司机记忆只需升级驱动节点类型在集群上你的砖的工作区中编辑页面。

其他重要的事情需要考虑:

  • 避免内存密集型操作,比如:
    • 收集()操作符,给司机带来了大量的数据。
    • 转换的一个大型DataFrame熊猫
    如果这些操作是必不可少的,确保足够的司机内存可用。
  • 避免共享互动集群上运行批处理作业。
  • 分发工作负载到不同的集群。无论多大的集群,火花的功能驱动程序不能被分布在一个集群。