工作笔记本集群限制输出

集群有一个最大的笔记本工作输出20 MB的大小。如果输出较大,它导致一个错误。

写的何塞·冈萨雷斯

去年发表在:2022年5月10日

问题

你工作的集群上运行一个笔记本,你得到一个错误消息,表明输出太大。

笔记本太大的输出。原因:rpc响应(20975548字节)超过20971520字节的极限

导致

这个错误消息可能发生在集群工作只要笔记本输出大于20 MB。

  • 如果您使用多个显示(),displayHTML (),显示()命令你的笔记本,这增加的输出量。一旦产出超过20 MB,发生错误。
  • 如果您使用多个print ()命令你的笔记本,这可以增加产量stdout。一旦产出超过20 MB,发生错误。
  • 如果您正在运行一个流和启用工作awaitAnyTermination在集群的火花配置(AWS|Azure|GCP),它试图获取整个输出在一个单一的请求。如果超过20 MB,发生错误。

解决方案

  • 删除任何不必要的显示(),displayHTML (),print (),显示()在你的笔记本中,命令。这些可能是有用的调试,但不建议用于生产工作。
  • 如果你的工作产出超过20 MB限制,试着将你的日志log4j或禁用stdout通过设置spark.databricks.driver。disableScalaOutput真实在集群的火花配置

有关更多信息,请查阅文档输出大小限制(AWS|Azure|GCP)。

这篇文章有用吗?