流工作卡住写作检查点

流工作似乎卡住了即使没有错误。您正在使用DBFS检查点存储,但它已经填满了。

写的何塞·冈萨雷斯

去年发表在:2022年5月19日

问题

你是监控一个流媒体工作,注意,它似乎被困在处理数据。

检查日志时,发现工作卡住当写入数据到一个检查站。

信息HDFSBackedStateStoreProvider:删除文件对于381160岁以上的HDFSStateStoreProvider [id = (op = 0 = 89), dir = dbfs: / FileStore / R_CHECKPOINT5 /州/ 0/89):信息StateStore:检索引用StateStoreCoordinator: org.apache.spark.sql.execution.streaming.state。HDFSBackedStateStoreProvider StateStoreCoordinatorRef@56a4cb80信息:删除文件对于381160岁以上的HDFSStateStoreProvider [id = (op = 0,一部分= 37),dir = dbfs: / FileStore / R_CHECKPOINT5 /州/ 0/37):信息StateStore:检索引用StateStoreCoordinator: org.apache.spark.sql.execution.streaming.state。HDFSBackedStateStoreProvider StateStoreCoordinatorRef@56a4cb80信息:删除文件对于313920岁以上的HDFSStateStoreProvider [id = (op = 0,一部分= 25),dir = dbfs: / FileStore / PYTHON_CHECKPOINT5 /州/ 0/25):

导致

你想使用一个检查点位置在当地DBFS路径。

% = streamingInput.writeStream scala查询。选项(“checkpointLocation”、“/ FileStore /检查站”).start ()

解决方案

您应该使用持久存储为流检查点。

你不应该使用DBFS流检查点存储。

这篇文章有用吗?