问题
你是监控一个流媒体工作,注意,它似乎被困在处理数据。
检查日志时,发现工作卡住当写入数据到一个检查站。
信息HDFSBackedStateStoreProvider:删除文件对于381160岁以上的HDFSStateStoreProvider [id = (op = 0 = 89), dir = dbfs: / FileStore / R_CHECKPOINT5 /州/ 0/89):信息StateStore:检索引用StateStoreCoordinator: org.apache.spark.sql.execution.streaming.state。HDFSBackedStateStoreProvider StateStoreCoordinatorRef@56a4cb80信息:删除文件对于381160岁以上的HDFSStateStoreProvider [id = (op = 0,一部分= 37),dir = dbfs: / FileStore / R_CHECKPOINT5 /州/ 0/37):信息StateStore:检索引用StateStoreCoordinator: org.apache.spark.sql.execution.streaming.state。HDFSBackedStateStoreProvider StateStoreCoordinatorRef@56a4cb80信息:删除文件对于313920岁以上的HDFSStateStoreProvider [id = (op = 0,一部分= 25),dir = dbfs: / FileStore / PYTHON_CHECKPOINT5 /州/ 0/25):
导致
你想使用一个检查点位置在当地DBFS路径。
% = streamingInput.writeStream scala查询。选项(“checkpointLocation”、“/ FileStore /检查站”).start ()
解决方案
您应该使用持久存储为流检查点。
你不应该使用DBFS流检查点存储。