让我们谈谈Spark结构化流中的状态管理。在这次演讲中,您将学习与结构化流中的有状态流处理特别相关的流概念,例如水印和输出模式,以及GroupState和GroupStateTimeout。我们将探索简单的有状态处理(使用groupBy操作符)和KeyValueGroupedDataset的更高级用例。mapGroupsWithState和最先进的KeyValueGroupedDataset。flatMapGroupsWithState算子。换句话说,您将学习如何使用有状态流API并理解其内部原理。
发展及培训服务
Jacek是一名独立顾问,为Apache Spark(和Scala, sbt与Hadoop YARN, Apache Kafka, Apache Hive, Apache Mesos, Akka Actors/Stream/HTTP和Docker)提供开发和培训服务。他领导华沙Scala爱好者和华沙火花聚会。最新的项目是在https://jaceklaskowski.gitbooks.io/mastering-apache-spark/中深入了解Apache Spark。