重播Apache引发事件在一个集群中

使用一个集群节点重放另一个集群的UI事件日志的火花。

写的arjun.kaimaparambilrajan

去年发表在:2023年2月10日

火花UI是常用的作为火花的调试工具的工作。

如果火花UI不可访问,你可以加载另一个集群的事件日志和使用事件日志重播笔记本重播引发事件。

删除

警告

集群日志交付在默认情况下不启用。您必须启用集群日志开始您的集群前交货,否则就没有日志重播。

按照文档来配置集群日志交付在你的集群。

的位置取决于集群日志集群日志路径您在集群配置中设置。

例如,如果日志路径dbfs: / cluster-logs的日志文件将存储在一个特定的集群dbfs: / cluster-logs / <集群名称>和个人将存储在事件日志dbfs: / cluster-logs / <集群名称> / < cluster-name-cluster-ip > / < log-id > / /事件日志

删除

请注意

这个示例使用DBFS集群日志,但这不是必需的。你可以在DBFS或S3存储存储集群日志。

确认集群日志存在

检查集群日志路径,并验证集群日志是写给你的选择。日志文件写每五分钟。

发射一个节点集群

发射一个节点集群。你将在这个集群重播日志。

选择实例类型基于事件日志的大小,你想回放。

运行事件日志重播笔记本

  • 附加事件日志重播笔记本到单一节点集群。
  • 输入您选择的集群事件日志的路径event_log_path字段在笔记本上。
  • 运行笔记本。

事件日志重播笔记本

在新选项卡中打开笔记本。

防止物品从UI

如果你有一个长时间运行的集群,可以对一些工作和/或阶段从UI的火花。

这种情况由于默认UI限制旨在阻止UI使用了太多的内存,导致内存不足错误在集群上。

如果您使用的是单个节点集群重播事件日志,你可以增加默认UI火花UI限制和投入更多的内存。这可以防止物品越来越下降。

您可以调整这些值在创建集群通过编辑火花配置

这个例子包含这些属性的默认值。

spark.ui。retainedJobs 1000 spark.ui。retainedStages 1000 spark.ui。retainedTasks 100000 spark.sql.ui。retainedExecutions 1000


这篇文章有用吗?