UnknownHostException在集群启动

排除一个UnknownHostException集群启动。这通常是一个DNS配置问题。

写的arnab.saha

去年发表在:2022年12月8日

问题

当你启动一个Azure砖集群,你得到一个UnknownHostException错误。

你也可以得到以下错误消息:

  • 错误:在网络配置有一个错误。databricks_error_message:无法访问工人工件。
  • 在名称解析错误:临时失败。
  • 内部错误消息:未能启动火花容器实例XXX。例外:不添加对XXX的集装箱地址X.X.X.X.mysql.database.azure.com临时故障名称解析。

导致

这些错误表明DNS设置的问题。

  • 主DNS可能是因为或反应迟钝。
  • 工件不解决,导致集群启动失败。
  • 你可能有一个主机记录清单工件的公共IP是静态的,但是它已经改变了。

解决方案

及早识别一个工作DNS服务器集群和更新DNS条目。

  1. 开始一个独立的Azure VM和验证工件blob存储账户可及的实例。
    “远程登录dbartifactsprodeastus.blob.core.windows.net 443年”。
  2. 验证您可以达到你的笔记本的主DNS服务器命令。
  3. 如果你的DNS服务器没有响应,试图达成你的辅助DNS服务器运行一个笔记本命令。
  4. 启动一个网络终端从集群的工作区。
  5. 编辑/etc/resolv.conf文件在集群上。
  6. 更新命名服务器与你的工作价值DNS服务器。
  7. 将更改保存到该文件。
  8. 重新启动systemd-resolved
    $ sudo systemctl systemd-resolved.service重启
删除

信息

这是一个临时更改DNS和将失去在集群启动。验证后定制的DNS设置是正确的,你可以配置自定义使用dnsmasq DNS设置做永久的改变。

进一步的故障排除

如果你仍然有DNS问题,你应该尝试以下步骤:

  • 确认端口43(用于域名查询服务)和端口53(用于DNS)是开放在你的防火墙。
  • 添加Azure递归解析器(168年,.63.129.16)默认DNS转发器。检查vm和角色实例文档的更多信息。
  • 验证网路资讯查询结果是相同的与你的笔记本电脑默认的DNS。如果有mistmatch,您的DNS服务器可能有一个错误的主机记录。
  • 确保所有事情都与一个默认的Azure DNS服务器。如果使用Azure DNS,但与定制DNS失败,您的DNS管理员应该回顾你的DNS服务器设置。


这篇文章有用吗?