连接重试耗时长失败

默认Apache Hadoop连接超时和重试值高,减值加速故障

2022年12月21日

问题

正在尝试访问远程HDFS位置表或对象存储器,而该存储器没有权限访问上头安全选择命令失效, 并有, 但它不快速失效。最多需要10分钟有时更多返回ConnectTimeoutException报错消息

误差消息最终接收为: " SQL语句错误:连接时间例外:从1006-163012-fad894-10-133-241-86127.1.1调用analytics.aws.healthverity.comsocket超时异常:Og.apache.hadoop.net.Connect超时异常:20000毫秒超时等待通道准备连接ch : java.nio.channels.SocketChannel[connection-pending remote=analytics.aws.healthverity.com/10.24.12.199:8020万事通详情见:SocketTimeout-HadOOP2-Apache软件基金会

因果

所有事物都按设计运行,然而Apache Hadoop默认连接超时和重试值高,正因如此连接不快速失效

ipc.client.connect.timeout 20000  ipc.client.connect.max.retries.on.timeouts 45

复习完整列表hadoop常用核心默认.xml值.

复习socket超时文档获取更多细节

求解

可减少连接超时重试值解题

上头ipc.client.connect.timeout值以秒计
上头ipc.client.connect.max.retries.on.timeouts值表示失败前重试次数

设置集群中的这些值spark配置高山市AWS系统|休眠)

无法确定使用值的databricks推荐值

ipc.client.connect.timeout 5000  ipc.client.connect.max.retries.on.timeouts 3

数据键知识库

联系我们

问题

因果

求解