bob体育客户端下载平台的博客

从TCP网络性能回归袋漏洞修复

通过团队砖

2019年8月1日 产品

分享这篇文章

更新于2019年8月2日:添加到最后解释我们的内核补丁,我们发现更多的细节。

6月17日三个弱点Linux网络栈的发表。最严重的一个可能允许远程攻击者影响系统的可用性。我们相信提供最安全的图片提供给我们的客户,所以我们很快就应用一个内核补丁来解决这个问题。

内核补丁应用以来,我们观察到某些工作负载经历意想不到的,不确定性性能回归亚马逊网络服务(AWS)平台,展现形式的冗长或挂写入S3。bob体育客户端下载我们现在还没有观察到任何性能回归微软Azure。尽管这些回归可以观察到在不到0.2%的情况下,我们想要与你分享我们发现到目前为止和缓解策略。

症状

行为可以体现在任何砖运行时/ Apache火花版本。影响客户会看到火花工作砖集群上运行减慢和潜在的“挂”15分钟,或失败完全是因为超时,在编写Amazon S3。客户可能看到类似这种砖的堆栈跟踪集群日志:

org.apache.spark.SparkException:截断……引起的:com.amazonaws.services.s3.model.AmazonS3Exception:你的套接字连接到服务器在超时时间内。空闲连接将被关闭。

客户也可以看看引发web UI,并看到一个或多个任务异常长时间与大多数其他任务相比相同的阶段。

自安全补丁应用到砖平台6月24日,任何改变在性能一致准确的日期。bob体育客户端下载工作表现正常(或之后)6月24日,后来经历了一个性能回归将会与这个问题无关。

根本原因

TCP袋DoS的脆弱性披露2019年6月17日。它允许远程攻击者来触发一个内核恐慌在服务器上接受交通港口。

我们的基础设施安全团队立即修复这个问题,决定在我们的船这个补丁CVE定期安全释放列车。我们装运这个更新的形式新Amazon Machine Image (AMI),形成的基图像的操作系统运行LXC包含砖的运行时容器。

后不久推出补丁,我们确定不确定的异常的一个很小的子集内部基准和一些客户的工作。例如,短5分钟数据处理工作,写信给Amazon S3正在一个小时来完成。

从我们的内部基准测试使用繁殖,我们分析了砖集群之间的网络流量和Amazon S3。集群没有补丁表现出预期的行为写Amazon S3时,持续完成在不到90秒写道:

然而,相同的代码运行在集群数据传输的安全补丁经历了短期Amazon S3紧随其后的是长时间的不活动。这里有一个例子工作了15分钟的时间来完成:

缓解策略

我们仍在积极调查这个问题,以确定问题的根源。解决这种不确定性性能回归可能需要另一个操作系统补丁。与此同时,安全是我们的违约,我们将继续我们能做船最安全的内核。我们将尽快与你分享更新。

幸运的是,火花和砖的平台从一开始就被设计来减轻这些类型的长尾分布式系统bob体育客户端下载问题。客户可以打开任务Apache投机引发通过设置“火花。在他们的猜测”到“真正的”集群配置为了减轻这个问题。此功能最初被设计来减轻掉队,在机器减速。投机时,火花将推出长期缓慢的任务和副本重试,可能性高的副本任务没有达到性能回归将很快完成。

客户不希望利用任务投机和可以接受不同的安全威胁模型,我们的支持团队可以与你合作,提供其他的缓解策略。请联系您的客户经理或(电子邮件保护)如果你是影响和需要援助识别解决方案。

更新于2019年8月2日

艾米斯使用未经修改的Ubuntu 16.04图像的操作系统,这是Linux 4.4.0内核支持。默认我们的套接字使用TCP袋(S3服务器做的),所以我们修补TCP麻袋漏洞的更新4.4.0-1084-aws # 94 - ubuntu4.4.0-1085-aws # 96 - ubuntu。我们继续跟踪这个问题,我们知道4.4.0-1087-aws # 98 - ubuntu包括三个TCP袋相关补丁。其中的一个补丁是为了解决套接字SO_SNDBUF较低的性能。当我们使用默认SO_SNDBUF 16 kb,我们应用的更新,但没有看到任何改善。一个额外的上游补丁是7月19日修复低的另一个角落例SO_SNDBUF套接字。因为它尚未纳入Ubuntu 16.04,但我们建立了一个自定义图像补丁,它解决了网络性能问题。我们将跟进一个更详细的分析。

免费试着砖
看到所有产品的帖子