Stefan van Wouw

老居民解决方案架构师,砖

    斯蒂芬是砖的性能和可伸缩性的主题专家。他有一个背景的并行分布式系统和大数据分析领域有多年的经验。最近,他专注于大规模部署结构的流媒体应用程序,建议客户如何构建他们的管道从概念到生产等级证明系统。

    过去的会议

    火花UI中的SQL选项卡提供了大量的信息分析你的火花查询,从查询计划,所有相关的统计数据。然而,许多新的火花从业者获得的信息,和无法使用它为了自己的利益。在这次演讲我们想给一个温柔的介绍如何阅读这个SQL选项卡。我们将首先复习常见的引发操作,如扫描,项目、过滤、聚合和连接;以及它们与火花编写的代码。在谈话的第二部分,我们将介绍如何阅读相关的统计数据查明性能瓶颈。

    参加这次会议之后,你将有一个更好的把握对查询计划和SQL选项卡,并且能够利用这些知识来增加火花查询的性能。

    演讲者:斯蒂芬·范·Wouw和马克斯Thone

    在开发环境中运行一个流是相对容易的。然而,一些主题会导致严重的问题在生产时没有妥善解决。在这表示我们想要覆盖4个主题,不能解决时,可以导致严重的问题生产流。第一个主题认为如果你流的输入参数不正确配置。这可能导致你流不得不突然过程比预期更多的数据,造成相当大的性能下降。

    第二个主题是关于状态流参数和优化这些参数不当的后果。这可能会导致无限状态积累和可降解性能的另一个来源,以及内存问题。在第三个话题讨论结构流输出参数。当不解决,这可能会导致严重的小文件的问题。在最后的话题,我们将介绍如何思考当你想修改流工作虽然已经在生产和检查点。我们将提供实际动手的例子时提到的问题清单和如何防止发生在您的生产流。结束的谈话你会知道如何寻找在设计性能和容错流。