拉斯科夫斯基Jacek

独立顾问,发展和培训服务

    Jacek是一名独立顾问,为Apache Spark(和Scala, sbt与Hadoop YARN, Apache Kafka, Apache Hive, Apache Mesos, Akka Actors/Stream/HTTP和Docker)提供开发和培训服务。他领导华沙Scala爱好者和华沙火花聚会。最新的项目是在https://jaceklaskowski.gitbooks.io/mastering-apache-spark/中深入了解Apache Spark。

    过去的会议

    Apache Spark™3.0 Deep Meetup

    太平洋时间2020年11月17日下午04:00

    来自Databricks Developer Relations的Jules Damji和Denny Lee将回顾一些主题亮点,并简要介绍他们在会议中产生共鸣的个人选择。接下来,独立顾问Jacek Laskowski将讲述Spark 3.0的内部结构,来自Twilio, Inc.的Scott Haines将讲述结构化流媒体微服务架构。这个现场编码会议和技术深潜是不容错过的!

    在这里加入这个Meetup

    幻灯片

    Scott Haines幻灯片

    2019年欧洲峰会 Spark结构化流中有状态流处理的内部原理

    2019年10月16日下午05:00 PT

    让我们谈谈Spark结构化流中的状态管理。在这次演讲中,您将学习与结构化流中的有状态流处理特别相关的流概念,例如水印和输出模式,以及GroupState和GroupStateTimeout。我们将探索简单的有状态处理(使用groupBy操作符)和KeyValueGroupedDataset的更高级用例。mapGroupsWithState和最先进的KeyValueGroupedDataset。flatMapGroupsWithState算子。换句话说,您将学习如何使用有状态流API并理解其内部原理。

    2019年欧洲峰会 用新数据源扩展Spark SQL 2.4(实时编码会话)-继续

    2019年10月15日下午05:00 PT

    Spark SQL 2.4。x提供了两个数据源api,结构化查询可以使用它们访问自定义格式的数据,可能是在不支持的存储系统中。有较老的和几乎遗留的DataSource API V1和可以考虑的现代DataSource API V2。本次演讲将向您介绍每个DataSource API的主要实体,并向您展示如何在舞台上实时编写新数据源的步骤。这应该给了您足够的知识来扩展Spark SQL中的可用数据源。

    2019年欧洲峰会 用新的数据源扩展Spark SQL 2.4(实时编码会话)

    2019年10月15日下午05:00 PT

    Spark SQL 2.4。x提供了两个数据源api,结构化查询可以使用它们访问自定义格式的数据,可能是在不支持的存储系统中。有较老的和几乎遗留的DataSource API V1和可以考虑的现代DataSource API V2。本次演讲将向您介绍每个DataSource API的主要实体,并向您展示如何在舞台上实时编写新数据源的步骤。这应该给了您足够的知识来扩展Spark SQL中的可用数据源。

    2018欧洲峰会 Spark SQL 2.3中的bucket

    太平洋时间2018年10月3日下午05:00

    桶是Spark SQL中的一种优化技术,它使用桶和桶列来确定数据分区。如果应用得当,桶可以通过避免参与连接的表的洗牌(又名交换)来实现连接优化。这次演讲将为您提供必要的信息,以便您可以使用桶来优化Spark SQL结构化查询。

    会议标签:#SAISDev12

    2018欧洲峰会 深入了解Spark SQL 2.3第2部分中的查询执行

    太平洋时间2018年10月2日下午05:00

    如果你想稍微提高结构化查询的性能(无论是批处理还是流处理),你必须从QueryExecution开始查看Dataset API的基础。这是任何结构化查询的终点,也是我演讲的起点。该演讲将向您展示在Spark SQL中执行结构化查询之前必须经过哪些阶段。我将讨论查询执行的不同阶段以及逻辑和物理优化。我将展示Spark SQL 2.3中的不同优化,以及如何自己(用Scala)编写一个优化。

    会话标记:#SAISDD1

    2018年欧洲峰会,2018年峰会 深入了解Spark SQL 2.3第1部分中的查询执行

    太平洋时间2018年10月2日下午05:00

    如果你想稍微提高结构化查询的性能(无论是批处理还是流处理),你必须从QueryExecution开始查看Dataset API的基础。这是任何结构化查询的终点,也是我演讲的起点。该演讲将向您展示在Spark SQL中执行结构化查询之前必须经过哪些阶段。我将讨论查询执行的不同阶段以及逻辑和物理优化。我将展示Spark SQL 2.3中的不同优化,以及如何自己(用Scala)编写一个优化。

    2016东方峰会 Apache Spark的RDD API(使用Spark-shell和web)

    2016年2月17日下午04:00 PT

    本次演讲旨在从RDD和由动作触发的作业的近底层细节介绍Spark。它深入探讨了简单的Spark -shell执行后会发生什么,以及Spark如何在执行程序之间分配任务。它还将演示Spark的本地模式和集群之间的区别,以及如何创建具有Spark shell和UI的Spark用户程序的阶段。它对于希望在RDD API的表层下更深入地挖掘Apache Spark的开发人员和管理员来说同样有用。方法是演示简单的“Spark -shell -master”背后的内容,并从另一个非api的角度学习Spark。这次演讲是对我从回顾Spark源代码和在https://jaceklaskowski.gitbooks.io/mastering-apache-spark/上写笔记中学到的Apache Spark架构的总结。

    2016年欧洲峰会 深入了解Spark应用程序的监控(使用Web UI和sparklistener)

    2016年10月26日下午05:00 PT

    在演示过程中,您将了解Spark的web UI的架构和不同的sparklistener,这些sparklistener位于它后面以支持其操作。您将了解Spark UI提供的Spark应用程序的哪些信息,以及如何阅读它们以了解Spark应用程序的性能。本次演讲将演示示例Spark片段(使用Spark -shell),以展示Spark UI中隐藏的宝石,如FAIR调度模式下的队列,SQL查询或流式作业。

    2017年欧洲峰会 Apache Spark SQL 2.2中的基本到高级聚合运算符示例及其催化剂优化-继续

    太平洋时间2017年10月24日下午05:00

    在Spark SQL中有许多不同的聚合操作符。它们的范围从非常基本的groupBy和在Apache Spark Structured Streaming的有状态聚合中闪闪发光的不太基本的groupByKey,包括更高级的立方体、rollup和pivot到我最爱的窗口聚合。即使对于相同的用例,它们的性能特征也有如此之大的差异,这令人难以置信。
    特别有趣的是对带窗口的聚合与groupBy的简单性和性能的比较。这仅仅是Spark SQL。然后是Spark Structured Streaming,它将groupByKey操作符放在有状态流处理的最前沿(令我惊讶的是,性能可能不是那么令人满意)。

    这次深入的演讲将展示聚合操作符和函数的所有不同用例,以及它们在Spark SQL 2.2及以后版本中的性能差异。代码和乐趣包括在内!

    会话标签:#EUdd5

    2017年欧洲峰会 Apache Spark SQL 2.2中从基本到高级的聚合运算符示例及其催化剂优化

    太平洋时间2017年10月24日下午05:00

    在Spark SQL中有许多不同的聚合操作符。它们的范围从非常基本的groupBy和在Apache Spark Structured Streaming的有状态聚合中闪闪发光的不太基本的groupByKey,包括更高级的立方体、rollup和pivot到我最爱的窗口聚合。即使对于相同的用例,它们的性能特征也有如此之大的差异,这令人难以置信。
    特别有趣的是对带窗口的聚合与groupBy的简单性和性能的比较。这仅仅是Spark SQL。然后是Spark Structured Streaming,它将groupByKey操作符放在有状态流处理的最前沿(令我惊讶的是,性能可能不是那么令人满意)。

    这次深入的演讲将展示聚合操作符和函数的所有不同用例,以及它们在Spark SQL 2.2及以后版本中的性能差异。代码和乐趣包括在内!

    会话标签:#EUdd5

    2017年欧洲峰会 BoF Discussion-Apache Spark Meetup organizer

    太平洋时间2017年10月24日下午05:00

    今天,我们在全球分别有625和430K的火花聚会和成员。我们如何工作、分享、合作和推广演讲者和会议?这个BoF适合任何Spark Meetup Orangizer、与会者、演讲者或任何有兴趣分享想法的人,以便更好地分享和合作技术会谈和内容。

    2017年欧洲峰会 使用Web UI监控结构化流应用程序

    太平洋时间2017年10月24日下午05:00

    Apache Spark 2.2中的Spark结构化流包含了很多独特的Catalyst操作符,最著名的是有状态流操作符和三种不同的输出模式。理解Spark Structured Streaming如何管理触发器之间的中间状态以及它如何影响性能是至关重要的。毕竟,您使用Apache Spark来处理大量数据,单独处理这些数据可能会很棘手,而Spark Structured Streaming添加了额外的流因素,给定结构化查询可以使数据由于状态管理而变得更大。

    这个深入的演讲将向您展示SQL选项卡的查询详细信息页面中的执行图、逻辑和物理计划以及度量中包含的内容。该演讲还将解释SQL选项卡的其他部分和带有流查询细节的子页。

    本次演讲将回答以下问题:

    - SQL页签“查询详情”页中的蓝框代表什么?
    -什么是黑色弹出窗口告诉我当悬停在一个蓝色框的详细信息查询页在SQL选项卡?
    -在SQL选项卡查询页面的详细信息底部的详细信息部分是什么?
    -为什么一个流查询执行多个查询,如SQL选项卡所示?
    —在“工作”页签的“Spark工作”页面中,有哪些Spark工作?
    —为什么单个查询执行会导致零或多个Spark作业?翻译是如何发生的?
    —为什么流聚合查询的执行计划中有shuffle /exchanges ?和更多!

    BOB低频彩了解更多:

  • 深入了解Spark应用程序的监控(使用Web UI和sparklistener)
  • 深入研究结构化流
  • Apache Spark中的结构化流