Erik Erlandson

2020年峰会 Apache Spark中的用户定义聚合:一个爱情故事

2020年6月25日下午05:00 PT

定义定制的可伸缩聚合逻辑是Apache Spark最强大的特性之一。用户定义聚合函数(UDAF)是一种灵活的机制，用于扩展Spark数据帧和结构化流，具有从专门的摘要技术到用于探索性数据分析的构建块等新功能。尽管udaf功能强大，但Spark 3.0之前的udaf也存在一些微妙的缺陷，会损害性能和可用性。

在这次演讲中，Erik将讲述他如何遇到UDAFs并爱上它们强大的功能的故事。他将描述他如何面对UDAF设计及其性能属性的挑战，以及如何在Apache Spark社区的帮助下，最终在Spark 3.0中修复了UDAF设计，并再次爱上了UDAF。在此过程中，您将了解用户定义聚合如何在Spark中工作，如何编写自己的UDAF库，以及Spark最新的UDAF特性如何提高可用性和性能。您还将听到Spark的代码评审过程如何使这些新特性变得更好，并学习如何将大型特性成功引入Apache Spark上游社区的技巧。

2018欧洲峰会面向库开发人员的Apache Spark第2部分

太平洋时间2018年10月2日下午05:00

扩展会话-继续视频>

作为一名开发人员、数据工程师或数据科学家，您已经看到Apache Spark的表现力足以让您优雅而高效地解决问题，从而可以向外扩展以处理更多数据。然而，如果您要一次又一次地解决相同的问题，您可能希望捕获并分发您的解决方案，这样您就可以专注于新的问题，这样其他人就可以重用和重新组合它们:您希望开发一个扩展Spark的库。

当您第一次开始使用Spark时，您面临着一个学习曲线，当您开始在Spark之上开发可重用抽象时，您将面临一个不同的学习曲线。在这次演讲中，两位经验丰富的Spark库开发人员将为您提供将您的代码转换为可以与全世界共享的库所需的背景和上下文。我们将讨论:使用Spark开发并行算法时要考虑的问题，设计在数据帧和数据集上操作的通用、健壮的函数，使用用户定义函数(udf)和用户定义聚合(UDAFs)扩展数据帧，围绕缓存和广播的最佳实践，以及为什么这些对库开发人员特别重要，与ML管道集成，在Python和Scala中暴露关键功能，以及如何测试、构建。并为社区发布你的图书馆。

我们将使用基于Spark构建的实际包的具体示例来支持我们的建议。你将在这次演讲中获得信息和灵感，将你的Spark熟练程度提高到一个新的水平，并开发和发布一个属于你自己的很棒的库。

会话标签:#SAISDD6

2018欧洲峰会 Apache Spark for Library Developers第1部分

太平洋时间2018年10月2日下午05:00

作为一名开发人员、数据工程师或数据科学家，您已经看到Apache Spark的表现力足以让您优雅而高效地解决问题，从而可以向外扩展以处理更多数据。然而，如果您要一次又一次地解决相同的问题，您可能希望捕获并分发您的解决方案，这样您就可以专注于新的问题，这样其他人就可以重用和重新组合它们:您希望开发一个扩展Spark的库。当您第一次开始使用Spark时，您面临着一个学习曲线，当您开始在Spark之上开发可重用抽象时，您将面临一个不同的学习曲线。在这次演讲中，两位经验丰富的Spark库开发人员将为您提供将您的代码转换为可以与全世界共享的库所需的背景和上下文。我们将讨论:使用Spark开发并行算法时要考虑的问题，设计在数据帧和数据集上操作的通用、健壮的函数，使用用户定义函数(udf)和用户定义聚合(UDAFs)扩展数据帧，围绕缓存和广播的最佳实践，以及为什么这些对库开发人员特别重要，与ML管道集成，在Python和Scala中暴露关键功能，以及如何测试、构建。并为社区发布你的图书馆。我们将使用基于Spark构建的实际包的具体示例来支持我们的建议。你将在这次演讲中获得信息和灵感，将你的Spark熟练程度提高到一个新的水平，并开发和发布一个属于你自己的很棒的库

2018欧洲峰会用代数扩展结构化流变得容易

太平洋时间2018年10月2日下午05:00

Apache Spark的结构化流库提供了一组功能强大的原语，用于构建用于数据处理的流管道。然而，如何以一种与应用程序独特的业务逻辑自然地工作的方式充分利用这种功能并不总是显而易见的。如果您将代数与解方程联系在一起，却希望自己在做其他事情，那么请再考虑一下:我们将看到如何应用我们都理解的运算属性——比如加法、乘法和集并——来推理我们的数据工程管道。

与会者将学习在数据处理逻辑中利用代数模式的简单技术，这些逻辑与Spark的结构化流结构无缝地工作，通过自定义数据处理操作有效地扩展Spark的本机原语。这些简单而有力的想法将用现实世界的例子加以说明。

会话标签:#SAISDev2

2018年峰会鸟的羽毛会议:阿帕奇火花在Kubernetes

2023年3月28日下午06:46太平洋时间

来学习Apache Spark的Kubernetes调度程序后端，Spark 2.3中的新功能!与项目贡献者会面，并与有兴趣在Kubernetes上运行Spark的社区成员建立联系。了解即将为Kubernetes提供支持的Spark特性，并了解如何为项目做出贡献。在Kubernetes生态系统中发现Spark中的新工具，以及如何在Kubernetes集群上运行Spark作业的交易提示。

2018年峰会 Apache Spark for Library Developers SAIS 2018

2018年6月4日下午05:00 PT

作为一名开发人员、数据工程师或数据科学家，您已经看到Apache Spark的表现力足以让您优雅而高效地解决问题，从而可以向外扩展以处理更多数据。然而，如果您要一次又一次地解决相同的问题，您可能希望捕获并分发您的解决方案，这样您就可以专注于新的问题，这样其他人就可以重用和重新组合它们:您希望开发一个扩展Spark的库。

当您第一次开始使用Spark时，您面临着一个学习曲线，当您开始在Spark之上开发可重用抽象时，您将面临一个不同的学习曲线。在这次演讲中，两位经验丰富的Spark库开发人员将为您提供将您的代码转换为可以与全世界共享的库所需的背景和上下文。我们将讨论:使用Spark开发并行算法时要考虑的问题，设计在数据帧和数据集上操作的通用、健壮的函数，使用用户定义函数(udf)和用户定义聚合(UDAFs)扩展数据帧，围绕缓存和广播的最佳实践，以及为什么这些对库开发人员特别重要，与ML管道集成，在Python和Scala中暴露关键功能，以及如何测试、构建。并为社区发布你的图书馆。

我们将使用基于Spark构建的实际包的具体示例来支持我们的建议。你将在这次演讲中获得信息和灵感，将你的Spark熟练程度提高到一个新的水平，并开发和发布一个属于你自己的很棒的库。

会话标签:#DD9SAIS

2017东方峰会在Apache Spark中使用T-Digest绘制数据草图

2017年2月8日下午04:00 PT

从大型数据集中描绘概率分布的算法是现代数据科学的基本组成部分。草图在各种应用中发挥着作用，包括可视化、优化数据编码、估计分位数、数据合成和imputation。T-Digest是一种通用的草图数据结构。它适用于任何数值数据，高保真地对棘手的分布尾部建模，最重要的是，它与聚合器和map-reduce一起顺利工作。
T-Digest非常适合Apache Spark;它是单次传递的，中间结果可以在批处理作业中跨分区聚合，也可以在流作业中跨Windows聚合。在这次演讲中，我将描述T-Digest草图算法的原生Scala实现，并演示它在Spark应用程序中的可视化、分位数估计和数据合成的使用。

本次讲座的参与者将了解如何使用T-Digest草图绘制数据草图，并了解如何将T-Digest应用于他们自己的数据分析应用程序。

2017东方峰会教Apache Spark集群弹性地管理他们的工人

2017年2月7日下午04:00

Devops工程师投入了大量的创造力和精力来发明自动化基础设施管理的工具，以部署有能力和功能的应用程序。对于在Apache Spark上运行的数据驱动应用程序，实例化和管理后备Spark集群的细节可能会分散对应用程序逻辑的关注。本着devops的精神，自动化Spark集群管理任务允许工程师将注意力集中在为最终用户提供价值的应用程序代码上。
使用Openshift Origin作为实验室，我们实现了一个平台，在这个平台上Apache Spark应用程序可bob体育客户端下载以创建自己的集群，然后通过主机平台api动态管理自己的规模。这使得只需点击一个按钮就可以启动一个完全弹性的Spark应用程序。

我们将展示弹性Apache Spark应用程序的交钥匙部署的现场演示，并分享我们在开发使用平台api动态管理自身资源的Spark应用程序方面的经验。bob体育客户端下载

本次演讲的听众将是任何寻求简化Apache Spark集群管理、减少Spark应用程序部署工作负载或创建自伸缩弹性应用程序的方法的人。与会者有望了解如何利用Kubernetes生态系统中的api，使应用程序部署能够灵活地操纵自己的规模。

2017年峰会使用随机森林的智能可伸缩特征减少

2017年6月6日下午05:00 PT

现代数据中心和物联网网络产生了各种各样的遥测，为机器学习算法提供了极好的素材。结合特征提取和展开技术(如word2vec或多项式展开)，这些数据为学习模型和训练它们的数据科学家提供了丰富的信息。然而，这些极其丰富的特性集是有代价的。高维特征空间几乎总是包含许多冗余或噪声维度。这些低信息特征浪费了空间和计算，并通过稀释有用的特征降低了学习模型的质量。
在这次演讲中，Erlandson将描述随机森林聚类如何在具有许多低质量特征的数据中识别有用的特征，并将演示一个使用Apache Spark分析计算基础设施遥测数据的特征缩减应用程序。

学习随机森林聚类如何解决特征缩减问题的原理，以及如何在Apache Spark中应用随机森林工具来提高模型训练的可伸缩性、模型的质量以及对应用程序领域的理解。

会议标签:#SFds8

2017年欧洲峰会在Apache Spark中使用生成t -摘要的一次数据科学

太平洋时间2017年10月25日下午05:00

T-Digest已经赢得了高效和通用的草图数据结构的声誉;然而，其作为快速生成模型的应用却不太受重视。机器学习中的几种常见算法使用特征列的随机化作为构建块。列随机化在直接执行时是一种笨拙而昂贵的操作，但当使用生成式t - digest实现时，它可以在单次传递中优雅地完成，同时还可以在Spark数据分区之间并行。在这次演讲中，Erik将回顾T-Digest草图的原理，以及如何将T-Digest应用于生成模型。他将解释生成式T-Digest如何用于实现柱状数据的快速随机化，并以T-Digest随机化应用于可变重要性、随机森林聚类和特征约简的演示作为结论。与会者将在本次演讲结束时了解T-Digest草图，如何将T-Digest用作生成模型，以及如何应用生成T-Digest来加速他们自己的数据科学项目。
会话标签:#EUds11

2017年欧洲峰会 BoF讨论- apache Spark在Kubernetes上

太平洋时间2017年10月24日下午05:00

来学习社区开发项目，将本地Kubernetes调度后端添加到Apache Spark!与有兴趣在Kubernetes上运行Spark的社区成员建立联系。学习如何在Kubernetes集群上运行Spark作业;找出如何为这个项目做贡献。

红帽公司软件工程师

过去的会议