霍尔顿Karau

苹果公司软件工程师

    Holden是一名跨性别的加拿大开源开发者,专注于Apache Sbob下载地址park、气流、Kubeflow和相关的“大数据”工具。她是Learning Spark、High Performance Spark和Kubeflow for Machine Learning的合著者。她是Apache Spark的提交者和PMC。在试图改进搜索和推荐系统时,她被骗进了大数据的世界,很久以前就忘记了她最初的目标。

    过去的会议

    2021年峰会 改进Apache Spark动态分配和Spot实例

    2021年5月28日太平洋时间上午11:05

    本演讲将探讨Spark 3.1中添加了优雅退役概念的新工作,以及我们如何使用它来提高Spark在动态分配和现货/可抢占实例中的性能。我们将一起探讨Spark的动态分配是如何随着时间的推移而演变的,以及为什么需要进行不同的更改。我们还将介绍多家公司的合作,从而能够交付这个功能,最后我将鼓励大家如何更多地参与Spark的开发。

    在本节中请注意:
    Holden Karau,苹果公司软件工程师

    (daisna21-sessions-od)

    2020年峰会 开始为Apache Spark做贡献-从PR, CR, JIRA和超越SAIS NA

    2020年6月23日下午05:00 PT

    随着社区不断地准备Apache Spark的下一个版本,你可能会问自己“我该如何参与其中?”或者“我如何确保我的声音被听到?”面对如此大量的贡献,你可能很难知道如何开始自己的贡献。Holden Karau提供了一个以开发人员为中心的开端,引导您通过如何找到好的问题,格式化代码,寻找审查人员,以及在代码审查过程中期望什么。除了了解如何贡献代码,我们还探索了其他一些你可以为Apache Spark贡献代码的方式,从帮助测试发布候选,到做所有重要的代码审查,错误分类,以及更多(比如回答问题)。

    2019年欧洲峰会 开始为Apache Spark做出贡献-从PR, CR, JIRA和超越SAIS EU

    2019年10月15日下午05:00 PT

    随着社区正在为Apache Spark的下一个版本做准备,你可能会问自己“我该如何参与其中?”面对如此大量的贡献,你可能很难知道如何开始自己的贡献。Holden Karau提供了一个以开发人员为中心的开端,引导您通过如何找到好的问题,格式化代码,寻找审查人员,以及在代码审查过程中期望什么。除了了解如何贡献代码,我们还探索了其他一些你可以为Apache Spark贡献代码的方式,从帮助测试发布候选,到做所有重要的代码审查,错误分类,以及更多(比如回答问题)。

    2019年欧洲峰会 将Apache Spark ML作业迁移到Kubeflow上的Spark + Tensorflow

    2019年10月15日下午05:00 PT

    本次演讲将采用两个现有的Spark ML管道(Frank The Unicorn,用于预测PR评论(Scala) - https://github.com/franktheunicorn/predict-pr-comments & Spark ML on Spark Errors (Python)),并探讨将其迁移到Spark和Tensorflow的组合所涉及的步骤。使用开源的Kubefbob下载地址low项目(现在有Spark 0.5的支持),我们将创建两个集成的端到端管道来探索所涉及的挑战,并查看需要改进的领域(例如Apache Arrow等)。

    2019年峰会 验证Spark ML作业—在Apache Spark上生产前停止失败

    2019年4月23日下午05:00 PT

    随着大数据工作从概念验证阶段转向为实际生产服务提供动力,我们必须开始考虑当一切最终出错时会发生什么(比如推荐不合适的产品或根据不良数据做出的其他决定)。这次演讲将试图说服你,我们最终都将走上失败的船(特别是约40%的受访者自动将他们的Spark工作结果部署到生产环境中),自动识别出问题的时候很重要,这样我们就可以在更新简历之前停止部署。弄清楚什么时候出现了严重的错误比它最初看起来要棘手,因为我们希望在用户注意到它们之前捕捉到错误(或者在CNN注意到它们之前捕捉不到错误)。

    我们将探索验证的一般技术,看看人们在生产环境中验证大数据作业的反应,以及可以帮助我们根据历史数据编写相关验证规则的库。对于在流媒体工作的人,我们将讨论尝试在实时系统中验证的独特挑战,以及除了在文件中保存最新的简历以备出现问题外,我们还可以做些什么。为了保持谈话的趣味性,将展示真实世界的例子(去掉公司名称),以及几张创意通用的授权猫图片和一张可爱的熊猫动图。

    如果你已经看过Holden之前关于Spark测试的演讲,那么这篇演讲可以看作是对后半部分内容的深入探讨,重点是除了良好的测试实践之外,我们还需要做些什么来创建高质量的生产管道。如果您观看了Holden之前的验证演讲,请来看看作为管道一部分使用的更新示例作业。如果你还没看过测试讲座的话来YouTube上看看吧。

    2018欧洲峰会 验证大数据作业—在Apache Spark上生产前停止失败

    太平洋时间2018年10月2日下午05:00

    随着大数据工作从概念验证阶段转向为实际生产服务提供动力,我们必须开始考虑当一切最终出错时会发生什么(比如推荐不合适的产品或根据不良数据做出的其他决定)。这次演讲将试图说服你,我们最终都将走上失败的船(特别是约40%的受访者自动将他们的Spark工作结果部署到生产环境中),自动识别出问题的时候很重要,这样我们就可以在更新简历之前停止部署。

    弄清楚什么时候出现了严重的错误比它最初看起来要棘手,因为我们希望在用户注意到它们之前捕捉到错误(或者在CNN注意到它们之前捕捉不到错误)。我们将探索验证的一般技术,看看人们在生产环境中验证大数据作业的反应,以及可以帮助我们根据历史数据编写相关验证规则的库。

    对于在流媒体工作的人,我们将讨论尝试在实时系统中验证的独特挑战,以及除了在文件中保存最新的简历以备出现问题外,我们还可以做些什么。为了保持谈话的趣味性,将展示真实世界的例子(去掉公司名称),以及几张创意通用的授权猫图片和一张可爱的熊猫动图。

    如果你已经看过Holden之前关于Spark测试的演讲,那么这篇演讲可以看作是对后半部分内容的深入探讨,重点是除了良好的测试实践之外,我们还需要做些什么来创建高质量的生产管道。如果你还没看过测试演讲,来YouTube上看看这个吧:)

    会话标签:#SAISDD4

    2018欧洲峰会 在Spark错误上使用Spark ML -集群告诉我们什么?

    太平洋时间2018年10月3日下午05:00

    如果你订阅了(电子邮件保护),或在大公司工作时,您可能会看到一些常见的Spark错误消息。在过去的几年里,即使参加Spark峰会,你也会看到类似“Spark中的K大错误”这样的演讲。虽然有很酷的基于非机器学习的工具来检查Spark的日志,但它们不使用机器学习,因此没有那么酷,而且还受到人类为它们编写规则所付出的努力的限制。本演讲将介绍在堆栈跟踪上训练“常规”聚类模型时会发生什么,并探索将用户消息分类到Spark列表的DL模型。来这里是为了确认机器人还不能自我修复,留下来学习如何在机器人朋友的帮助下更好地工作。这次演讲的tl;dr是Spark输出上的Spark ML,加上一点Tensorflow,对整个家庭来说都很有趣,但可能还不应该自动响应用户列表帖子。

    会议标签:#SAISML10

    Apache Arrow是Spark 2.3中的新功能,提供了Spark和Python之间更快的交换。Apache Arrow也有与Tensorflow的连接(即使没有这些连接也可以从Pandas中获得)。本次演讲将介绍如何使用Arrow加速从Spark到Tensorflow的数据复制,以及如何在Scala中公开与Tensorflow一起工作的基本功能。从那里,我们将深入研究如何在Python中构建新的深度学习ML管道阶段,并使它们可供我们在Scala领域的朋友使用。

    会话标签:#DL7SAIS

    通过向量化udf, PySpark在Spark 2.3中变得更棒了,还有更多精彩的东西即将出现(目前可用为WIP包)。本讲座将从演示如何使用PySpark的新向量化udf来制作ML管道阶段开始。由于我们大多数人使用Python的部分原因是它出色的库,如pandas、numpy和antigravity*,因此能够确保我们的依赖项在集群上可用是很重要的。如果在接近结尾的时候还有时间,我们将讨论如何将你的Python代码公开到Scala,这样每个人都可以使用你的高级深度学习代码(如果你想的话)。*好吧,也许不是一个真正的东西,但插入超级专业的领域特定的库,你使用:)

    会话标签:#Py4SAIS

    2014年峰会 使用弹性搜索和Spark简化搜索索引

    2014年6月29日下午05:00 PT

    每个维护过搜索集群的人都知道保持在线更新代码和离线重新索引管道同步的痛苦。当根据上下文对数据进行不同的索引时,可能会出现微妙的错误。通过使用Spark & Spark Streaming,我们可以在上下文之间重用相同的索引代码,甚至可以通过直接与正确的索引节点对话来减少开销。

    有时我们需要使用搜索数据作为分布式地图减少作业的一部分。我们将演示如何使用弹性搜索作为Spark的侧数据源。

    我们还将使用Twitter firehose在两个实际示例中说明这两个任务。在第一个例子中,我们将在地理空间上下文中索引推文,在第二个例子中,我们将使用相同的索引来确定每个地区的顶级标签。

    霍尔顿Karau