Hyukjin Kwon

软件工程师,砖

Hyukjin砖软件工程师,Apache火花PMC成员提交者,工作在许多不同的领域在Apache PySpark等火花,火花SQL, SparkR等。他还考拉最大的贡献者之一。他主要关注发展、帮助讨论和回顾许多特性和Apache火花和考拉的变化。

过去的会议

2021年峰会在PySpark项目禅:简化数据科学

2021年5月27日下午03:15 PT吗

PySpark用户的数量急剧增加,Python已经成为最常用的语言之一在科学数据。为了迎合越来越多的Python用户和提高Python可用性在Apache火花,Apache火花发起项目禅宗“Python的禅”命名定义Python的原则。

项目禅宗开始用新设计的熊猫udf和函数与Python api类型提示在Apache 3.0火花。引发社会之后,介绍了众多改进作为项目的一部分,禅宗在Apache 3.1和即将到来的Apache 3.2火花,火花包括:

Python类型提示
新文档
Conda venv, PEX
docstring numpydoc
熊猫api在火花
可视化

在这次演讲中,我们将提出的改进和功能项目禅宗与示范展示项目禅宗使数据科学更容易提高可用性。

在这个会话表:

Hyukjin Kwon,软件工程师,砖

Haejoon李,软件工程师,砖

(daisna21-sessions-od)

峰会的欧洲2020 为Python用户项目禅:改善Apache火花

2020年11月18日下午内PT

随着Apache火花,PySpark用户的数量迅速增长,PySpark用户的数量几乎跳起来去年的三倍。Python编程语言本身成为最常用的语言之一在科学数据。

有了这个动力,激发社区开始更加关注Python和PySpark,和在一个倡议我们命名项目禅宗,禅宗的名字命名的Python定义Python本身的原则。

在Apache 3.0火花,重新设计的熊猫UDF和改进错误消息介绍了UDF作为这项工作的一部分。在即将到来的Apache 3.1火花,也有许多值得注意的改进作为项目的一部分,禅宗PySpark更多的神谕的和友好的。

在这个演讲,它将引入改进,功能和项目禅宗的路线图,包括:

重新设计PySpark文档
PySpark类型提示
JDK,蜂巢和Hadoop分布为PyPI用户选项
标准化的警告和异常
可视化

演讲者:Hyukjin Kwon

2020年峰会熊猫UDF和Python类型提示在Apache 3.0火花

2020年6月23日凌晨5点PT

在过去的几年里,熊猫udf也许是最重要的变化为Python数据科学Apache火花。然而,这些功能有机进化,从而导致用户之间的一些矛盾和困惑。在Apache 3.0火花,熊猫udf是重新设计利用类型提示。通过使用Python类型提示,可以自然地表达熊猫udf无需评估等类型。同时,熊猫UDF现在更多的“神谕的”,让自己定义UDF应该清晰定义的输入和输出。此外,它允许很多好处比如简单的静态分析。在这次演讲中,我将介绍重新设计的熊猫udf提示在Apache 3.0火花型技术概述。

峰会的欧洲2019 矢量R执行在Apache火花

2019年10月15日凌晨5点PT

Apache火花已经向量化优化在许多操作,例如,内部的柱状格式,拼花/兽人矢量化阅读,熊猫udf等。向量化大大提高了性能。在这个讨论,将讨论SparkR和向量化的性能方面SparkR将引入的技术细节。SparkR向量化允许用户使用现有的代码,但提高性能大约几千快执行R本机函数或转换时火花DataFrame从R DataFrame /。