Takuya Ueshin

数据库软件工程师

    Takuya Ueshin是Databricks的软件工程师,Apache Spark提交者和PMC成员。他的主要兴趣是Spark SQL内部,也就是Catalyst,以及PySpark。他是考拉项目的主要贡献者之一。

    过去的会议

    2021年峰会 考拉:考拉的工作效果如何?

    2021年5月26日04:25 PM PT

    Koalas是一个开源项目bob下载地址,它在Apache Spark上提供pandas api。Pandas是数据科学的标准工具,通常是探索和操作数据集的第一步,但Pandas不能很好地扩展到大数据。考拉通过为熊猫提供在Apache Spark上运行的等效api来填补这一空白。

    还有许多库试图扩展pandas api,例如Vaex、Modin等等。Dask就是其中之一,在pandas用户中很受欢迎,它也可以在自己的集群上工作,类似于Koalas,它位于Spark集群之上。在这次演讲中,我们将介绍考拉和它的现状,以及考拉和Dask的比较,包括基准测试。

    在本节中请注意:
    Takuya Ueshin,软件工程师,数据库
    Xinrong孟,开发员,Databricks

    (daisna21-sessions-od)

    2020年欧洲峰会 考拉:考拉和Apache Spark之间的互操作性

    太平洋时间2020年11月18日下午04:00

    Koalas是一个开源项目bob下载地址,它在Apache Spark上提供pandas api。pandas是数据科学家常用的Python包,但它不能以分布式方式向外扩展。考拉通过为熊猫提供在Apache Spark上运行的等效api来填补这一空白。考拉不仅对熊猫用户有用,对PySpark用户也有用。例如,PySpark用户可以通过Koalas绘图api(如plot)直接从PySpark DataFrame中可视化他们的数据。此外,Koalas用户可以利用PySpark特定的api,如高阶函数和丰富的SQL api集。在本次演讲中,我们将重点介绍PySpark方面以及PySpark和Koalas之间的交互,以便PySpark用户在Koalas中利用他们对Apache Spark的了解。

    发言人:Takuya Ueshin和Haejoon Lee

    2020年峰会 考拉:从熊猫到Apache Spark的简单过渡

    2020年6月23日下午05:00 PT

    Koalas是一个开源项目,旨在为数据科学家弥合大数据和小数据之间的差距,并为已经熟悉Python中的pandas库的人简化Apache Spark。Pandas是数据科学的标准工具,通常是探索和操作数据集的第一步,但Pandas不能很好地扩展到大数据。对于Koalas,数据科学家可以使用与pandas相同的api,但可以使用PySpark进行大规模使用。在这次演讲中,我将介绍Koalas及其更新,并展示熊猫和Koalas之间的一些比较,然后深入研究其内部结构以及如何与Spark一起工作。

    2019年欧洲峰会 考拉:从熊猫到Apache Spark的简单过渡

    2019年10月15日下午05:00 PT

    在这次演讲中,我们将介绍Koalas,这是一个新的开源项目,旨在为数据科学家弥合大数据和小数据之间的差距,并为已经熟悉Python中的pandas库的人简化Apache Spark。

    Pandas是python中用于数据科学的标准工具,它通常是数据科学家探索和操作数据集的第一步。问题是熊猫无法很好地适应大数据。它是为单个机器可以处理的小数据集而设计的。

    如今,当数据科学家处理非常大的数据集时,他们要么必须迁移到PySpark来利用Spark,要么降低数据样本,以便使用pandas。本演讲将深入探讨Spark和pandas数据框架之间的转换。

    通过现场演示和代码示例,您将了解:—如何在同一个代码库中有效地利用pandas和Spark—如何利用强大的pandas概念,例如Spark的轻量级索引—统一Spark和pandas的不同行为的技术考虑