Takuya Ueshin

数据库软件工程师

Takuya Ueshin是Databricks的软件工程师，Apache Spark提交者和PMC成员。他的主要兴趣是Spark SQL内部，也就是Catalyst，以及PySpark。他是考拉项目的主要贡献者之一。

过去的会议

2021年峰会考拉:考拉的工作效果如何?

2021年5月26日04:25 PM PT

Koalas是一个开源项目bob下载地址，它在Apache Spark上提供pandas api。Pandas是数据科学的标准工具，通常是探索和操作数据集的第一步，但Pandas不能很好地扩展到大数据。考拉通过为熊猫提供在Apache Spark上运行的等效api来填补这一空白。

还有许多库试图扩展pandas api，例如Vaex、Modin等等。Dask就是其中之一，在pandas用户中很受欢迎，它也可以在自己的集群上工作，类似于Koalas，它位于Spark集群之上。在这次演讲中，我们将介绍考拉和它的现状，以及考拉和Dask的比较，包括基准测试。

在本节中请注意:

Takuya Ueshin，软件工程师，数据库

Xinrong孟，开发员，Databricks

(daisna21-sessions-od)

2020年欧洲峰会考拉:考拉和Apache Spark之间的互操作性

太平洋时间2020年11月18日下午04:00

Koalas是一个开源项目bob下载地址，它在Apache Spark上提供pandas api。pandas是数据科学家常用的Python包，但它不能以分布式方式向外扩展。考拉通过为熊猫提供在Apache Spark上运行的等效api来填补这一空白。考拉不仅对熊猫用户有用，对PySpark用户也有用。例如，PySpark用户可以通过Koalas绘图api(如plot)直接从PySpark DataFrame中可视化他们的数据。此外，Koalas用户可以利用PySpark特定的api，如高阶函数和丰富的SQL api集。在本次演讲中，我们将重点介绍PySpark方面以及PySpark和Koalas之间的交互，以便PySpark用户在Koalas中利用他们对Apache Spark的了解。

发言人:Takuya Ueshin和Haejoon Lee

2020年峰会考拉:从熊猫到Apache Spark的简单过渡

2020年6月23日下午05:00 PT

Koalas是一个开源项目，旨在为数据科学家弥合大数据和小数据之间的差距，并为已经熟悉Python中的pandas库的人简化Apache Spark。Pandas是数据科学的标准工具，通常是探索和操作数据集的第一步，但Pandas不能很好地扩展到大数据。对于Koalas，数据科学家可以使用与pandas相同的api，但可以使用PySpark进行大规模使用。在这次演讲中，我将介绍Koalas及其更新，并展示熊猫和Koalas之间的一些比较，然后深入研究其内部结构以及如何与Spark一起工作。

2019年欧洲峰会考拉:从熊猫到Apache Spark的简单过渡

2019年10月15日下午05:00 PT

在这次演讲中，我们将介绍Koalas，这是一个新的开源项目，旨在为数据科学家弥合大数据和小数据之间的差距，并为已经熟悉Python中的pandas库的人简化Apache Spark。

Pandas是python中用于数据科学的标准工具，它通常是数据科学家探索和操作数据集的第一步。问题是熊猫无法很好地适应大数据。它是为单个机器可以处理的小数据集而设计的。

如今，当数据科学家处理非常大的数据集时，他们要么必须迁移到PySpark来利用Spark，要么降低数据样本，以便使用pandas。本演讲将深入探讨Spark和pandas数据框架之间的转换。

通过现场演示和代码示例，您将了解:—如何在同一个代码库中有效地利用pandas和Spark—如何利用强大的pandas概念，例如Spark的轻量级索引—统一Spark和pandas的不同行为的技术考虑