Takuya Ueshin是Databricks的软件工程师,Apache Spark提交者和PMC成员。他的主要兴趣是Spark SQL内部,也就是Catalyst,以及PySpark。他是考拉项目的主要贡献者之一。
Koalas是一个开源项目bob下载地址,它在Apache Spark上提供pandas api。Pandas是数据科学的标准工具,通常是探索和操作数据集的第一步,但Pandas不能很好地扩展到大数据。考拉通过为熊猫提供在Apache Spark上运行的等效api来填补这一空白。
还有许多库试图扩展pandas api,例如Vaex、Modin等等。Dask就是其中之一,在pandas用户中很受欢迎,它也可以在自己的集群上工作,类似于Koalas,它位于Spark集群之上。在这次演讲中,我们将介绍考拉和它的现状,以及考拉和Dask的比较,包括基准测试。
(daisna21-sessions-od)
Koalas是一个开源项目bob下载地址,它在Apache Spark上提供pandas api。pandas是数据科学家常用的Python包,但它不能以分布式方式向外扩展。考拉通过为熊猫提供在Apache Spark上运行的等效api来填补这一空白。考拉不仅对熊猫用户有用,对PySpark用户也有用。例如,PySpark用户可以通过Koalas绘图api(如plot)直接从PySpark DataFrame中可视化他们的数据。此外,Koalas用户可以利用PySpark特定的api,如高阶函数和丰富的SQL api集。在本次演讲中,我们将重点介绍PySpark方面以及PySpark和Koalas之间的交互,以便PySpark用户在Koalas中利用他们对Apache Spark的了解。
发言人:Takuya Ueshin和Haejoon Lee
Koalas是一个开源项目,旨在为数据科学家弥合大数据和小数据之间的差距,并为已经熟悉Python中的pandas库的人简化Apache Spark。Pandas是数据科学的标准工具,通常是探索和操作数据集的第一步,但Pandas不能很好地扩展到大数据。对于Koalas,数据科学家可以使用与pandas相同的api,但可以使用PySpark进行大规模使用。在这次演讲中,我将介绍Koalas及其更新,并展示熊猫和Koalas之间的一些比较,然后深入研究其内部结构以及如何与Spark一起工作。
在这次演讲中,我们将介绍Koalas,这是一个新的开源项目,旨在为数据科学家弥合大数据和小数据之间的差距,并为已经熟悉Python中的pandas库的人简化Apache Spark。
Pandas是python中用于数据科学的标准工具,它通常是数据科学家探索和操作数据集的第一步。问题是熊猫无法很好地适应大数据。它是为单个机器可以处理的小数据集而设计的。
如今,当数据科学家处理非常大的数据集时,他们要么必须迁移到PySpark来利用Spark,要么降低数据样本,以便使用pandas。本演讲将深入探讨Spark和pandas数据框架之间的转换。
通过现场演示和代码示例,您将了解:—如何在同一个代码库中有效地利用pandas和Spark—如何利用强大的pandas概念,例如Spark的轻量级索引—统一Spark和pandas的不同行为的技术考虑