在本教程中,我们将介绍Koalas,这是我们在4月份的Spark + AI峰会上宣布的一个新的bob下载地址开源项目。Koalas是一个开源的Python包,它在Apache Spark上实现了pandas API,使pandas API可扩展到大数据。使用Koalas,数据科学家可以从一台机器过渡到分布式环境,而不需要学习新的框架。
我们将展示Koalas自首次发布以来的新功能,讨论它的路线图,以及我们如何认为Koalas可以成为大规模数据科学的标准API。
你将学到:
先决条件:
荷兰银行(ABN AMRO)
蒂姆·亨特(Tim Hunter)是荷兰银行的高级人工智能专家。他是Databricks的早期软件工程师,为Apache Spark MLlib项目做出了贡献,他与人共同创建了Koalas、GraphFrames、TensorFrames和Deep Learning Pipelines库。他拥有加州大学伯克利分校的机器学习博士学位,自Spark 0.0.2版本以来,他一直在使用Spark构建分布式机器学习系统,在Spark成为Apache软件基金会项目之前。
砖
Brooke Wenig是机器学习实践部门的主管。她领导着一个数据科学家团队,为客户开发大规模机器学习管道,并教授关于分布式机器学习最佳实践的课程。她是Learning Spark第二版的合著者,分布式计算与Spark SQL Coursera课程的联合讲师,以及Data Brew播客的联合主持人。她获得加州大学洛杉矶分校计算机科学硕士学位,专注于分布式机器学习。她说一口流利的普通话,喜欢骑自行车。(daisna21-speakers)
砖
Niall Turbitt是Databricks机器学习实践团队的高级数据科学家。他与Databricks客户合作,构建和部署机器学习解决方案,并提供专注于Spark机器学习的培训课程。他拥有都柏林大学学院的统计学硕士学位,之前在从电子商务到供应链和物流等一系列领域构建可扩展的数据科学解决方案方面有经验。