考拉

重要的

这个文档已经退休了,可能不会被更新。产品、服务或技术中提到的这些内容不再支持。看到熊猫API火花

请注意

考拉是弃用。如果你尝试运行的集群上使用考拉砖运行时的10.0(不支持)以上,将显示一个信息消息,建议你使用熊猫API火花代替。

考拉提供了一个替代熊猫。常用数据科学家,熊猫是一个Python包,它提供了简单易用的数据结构和数据分析工具的Python编程语言。但是,大熊猫不规模大数据。熊猫考拉填补这一差距,提供相同的api, Apache火花。考拉是有用不仅为熊猫用户还PySpark用户,因为考拉支持许多困难的任务与PySpark,例如绘制数据直接从PySpark DataFrame。

需求

  • 考拉是包括集群运行砖运行时7.3到9.1。为集群运行砖运行时10.0及以上,使用熊猫API火花代替。

  • 使用考拉集群上运行砖或低于7.0运行时,安装考拉砖PyPI图书馆

  • 在IDE中使用考拉、笔记本电脑服务器或其他自定义应用程序连接到一个砖集群,安装砖连接并遵循考拉安装说明

笔记本

以下笔记本显示了如何从熊猫迁移到考拉。

熊猫,考拉的笔记本

在新标签页打开笔记本