R和Spark:如何使用RStudio的Sparklyr和H2O的Rsparkling软件包分析数据

下载幻灯片

Sparklyr是一个R包,可以让你在Spark中分析数据,同时使用R中熟悉的工具。Sparklyr支持dplyr的完整后端,dplyr是一个流行的工具,用于在内存和内存外处理数据帧对象。您可以使用dplyr将R代码转换为Spark SQL。Sparklyr还支持MLlib,因此您可以在Spark中对分布式数据运行分类器、回归、聚类、决策树和更多机器学习算法。使用sparklyr,您可以分析大量的数据,这些数据通常不适合放入R内存中。然后,您可以将Spark中的结果收集到R中,以便进一步可视化和文档化。Sparklyr也是可扩展的。您可以创建依赖sparklyr的R包来调用完整的Spark API。扩展的一个例子是H2O的rsparkling,这是一个与H2O的机器学习算法一起工作的R包。使用sparklyr和rsparkling,您可以使用R和Spark分析H2O中的所有工具。

在这个演示中,我将演示如何使用sparklyr和rsparkling在Spark中分析数据。

BOB低频彩了解更多:

  • 在Databricks使用sparklyr
  • 在使用Apache SparkR之前我希望知道的10件事
  • 在数据库上加速工作流程


    «回来
  • 关于Nathan Stephens

    Nathan Stephens是RStudio的解决方案工程总监。他的背景是应用分析和咨询。他拥有组建数据科学团队、创建创新数据产品、分析大数据和构建分析平台的经验。bob体育客户端下载他是R的早期采用者,并将其引入了许多组织。