Sparklyr

回到术语表

什么是Sparklyr?

Sparklyr是一个开源包,提供R和Apache Spark之间的接口。现在,您可以在现代R环境中利用Spark的功能,因为Spark能够以很小的延迟与分布式数据进行交互。Sparklyr是在交互环境中与大型数据集进行交互的有效工具。这样你就可以从R中熟悉的工具中受益,从而在Spark中分析数据。,让你两全其美。Sparklyr通过Sparklyr,您可以使用Spark作为dplyr的后端,dplyr是一个流行的数据操作包。Sparklyr提供了一系列功能,允许我们访问Spark工具来转换/预处理数据,除此之外,它还提供了Spark分布式机器学习算法的接口等等。Sparklyr也是可扩展的。可以创建依赖Sparklyr调用完整Spark API的R包。其中一个扩展就是H2O的Rsparkling,这是一个与H2O的机器学习算法兼容的R包。

Sparklyr的主要亮点:

  • 用户可以使用dplyr和SQL(通过DBI)交互操作Spark数据。
  • Spark数据集可以过滤和聚合,然后带入R中进行分析。
  • 您将能够使用Spark MLlib或H2O SparkingWater从R编排分布式机器学习。
  • Sparklyr用户能够生成调用完整Spark API的扩展,并为Spark包提供接口。
  • Sparklyr工具提供了一个详尽的dplyr后端,在数据操作、分析和可视化的情况下非常有用
  • 从本地R数据帧、Hive表、CSV、JSON和Parquet文件等不同位置加载数据到Spark DataFrames中。
  • Sparklyr既可以连接到Spark的本地实例,也可以连接到远程Spark集群

额外的资源


回到术语表