Sparklyr

回到术语表

Sparklyr是什么?

Sparklyr之间提供了一个接口是一个开源包R和Apache火花。您现在可以利用R火花的能力在现代环境中,由于火花与分布式数据交互的能力几乎没有延迟。Sparklyr是一种有效的工具在交互式环境中与大型数据集。这样你可以受益于熟悉的工具在火花R为了分析数据。,给你最好的两个世界。Sparklyr通过Sparklyr可以使用火花作为dplyr后端,一个受欢迎的数据操作方案。Sparklyr提供了一系列功能,允许我们访问火花的工具转换/预处理数据,最重要的是,它还提供了接口火花的分布式机器学习算法等等。Sparklyr也是可扩展的。R包取决于Sparklyr调用API可以创建完整的火花。这样的一个扩展是H2O Rsparkling, R包兼容H2O的机器学习算法。

Sparklyr的主要亮点:

  • 用户可以交互地使用dplyr以及SQL操作引发数据(通过DBI)。
  • 火花数据集可以过滤和聚合然后带进R)进行分析。
  • 你将能够协调分布式机器学习从R使用火花MLlib或水SparkingWater。
  • Sparklyr用户可以生成扩展API调用完整的火花引发包并提供接口。
  • Sparklyr工具提供了一个详尽的dplyr端有用在数据操作的情况下,分析和可视化
  • 将数据加载到不同位置的火花DataFrames如当地R数据帧,蜂巢表、CSV、JSON和拼花文件。
  • Sparklyr能够连接到本地火花的实例以及远程火花集群

额外的资源


回到术语表