sparklyr

砖支持sparklyr在笔记本、作业和RStudio Desktop中。

需求

Databricks在每个运行时发布sparklyr的最新稳定版本。您可以在Databricks R笔记本中使用sparklyr,也可以通过导入已安装的sparklyr版本在Databricks托管的RStudio Server中使用。

在RStudio Desktop中,Databricks Connect允许您从本地机器连接sparklyr到Databricks集群并运行Apache Spark代码。看到使用sparklyr和RStudio Desktop与Databricks连接

连接sparklyr到Databricks集群

要建立sparklyr连接,可以使用“砖”如连接方法中的spark_connect ().没有附加参数spark_connect ()是需要的,也不是召唤spark_install ()因为Spark已经安装在Databricks集群上。

#调用spark_connect()需要先加载sparklyr包。图书馆sparklyr#建立一个闪闪发光的连接。sc<-spark_connect方法“砖”

进度条和Spark UI与sparklyr

如果将sparklyr连接对象分配给名为sc就像上面的例子一样,在每个触发Spark作业的命令之后,您将在笔记本中看到Spark进度条。此外,您还可以单击进度条旁边的链接,查看与指定Spark作业关联的Spark UI。

Sparklyr进展

使用sparklyr

在安装sparklyr并建立连接之后,所有其他sparklyr API都可以正常工作。看到例如笔记本电脑举一些例子。

Sparklyr通常与其他药物一起使用tidyverse包dplyr.为了您的方便,大多数这些软件包都预先安装在Databricks上。您可以简单地导入它们并开始使用API。

同时使用sparklyr和SparkR

SparkR和sparklyr可以在单个笔记本或工作中一起使用。您可以导入SparkR和sparklyr并使用它的功能。在Databricks笔记本中,SparkR连接是预配置的。

SparkR中的一些函数掩盖了dplyr中的一些函数:

>图书馆SparkR对象戴面具的dplyr安排之间的合并收集包含cume_distdense_rankdesc截然不同的解释过滤器第一个group_by相交滞后最后的引领变异nn_distinctntilepercent_rank重命名row_numbersample_frac选择sql总结联盟

如果在导入dplyr之后导入SparkR,则可以使用完全限定名引用dplyr中的函数,例如:dplyr:安排().类似地,如果在SparkR之后导入dplyr, SparkR中的函数将被dplyr屏蔽。

或者,您可以在不需要时选择性地分离这两个包中的一个。

分离“包:dplyr”

另请参阅比较SparkR和sparklyr

在spark-submit作业中使用sparklyr

您可以在Databricks上运行使用sparklyr的脚本作为spark-submit作业,只需对代码进行少量修改。上面的一些说明不适用于在Databricks上的spark-submit作业中使用sparklyr。特别地,您必须将Spark主URL提供给spark_connect.有关示例,请参见为R脚本创建并运行一个spark-submit作业

不支持的功能

Databricks不支持sparklyr方法,如spark_web ()而且spark_log ()需要本地浏览器。但由于Spark UI内置在Databricks上,因此您可以轻松地查看Spark的作业和日志。看到集群驱动和工作日志

Sparklyr笔记本

在新标签页打开笔记本

有关其他示例,请参见使用R中的数据框架和表