sparklyr

砖支持sparklyr在笔记本、作业和RStudio Desktop中。

需求

Databricks在每个运行时发布sparklyr的最新稳定版本。您可以在Databricks R笔记本中使用sparklyr，也可以通过导入已安装的sparklyr版本在Databricks托管的RStudio Server中使用。

在RStudio Desktop中，Databricks Connect允许您从本地机器连接sparklyr到Databricks集群并运行Apache Spark代码。看到使用sparklyr和RStudio Desktop与Databricks连接．

连接sparklyr到Databricks集群

要建立sparklyr连接，可以使用“砖”如连接方法中的spark_connect ()．没有附加参数spark_connect ()是需要的，也不是召唤spark_install ()因为Spark已经安装在Databricks集群上。

             #调用spark_connect()需要先加载sparklyr包。图书馆（sparklyr）#建立一个闪闪发光的连接。sc<-spark_connect（方法＝“砖”）
            

进度条和Spark UI与sparklyr

如果将sparklyr连接对象分配给名为sc就像上面的例子一样，在每个触发Spark作业的命令之后，您将在笔记本中看到Spark进度条。此外，您还可以单击进度条旁边的链接，查看与指定Spark作业关联的Spark UI。

使用sparklyr

在安装sparklyr并建立连接之后，所有其他sparklyr API都可以正常工作。看到例如笔记本电脑举一些例子。

Sparklyr通常与其他药物一起使用tidyverse包如dplyr．为了您的方便，大多数这些软件包都预先安装在Databricks上。您可以简单地导入它们并开始使用API。

同时使用sparklyr和SparkR

SparkR和sparklyr可以在单个笔记本或工作中一起使用。您可以导入SparkR和sparklyr并使用它的功能。在Databricks笔记本中，SparkR连接是预配置的。

SparkR中的一些函数掩盖了dplyr中的一些函数:

             >图书馆（SparkR）的后对象是戴面具的从”包：dplyr”：安排，之间的，合并，收集，包含，数，cume_dist，dense_rank，desc，截然不同的，解释，过滤器，第一个，group_by，相交，滞后，最后的，引领，变异，n，n_distinct，ntile，percent_rank，重命名，row_number，sample_frac，选择，sql，总结，联盟
            

如果在导入dplyr之后导入SparkR，则可以使用完全限定名引用dplyr中的函数，例如:dplyr:安排()．类似地，如果在SparkR之后导入dplyr, SparkR中的函数将被dplyr屏蔽。

或者，您可以在不需要时选择性地分离这两个包中的一个。

             分离（“包:dplyr”）
            

另请参阅比较SparkR和sparklyr．

在spark-submit作业中使用sparklyr

您可以在Databricks上运行使用sparklyr的脚本作为spark-submit作业，只需对代码进行少量修改。上面的一些说明不适用于在Databricks上的spark-submit作业中使用sparklyr。特别地，您必须将Spark主URL提供给spark_connect．有关示例，请参见为R脚本创建并运行一个spark-submit作业．

不支持的功能

Databricks不支持sparklyr方法，如spark_web ()而且spark_log ()需要本地浏览器。但由于Spark UI内置在Databricks上，因此您可以轻松地查看Spark的作业和日志。看到集群驱动和工作日志．

Sparklyr笔记本

在新标签页打开笔记本

有关其他示例，请参见使用R中的数据框架和表．