砖R的开发人员

本节提供了一个指导发展的笔记本,在砖使用R语言的工作。

开始的基本工作流程是:

  1. 导入代码:从文件中导入您自己的代码或者Git回购或试一试下面列出的教程。砖建议使用交互式学习砖笔记本。

  2. 一个集群上运行您的代码:要么自己创建一个集群,或者确保你有权限使用一个共享的集群。附上你的笔记本到集群,并运行笔记本。

除此之外,可以拓展到更具体的主题:

教程

下面的教程提供了示例代码和笔记本学习常见的工作流。看到导入一个笔记本笔记本的例子说明导入到您的工作区。

参考

以下部分列出关键特性和技巧来帮助你开始开发与R砖。

砖支持两种api提供一个R接口Apache火花:SparkRsparklyr

SparkR

这些文章提供介绍和参考SparkR。SparkR R是一个Apache火花,它提供了一个分布式数据接口框架实现。SparkR支持操作,比如选择、过滤和聚合(类似于R数据帧),但在大型数据集。

sparklyr

本文提供了一个介绍sparklyr。sparklyr R界面类似于Apache火花提供了功能dplyr,扫帚,DBI

比较SparkR和sparklyr

本文解释了关键SparkR和sparklyr之间的异同。

SparkR和sparklyr DataFrames和工作表

本文描述了如何使用R, SparkR sparklyr,和dplyr与R data.frames, DataFrames火花,火花在砖表。

管理代码与笔记本和砖回购

笔记本电脑支持r .这些笔记本提供Jupyter的功能相似,但随着添加如内置使用大数据可视化,Apache火花集成调试和性能监控、机器学习和MLflow集成跟踪实验。开始的导入一个笔记本。一旦你获得一个集群,你可以附加一个笔记本集群和运行笔记本

回购允许用户同步笔记本和其他文件和Git存储库。砖回购有助于代码版本控制和协作,它可以简化代码的完整存储库导入数据砖,查看过去的笔记本版本,与IDE集成开发。开始的克隆一个偏远的Git存储库。您可以打开或创建笔记本存储库的克隆,把笔记本一个集群,运行笔记本

集群

集群提供计算管理为单节点和大型集群。您可以自定义集群硬件和库根据您的需要。通过数据科学家通常会开始工作创建一个集群或使用现有的共享的集群。一旦你获得一个集群,你可以附加一个笔记本集群或运行工作在集群上。

单节点和分布式R

砖集群由一个Apache的火花司机节点和零个或更多的火花工人(也称为遗嘱执行人)节点。司机节点维护连接笔记本状态,维护SparkContext,笔记本和库命令进行解释,并引发主坐标与火花执行人。工作者节点运行火花执行人,一个火花人均执行器节点。

一个单独的节点集群节点有一个司机,没有工人节点,与火花在本地模式下运行支持访问表由砖。单节点集群支持RStudio、笔记本、图书馆DBFS和R项目是有用的,不依赖于火花大数据或并行处理。看到单节点集群

数据大小,R斗争过程(许多g或pb),你应该使用多个节点或分布式集群。分布式集群有一个司机节点和一个或多个工作节点。分布式集群支持不仅RStudio,笔记本,图书馆,和DBFS,但R包SparkR和sparklyr等都是独特设计的分布式集群通过使用SparkContext。这些包提供熟悉的SQL和DataFrame api,使分配和运行各种火花在工作节点上并行任务和命令。了解更BOB低频彩多关于sparklyr SparkR,明白了比较SparkR和sparklyr

一些SparkR和sparklyr功能特定的利用分配相关工作的工人节点包括以下:

  • sparklyr: spark_applyR:运行任意代码在一个集群规模。使用功能,这是特别有用的是只有在R, R或包不可以在Apache火花和其他引发包。

  • SparkR::有斑纹的:指定的函数适用于每个分区SparkDataFrame

  • SparkR: dapplyCollect:指定的函数适用于每个分区SparkDataFrame并收集结果返回给R作为data.frame

  • SparkR:新闻出版总署:组SparkDataFrame通过使用指定的列和指定R函数适用于每组。

  • SparkR: gapplyCollect:组SparkDataFrame通过使用指定的列,指定R函数适用于每个小组,收集回R作为结果data.frame

  • SparkR: spark.lapply:运行指定的函数的列表元素,分布计算与火花。

有关示例,请参见笔记本在火花分布式R:用户定义的函数

使用砖砖集群运行时,它提供了开箱即用的许多流行的库,包括Apache火花,三角洲湖等等。你也可以安装其他第三方或自定义R包进入图书馆使用笔记本电脑和工作。

从默认的图书馆砖运行时。使用介绍砖运行时机器学习对机器学习的工作负载。预先安装的库的完整列表,请参阅“R库安装”部分为目标数据砖运行时砖的运行时版本

您可以定制您的环境使用Notebook-scoped R库,它允许您修改您的笔记本电脑或工作环境库从凹口或其他存储库。要做到这一点,您可以使用熟悉的install.packages函数跑龙套。下面的示例安装箭头R包从默认的凹口库:

install.packages(“箭头”)

如果你需要一个旧版本比砖中运行时,您可以使用一个笔记本install_version函数devtools。下面的示例安装dplyr从凹口0.7.4版本:

需要(devtools)install_version(=“dplyr”,版本=“0.7.4”,回购=“http://cran.r-project.org”)

包安装这种方式可以在一个集群。作用域的用户安装他们。这使您可以安装多个版本的相同的包在同一个计算不创建包冲突。

你可以安装其他的库集群库根据需要,例如从凹口。为此,在集群的用户界面,点击库>安装新的>凹口并指定库的名字。这种方法尤其重要,当你想使用SparkR或sparklyr调用用户定义函数。

更多细节,请参阅

安装一个定制包为一个库:

  1. 从命令行构建自己的定制包或通过使用RStudio

  2. 使用砖CLI(遗留)定制包复制文件从您的开发机器到DBFS为你的砖工作区。

    例如:

    砖fs cp /地方/道路/ /包/ <定制包> . tar。广州dbfs: / / /沥青/文件/路径

    前面的例子适用于砖CLI 0.200及以上版本。

  3. 通过运行定制包安装到一个图书馆install.packages

    例如,从一个笔记本在工作区:

    install.packages(包裹=“/ dbfs /道路/ /沥青/文件/ <定制包> gz”,类型=“源”,回购=)

    或者:

    % sh R CMD / dbfs /道路/安装/沥青/文件/ <定制包> gz

当你安装一个自定义的包进入图书馆DBFS,您可以添加的库搜索路径,然后用一个命令加载库。

例如:

#库添加到搜索路径。.libPaths(c(“/ dbfs /道路/ /沥青/文件/”,.libPaths()))#加载库。您不需要将库添加到搜索路径。图书馆(<自定义- - - - - ->)

安装一个自定义的包作为一个图书馆每一个节点在一个集群中,您必须使用init脚本是什么?

可视化

砖R的笔记本支持各种类型的可视化使用显示函数。

工作

你可以自动化R如期工作负载或引发了笔记本创建和运行数据砖的工作在砖。

机器学习

砖支持多种机器学习(ML)工作负载,包括传统ML表格数据,深度学习计算机视觉和自然语言处理,推荐系统中,图形分析等等。关于机器学习的一般信息在砖上,看到的介绍砖机器学习

对于ML算法,您可以使用预先安装的库中介绍砖运行时机器学习。你也可以安装自定义库

对机器学习操作(MLOps),砖提供了一个开源库MLflow托管服务。bob下载地址MLflow跟踪让您记录模型开发和保存模型可重用的格式;的MLflow模型注册允许您管理和自动化模型对生产的促进;和工作模型服务,允许托管模型作为批处理和流媒体工作REST端点。的更多信息和示例,请参见MLflow指南或者是MLflow R API文档

R开发工具

除了砖笔记本外,您还可以使用以下R开发工具:

R会话定制

在砖运行时的12.0及以上,R会话可以定制使用全站配置文件(.Rprofile)文件。笔记本将源文件作为R在启动代码。修改文件,找到的价值R_HOME和修改美元R_HOME / etc / Rprofile.site。注意,砖增加了配置文件,以确保适当的托管功能RStudio砖上。移除任何可能导致RStudio不像预期的那样工作。

在砖运行时11.3及以下,这种行为可以通过设置环境变量DATABRICKS_ENABLE_RPROFILE = true

额外的资源