R代码并行化难度大,因为R代码运行驱动程序 R数据框架不分布常有R代码本地运行并转换成Apachespark运行在另一些情况下,用于高级统计分析的某些sparkR函数和机器学习技术可能不支持分布式计算sparkRUDFAPI可用于跨集群分配期望的工作量
示例使用实例:您想用相同数据培训多机学习模型,例如超参数调优数据集切合每个工人,使用sparkRUDFAPI即时培训数版模型可能比较有效
上头spark.lapply函数允许多工执行相同任务,对元素列表运行函数单列中的每一元素:
- 函数发送工人
- 执行函数
- 返回所有工人结果列表驱动
下例中支持矢量机模型适配虹膜数据集三重交叉校验,费用从0.5到1乘0.1增量不等输出列表汇总各种费用参数模型
sparkR库spark.lapply(seq(0.5,1x=0.1)函数x{library(e1071)sm模型 <-svm