如何并行R代码spark.lapply

学习用spark.lapply并行R码

写由亚当巴夫拉卡

2022年5月20日

R代码并行化难度大,因为R代码运行驱动程序 R数据框架不分布常有R代码本地运行并转换成Apachespark运行在另一些情况下,用于高级统计分析的某些sparkR函数和机器学习技术可能不支持分布式计算sparkRUDFAPI可用于跨集群分配期望的工作量

示例使用实例:您想用相同数据培训多机学习模型,例如超参数调优数据集切合每个工人,使用sparkRUDFAPI即时培训数版模型可能比较有效

上头spark.lapply函数允许多工执行相同任务,对元素列表运行函数单列中的每一元素:

  1. 函数发送工人
  2. 执行函数
  3. 返回所有工人结果列表驱动

下例中支持矢量机模型适配虹膜数据集三重交叉校验,费用从0.5到1乘0.1增量不等输出列表汇总各种费用参数模型

sparkR库spark.lapply(seq(0.5,1x=0.1)函数x{library(e1071)sm模型 <-svm
删除

信息学

所有员工都必须安装打包

文章有帮助吗