研究

用Spark扩展R程序

作者:Shivaram Venkataraman,杨宗恒,Davies Liu, Eric Liang, Hossein Falaki, Xiangrui孟,Reynold Xin, Ali Ghodsi, Michael Franklin, Ion Stoica, Matei Zaharia

下载论文

摘要

R是一种流行的统计编程语言,具有许多支持数据处理和机器学习任务的扩展。然而,R中的交互式数据分析通常受到限制,因为R运行时是单线程的,只能处理适合单个机器内存的数据集。我们介绍了SparkR,这是一个R包,它为Apache Spark提供了一个前端,并使用Spark的分布式计算引擎从R外壳中实现大规模数据分析。我们描述SparkR的主要设计目标,讨论高级DataFrame API如何实现可伸缩的计算,并介绍我们实现的一些关键细节。

相关内容

作者:Matei Zaharia, Reynold S. Xin, Patrick Wendell, Tathagata Das, Michael Armbrust, Ankur Dave, Xiangrui孟,Josh Rosen, Shivaram Venkataraman, Michael J. Franklin, Ali Ghodsi, Joseph Gonzalez, Scott Shenker, Ion Stoica

作者:Matei Zaharia, Tathagata Das, Li Haoyuan, Timothy Hunter, Scott Shenker, Ion Stoica

作者:Ankur Dave, Alekh Jindal, Li Erran Li, reynolds Xin, Joseph Gonzalez, Matei Zaharia

作者:约瑟夫·e·冈萨雷斯,雷诺兹·s·辛,安库尔·戴夫,丹尼尔·克兰肖,迈克尔·j·富兰克林,Ion Stoica

作者:Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, Ankur Dave, Justin Ma, Murphy McCauley, Michael J. Franklin, Scott Shenker, Ion Stoica