用Spark扩展R程序
摘要
R是一种流行的统计编程语言,具有许多支持数据处理和机器学习任务的扩展。然而,R中的交互式数据分析通常受到限制,因为R运行时是单线程的,只能处理适合单个机器内存的数据集。我们介绍了SparkR,这是一个R包,它为Apache Spark提供了一个前端,并使用Spark的分布式计算引擎从R外壳中实现大规模数据分析。我们描述SparkR的主要设计目标,讨论高级DataFrame API如何实现可伸缩的计算,并介绍我们实现的一些关键细节。
R是一种流行的统计编程语言,具有许多支持数据处理和机器学习任务的扩展。然而,R中的交互式数据分析通常受到限制,因为R运行时是单线程的,只能处理适合单个机器内存的数据集。我们介绍了SparkR,这是一个R包,它为Apache Spark提供了一个前端,并使用Spark的分布式计算引擎从R外壳中实现大规模数据分析。我们描述SparkR的主要设计目标,讨论高级DataFrame API如何实现可伸缩的计算,并介绍我们实现的一些关键细节。