使用sparklyr和Microsoft R Server为Spark扩展R API

下载幻灯片

越来越多的数据科学家使用R作为他们的主要语言。尽管SparkR API自1.6版以来已经取得了巨大的进步,尤其是Apache Spark 2.0和2.1,但传统R程序员很难接受Spark生态系统。
在这次会议上,扎伊迪将讨论sparklyr它为Spark提供了一个功能丰富、简洁的数据科学接口,并将展示它如何与Microsoft R Server结合,并扩展其底层API,从而成为Spark的一等公民。了解从单线程、内存绑定的R函数到多线程、多节点、内存不足的应用程序是多么容易,这些应用程序可以部署在分布式集群环境中,只需进行最少的代码更改。通过查看完全通过R和Spark进行违约风险分类和预测的真实案例研究,您还将获得再现性和性能方面的最佳实践。

会议标签:#SFeco1



«回来
关于阿里·扎伊迪

阿里是微软人工智能研究院语言理解团队的数据科学家。他每天都在尝试为研究人员和工程师制作工具,以便在云和集群上有效地分析大量语言数据。阿里在多伦多大学和斯坦福大学学习统计学和机器学习。