使用sparklyr和Microsoft R Server为Spark扩展R API

下载幻灯片

越来越多的数据科学家使用R作为他们的主要语言。尽管SparkR API自1.6版以来已经取得了巨大的进步，尤其是Apache Spark 2.0和2.1，但传统R程序员很难接受Spark生态系统。
在这次会议上，扎伊迪将讨论sparklyr它为Spark提供了一个功能丰富、简洁的数据科学接口，并将展示它如何与Microsoft R Server结合，并扩展其底层API，从而成为Spark的一等公民。了解从单线程、内存绑定的R函数到多线程、多节点、内存不足的应用程序是多么容易，这些应用程序可以部署在分布式集群环境中，只需进行最少的代码更改。通过查看完全通过R和Spark进行违约风险分类和预测的真实案例研究，您还将获得再现性和性能方面的最佳实践。

会议标签:#SFeco1

«回来

关于阿里·扎伊迪

阿里是微软人工智能研究院语言理解团队的数据科学家。他每天都在尝试为研究人员和工程师制作工具，以便在云和集群上有效地分析大量语言数据。阿里在多伦多大学和斯坦福大学学习统计学和机器学习。