工程的博客

10我使用Apache SparkR之前我想知道的事情

2016年12月28日 工程的博客

分享这篇文章

这篇文章尼尔·杜瓦高级数据科学管理在全球资产管理公司。在这个博客,尼尔使用R和Apache引发股票的经验教训。

如果你知道如何使用R和正在学习Apache火花,那么这个博客和笔记本包含关键技巧可以消除你的路。

在砖试试这个笔记本

随着笔记本解释道:

我是一个R用户。当然不是一个面向对象的程序员,没有分布式计算的经验。随着我的团队开始探索分布式处理大数据的选项,我把任务评估SparkR。太多的探索后,我最终发现失踪的是上下文的建议对于那些已经知道R,帮助他们理解SparkR有什么不同和如何使你的思想适应充分利用它。这是这个博客的目的和笔记本,记录旅途中的“啊哈!”时刻SparkR从R。我希望我的辛苦赚来的发现能帮助你更快到达那里!

笔记本列表10关键部分的知识,与代码片段和解释,为R用户定制。这是简短的列表;检查笔记本学习更BOB低频彩多!

[btn href = " https://databricks-prod-cloudfront.cloud.www.neidfyre.com/public/4027ec902e239c93eaaa8714f173bcfc/8599738367597028/1792412399382575/3601578643761083/latest.html?utm_campaign =打开% 20 source&utm_source =砖% 20的博客“目标= "平等"]把这个笔记本[/ btn]


  1. Apache火花构建块。火花的一个高度概括描述了对R的用户可用。
  2. SparkContext、SQLContext SparkSession。在火花1。x, SparkContext和SQLContext让你访问火花。火花2。x, SparkSession成为主要的方法。
  3. DataFrame或data.frame吗?火花的分布式DataFrame不同于当地data.frame R。知道的差异可以让你避免简单的错误。
  4. 分布式处理101。理解大数据处理的机制帮助你编写高效的区号不是炸毁集群的主节点。
  5. 函数屏蔽。像所有R库,SparkR掩盖了一些功能。
  6. 指定的行。大数据和火花,您通常选择行DataFrames在当地R data.frames不同。
  7. 抽样。样本数据以正确的方式,并使用它作为一个工具,大大小小的数据之间的转换。
  8. 机器学习。SparkR有越来越多的图书馆分布式ML算法。
  9. 可视化大数据,很难想象,但有技巧和工具帮助。
  10. 理解错误消息。对于R用户来说,引发错误消息可能会让人望而生畏。知道如何解析他们帮助你找到相关的部分。
免费试着砖
看到所有工程的博客的帖子