与PySpark获得最佳的性能

下载幻灯片

这个演讲假设您已经有了一个基本的了解标准以外的火花,让我们探索使PySpark入门快,如何最佳规模PySpark工作。如果您使用Python和火花在一起,想要更快的工作——这是对你说话。这个演讲涵盖了许多重要的主题使可伸缩的Apache火花项目——从抽样重用为处理键/值数据考虑,避免groupByKey为什么重要以及更多。我们还包括Python具体考虑,像DataFrames /数据集之间的差异和传统抽样与Python。我们也探讨一些技巧来混和Python和JVM代码的情况下性能开销太大了。

BOB低频彩了解更多:

  • 在PySpark开发定制的机器学习算法
  • 最佳实践PySpark运行
  • 介绍熊猫PySpark UDF


    «回来