如何加快交叉验证

学习如何提高交叉验证性能SparkML砖。

写的亚当Pavlacka

去年发表在:2022年5月16日

Hyperparameter调优的Apache SparkML模型需要很长时间,这取决于网格的尺寸参数。你可以提高性能的交叉验证步骤SparkML加快速度:

  • 缓存数据之前运行任何特性转换或建模的步骤,包括交叉验证。多次过程参考数据从缓存中获益。记得要调用一个操作DataFrame缓存的效果。
  • 增加内部的并行性参数CrossValidator,并行算法运行时使用的线程数量。默认设置为1。有关更多信息,请参见CrossValidator文档。
  • 不要使用管道内的估计量CrossValidator规范。在某些情况下,featurizers被调谐以及模型,整个管道内运行CrossValidator是有意义的。然而,这种执行整个管道为每个参数组合和褶皱。因此,如果只调整模型,设置模型规范内的估计量CrossValidator
删除

信息

CrossValidator可以设置为featurizers后管道内的最后阶段。最好的模型确定的CrossValidator是输出。


这篇文章有用吗?