Hyperparameter调优

Databricks Runtime for Machine Learning集成了Hyperopt,这是一个开源工具,可以自动化模bob下载地址型选择和超参数调优的过程。

使用Hyperopt进行超参数调优

Databricks Runtime ML包含Hyperopt,一个Python库,用于促进分布式超参数调优和模型选择。使用Hyperopt,您可以扫描一组Python模型,同时在您定义的空间中改变算法和超参数。Hyperopt既可用于分布式ML算法(如Apache Spark MLlib和Horovod),也可用于单机ML模型(如scikit-learn和TensorFlow)。

使用Hyperopt时的基本步骤是:

  1. 定义一个最小化的目标函数。通常这是训练或验证损失。

  2. 定义超参数搜索空间。Hyperopt提供了一个条件搜索空间,允许您在同一次运行中比较不同的ML算法。

  3. 指定搜索算法。Hyperopt使用随机调整算法,执行比确定性网格搜索更有效的超参数空间搜索。

  4. 运行Hyperopt函数fmin ()fmin ()获取在前面步骤中定义的项,并确定最小化目标函数的超参数集。

要快速开始使用带scikit-learn算法的Hyperopt,请参见:

有关Hyperopt如何工作的更多细节,以及其他示例,请参见:

自动MLflow跟踪

请注意

MLlib自动MLflow跟踪在运行Databricks Runtime 10.1 ML及以上版本的集群上已弃用,在运行Databricks Runtime 10.2 ML及以上版本的集群上默认禁用。相反,使用MLflow PySpark ML自录通过调用mlflow.pyspark.ml.autolog (),默认启用砖Autologging

要在Databricks Runtime 10.2 ML及以上版本中使用旧的MLlib自动MLflow跟踪,请通过设置火花配置spark.databricks.mlflow.trackMLlib.enabled真正的而且spark.databricks.mlflow.autologging.enabled