Apache火花MLlib和自动化MLflow跟踪

请注意

MLlib自动化MLflow跟踪集群运行数据砖上弃用运行时10.1毫升以上,它默认是禁用的集群运行砖运行时的10.2毫升以上。相反,使用MLflow PySpark毫升autologging通过调用mlflow.pyspark.ml.autolog (),这是默认启用砖Autologging

在砖使用旧MLlib自动化MLflow跟踪运行时10.2毫升以上,使它通过设置火花配置spark.databricks.mlflow.trackMLlib.enabled真正的spark.databricks.mlflow.autologging.enabled

MLflow是一个开源的bob下载地址平台管理端bob体育客户端下载到端机器学习生命周期。MLflow支持跟踪机器学习模型调优在Python中,R, Scala。对于Python笔记本,砖运行时介绍砖运行时机器学习支持自动化MLflow跟踪对于Apache火花MLlib模型调优。

MLlib自动化MLflow跟踪,当您运行优化代码使用CrossValidatorTrainValidationSplit,自动登录MLflow hyperparameters和评价指标。没有自动MLflow跟踪,你必须显式的API调用日志MLflow。

管理MLflow运行

CrossValidatorTrainValidationSplit日志优化结果嵌套MLflow运行:

  • 主要或父运行:信息CrossValidatorTrainValidationSplit主要的运行记录。如果有一个活跃的已经运行,信息记录到这个积极和主动跑不停止。如果没有积极运行,MLflow创建一个新的运行,日志,运行返回之前结束。

  • 孩子:每个hyperparameter设置测试和相应的评价指标记录到一个孩子的主要运行下运行。

当调用符合(),砖建议积极MLflow运行管理;也就是说,包装的调用符合()在一个“mlflow.start_run ():”声明。这将确保信息记录下自己的MLflow主要运行,并使它更容易记录附加标记,运行参数或指标。

请注意

符合()多次被称为MLflow运行在相同的活跃,多个运行相同的那些日志主要运行。解决名称冲突MLflow参数和标签,MLflow附加一个UUID名称冲突。

下面的Python笔记本演示了自动化MLflow跟踪。

自动化MLflow跟踪笔记本

在新标签页打开笔记本

后执行的操作在过去的细胞在笔记本上,MLflow界面应该显示:

MLlib-MLflow演示