跟踪机器学习培训

MLflow跟踪组件允许您日志源属性,参数,规格,标签,和工件相关培训机器学习模型。与MLflow开始,尝试之一MLflow快速入门教程

MLflow跟踪实验和运行

MLflow跟踪是基于两个概念,实验运行:

  • 一个MLflow实验是组织和访问控制的主要单位MLflow运行;所有MLflow运行属于一个实验。实验让你想象,寻找和比较,以及下载运行工件和元数据在其他工具进行分析。

  • 一个MLflow运行对应于一个单一的模型代码的执行。

MLflow跟踪API日志参数、指标、标签和工件从一个模型运行。跟踪API与MLflow进行通信跟踪服务器。当你使用砖,Databricks-hosted跟踪服务器日志数据。托管MLflow跟踪服务器Python, Java,和R api。

学习如何控制实验中,访问MLflow实验权限改变权限的实验

请注意

MLflow砖上安装运行时毫升集群。使用MLflow砖集群运行时,您必须安装mlflow图书馆。说明安装库到集群中,看到的安装一个图书馆集群上。MLflow的特定包安装:

  • 对于Python,选择库源PyPI并输入mlflow字段。

  • 对于R,选择库源凹口,进入mlflow字段。

  • 在Scala中,安装这两个包:

    • 选择库源Maven和输入org.mlflow: mlflow-client: 1.11.0坐标字段。

    • 选择库源PyPI并输入mlflow字段。

MLflow运行在哪里登录

MLflow运行都记录到活性实验中,可以设置使用下列方法:

如果没有积极的实验设置,登录到运行笔记本的实验

记录实验结果远程托管的MLflow跟踪服务器在另一个工作区你运行实验,设置跟踪URI引用远程工作空间mlflow.set_tracking_uri (),将路径设置为远程实验工作区使用mlflow.set_experiment ()

mlflowset_tracking_uri(<uri- - - - - -- - - - - -远程- - - - - -工作空间>)mlflowset_experiment(“远程实验工作区之路”)

日志的例子笔记本

这个笔记本显示如何日志运行一个笔记本实验和工作空间实验。只有MLflow运行启动笔记本可以记录到笔记本中实验。MLflow运行发射的任何笔记本或api可以记录到工作空间实验。查看运行记录的信息,看到查看笔记本的实验视图空间实验

运行日志MLflow笔记本

在新标签页打开笔记本

您可以使用Python MLflow、Java或Scala和R api开始运行并记录运行数据。详情,请参阅MLflow快速入门的笔记本

从外部访问MLflow跟踪服务器数据砖

你也可以写和读从跟踪服务器以外的砖,例如使用MLflow CLI。

分析MLflow通过编程的方式运行

您可以访问MLflow运行数据两个DataFrame api以编程方式使用以下:

这个例子演示了如何使用MLflow Python客户机构建一个仪表板,可视化评价指标的变化随着时间的推移,追踪运行由一个特定用户的数量,和措施运行在所有用户的总数:

为什么模型训练指标和输出可能会有所不同吗

许多ML算法的一个随机元素,如抽样或随机初始条件算法本身。当你训练一个模型使用这些算法之一,每次运行的结果可能不是相同的,即使你开始运行相同的条件。许多图书馆提供播种机制来解决这些随机的初始条件的元素。然而,可能会有其他的变化不是由种子来源。一些算法敏感数据的顺序,和分布式ML算法也可能受到如何分区数据的影响。一般这种变化不重要和不重要的开发过程模型。

控制变化造成的差异分类和分区,使用PySpark功能重新分区sortWithinPartitions

MLflow跟踪例子

以下笔记本演示如何训练几种类型的模型的训练数据和跟踪MLflow以及如何跟踪数据存储在三角洲湖。