公司博客上

介绍MLflow模型注册表

2019年10月17日 公司博客上

分享这篇文章

在今天的阿姆斯特丹Spark + AI峰会的新组件MLflow Model Registry的可用性MLflow开bob下载地址源ML平台bob体育客户端下载.自从我们在2018年Spark+AI峰会上引入MLflow以来,该项目已经获得了140多名贡献者,每月下载量达80万次PyPI,使MLflow成为机器学习领域增长最快的开源项目之一!bob下载地址

MLflow已经具备了这样的能力跟踪度量、参数和工件作为实验的一部分,包模型和可重复的ML项目,将模型部署到批处理或实时服务平台bob体育客户端下载

MLflow模型注册中心建立在MLflow现有功能的基础上,为组织提供一个共享ML模型的中心场所,协作将模型从实验转移到测试和生产,并实现审批和治理工作流。自从我们开始MLflow以来,模型管理一直是我们的开源用户最需要的特性,所以我们很高兴能推出一个与MLflow直接集成的模型管理系统。bob下载地址

Model Registry为MLflow提供了新的工具,在ML模型的整个生命周期中共享、审查和管理ML模型。

Model Registry为MLflow提供了新的工具,在ML模型的整个生命周期中共享、审查和管理ML模型

利用MLflow模型注册表将良好的工程原理应用于机器学习

许多数据科学和机器学习项目的失败是由于在十多年前软件工程中发现并解决了一些可预防的问题。然而,由于开发代码和训练ML模型之间的关键差异,这些解决方案需要进行调整。

  • 专业知识、代码和数据:随着数据的加入,data Science和ML代码不仅需要处理数据依赖关系,还需要处理统计建模固有的不确定性特征。ML模型在训练两次时不能保证表现相同,这与可以轻松进行单元测试的传统代码不同。
  • 模型工件:除了应用程序代码,ML产品和特性还依赖于训练过程的结果模型。这些模型构件通常很大(以千兆字节为数量级),并且通常需要以不同于代码本身的方式提供服务。
  • 合作:在大型组织中,在应用程序中部署的模型通常不是由负责部署的人员训练的。实验、测试和生产部署之间的交接与软件工程中的批准过程相似,但不完全相同。
  • MLflow模型注册中心解决了上述挑战。下面是这个新组件的一些关键特性。

    一个用于协作管理ML模型的中心

    构建和部署ML模型是一项团队活动。在机器学习模型的生命周期中,不仅责任经常被多人分担(例如,数据科学家训练模型,而生产工程师部署模型),而且,在每个生命周期阶段,团队可以从协作和共享中受益(例如,在组织的一个部分构建的欺诈模型可以在其他部分重用)。

    新的模型注册中心通过使ML模型更易于发现和提供协作特性来共同改进常见的ML任务,从而促进跨团队的专业知识和知识共享。只需从您的实验中注册一个MLflow模型就可以开始了。注册表将允许您跟踪模型的多个版本,并为每个版本标记一个生命周期阶段:开发、登台、生产或存档。

    通过MLflow Model Registry仪表板显示的机器学习模型示例。
    通过MLflow Model Registry仪表板显示的机器学习模型示例

    灵活的CI/CD管道来管理阶段转换

    MLflow Model Registry允许您手动或通过自动化工具管理模型的生命周期。类似于软件工程中的批准过程,用户可以手动请求将模型移动到一个新的生命周期阶段(例如,从Staging到Production),并审查或评论其他用户的转换请求。或者,您可以使用Model Registry的API来插入持续集成和部署(CI/CD)工具,例如Jenkins来自动测试和转换您的模型。每个模型还链接到在MLflow Tracking中构建它的实验运行,以方便您查看模型。

    MLflow中的机器学习模型示例页面视图,显示用户如何请求和查看模型阶段的更改。
    MLflow中的机器学习模型示例页面视图,显示用户如何请求和查看模型阶段的更改

    ML生命周期的可见性和治理

    在大型企业中,在任何给定的时间点上,处于开发、阶段和生产中的ML模型的数量可能是100个或1000个。充分了解哪些模型存在,它们处于哪个阶段,以及谁在模型的部署阶段上进行了协作和更改,可以让组织更好地管理他们的ML工作。

    MLflow模型注册表通过跟踪每个模型的历史记录和管理谁可以批准对模型阶段的更改来提供完全的可见性并支持治理。

    确定模型版本、阶段和每个模型版本的作者。
    确定模型版本、阶段和每个模型版本的作者

    开始使用MLflow模型注册表

    在过去的几个季度里,我们一直在根据Databricks客户的反馈来开发MLflow模型注册表,今天,我们发布了MLflow的第一个开源补丁bob下载地址MLflow模型注册表在GitHub上.我们很乐意听到您的反馈!我们计划在接下来的几个月里继续开发注册表,并将其包含在下一个MLflow发行版中。数据公司的客户也可以在这里注册,开始与模型注册

    免费试用Databricks
    看到所有公司博客上的帖子