使用mlflow管理完整的机器学习生命周期

ML开发带来了传统软件开发生命周期之外的许多新的复杂性。与传统的软件开发不同,ML开发人员希望尝试多种算法、工具和参数来获得最佳结果,并且他们需要跟踪这些信息来重现工作。此外,开发人员需要使用许多不同的系统来生产模型。

为了解决这些挑战,Databricks在去年推出了MLflow,这是一个旨在简化整个ML生命周期的开源项目。bob下载地址MLflow引入了简单的抽象来打包可重复的项目,跟踪结果,并封装可以与许多现有工具一起使用的模型,从而加速任何规模的组织的ML生命周期。

在过去的一年中,MLflow社区发展迅速:来自40多家公司的120多名贡献者为该项目贡献了代码,超过200家公司正在使用MLflow。

在本教程中,我们将向您展示如何使用MLflow来帮助您:

  • 跟踪跨框架的实验运行和结果。
  • 在Databricks集群上远程执行项目,并快速重现您的运行。
  • 使用Databricks生产作业、Docker容器、Azure ML或Amazon SageMaker快速生产模型。

我们将演示MLflow的构建模块以及自1.0发行版以来的最新添加。

你将学到:

  • 了解开源MLflow的三个主要组件(MLflow跟踪、MLflow项目、MLflbob下载地址ow模型),以及每个组件如何帮助解决ML生命周期的挑战。
  • 如何使用MLflow跟踪记录和查询实验:代码,数据,配置和结果。
  • 如何使用MLflow项目打包格式在任何平台上重新运行。bob体育客户端下载
  • 如何使用MLflow模型通用格式将模型发送到不同的部署工具。

先决条件:

  • 一台充满电的笔记本电脑(8-16GB内存),配备Chrome或Firefox浏览器
  • 预安装Python 3和pip
  • 预注册Databricks标准试用
  • 基本了解Python编程语言
  • 基本了解机器学习概念


«回来
关于Thunder Shiviah

Databricks解决方案架构师和前麦肯锡机器学习工程师专注于大规模生产机器学习。

关于Michael Shtelma

Databricks高级解决方案架构师和前teradata数据工程师,专注于在云端操作机器学习工作负载。