教程:ML工程

这里列出的快速入门和教程可以帮助您快速入门Databricks上的机器学习。每个都包含一个笔记本,可以导入并在自己的Databricks工作区中运行。他们说明了如何在机器学习生命周期中使用Databricks,包括数据加载和准备;模型训练、调优和推断;以及模型部署和管理。他们展示了有用的工具,例如Hyperopt对于自动超参数调优,MLflow跟踪以及模型开发的自动记录,还有模型注册用于模型管理。

请注意

要运行任何这些教程中包含的笔记本,请单击复制导入链接在教程页的笔记本上方。在你的Databricks工作区浏览器中,选择进口从任何文件夹菜单和粘贴URL。要运行一个笔记本,必须有一个集群来运行它。有关创建集群和运行笔记本的详细信息,请参见教程:使用笔记本查询数据

对于刚接触Databricks的用户

作为Databricks机器学习的新用户,最好的开始是:

  1. 遵循教程:使用笔记本查询数据快速入门。

  2. 运行Databricks机器学习环境中包含的产品内快速入门笔记本电脑。

    这本笔记本说明了使用Databricks进行机器学习的许多好处,包括使用MLflow跟踪模型开发和并行超参数调优运行。笔记本电脑向您介绍如何加载数据,训练和调优模型,比较和分析模型性能,并使用模型进行推理。

运行产品内快速入门笔记本:

  1. 登录到Databricks工作空间并转到Databricks Machine Learning基于人物的环境。

    要更改角色,请单击Databricks徽标下面的图标砖的标志,并选择机器学习

    改变形象
  2. 关于Databricks机器学习开始页面,点击入门指南在右上方。

    机器学习教程笔记本

scikit-learn教程

笔记本

需求

特性

机器学习入门

Databricks Runtime 7.5 ML或以上

分类模型,MLflow,使用Hyperopt和MLflow进行自动超参数调优

使用模型注册表进行机器学习

Databricks运行时ML

分类模型,MLflow,自动超参数调优与Hyperopt和MLflow,模型注册

的端到端示例

Databricks运行时ML

分类模型,MLflow,使用Hyperopt和MLflow的自动超参数调优,XGBoost,模型注册表,模型服务

Apache Spark MLlib教程

笔记本

需求

特性

用MLlib进行机器学习

Databricks运行时ML

逻辑回归模型,Spark管道,使用MLlib API自动超参数调优

深度学习教程

笔记本

需求

特性

TensorFlow Keras的深度学习

Databricks运行时ML

神经网络模型,内联TensorBoard,使用Hyperopt和MLflow进行自动超参数调优,自记录,ModelRegistry