Databricks运行时机器学习

Databricks Runtime for Machine Learning (Databricks Runtime ML)自动创建一个为机器学习优化的集群。Databricks Runtime ML集群包括最流行的机器学习库,如TensorFlow、PyTorch、Keras和XGBoost,还包括分布式训练所需的库,如Horovod。使用Databricks Runtime ML可以加快创建集群的速度,并确保安装的库版本是兼容的。

有关使用Databricks进行机器学习和深度学习的完整信息,请参见Databricks机器学习指南

有关Databricks Runtime ML版本的内容,请参阅发布说明

Databricks Runtime ML是基于Databricks Runtime构建的。例如,Databricks Runtime 7.3 LTS For Machine Learning是在Databricks Runtime 7.3 LTS基础上构建的。基本Databricks运行时中包含的库在Databricks运行时中列出发布说明

警告

如果需要符合HIPAA,请参见符合HIPAA的特性

介绍Databricks运行时机器学习

本教程是为Databricks Runtime ML的新用户设计的。它需要大约10分钟的时间来完成,并展示了一个完整的端到端示例,包括加载表格数据、训练模型、分布式超参数调优和模型推断。它还说明了如何使用MLflow API和MLflow Model Registry。

数据库教程笔记本

在新标签页打开笔记本

Databricks Runtime ML中包含的库

Databricks Runtime ML包含各种流行的ML库。每个版本都会对库进行更新,以包含新特性和修复。

Databricks已将受支持库的一个子集指定为顶级库。对于这些库,Databricks提供了更快的更新节奏,每个运行时版本都更新到最新的包版本(防止依赖项冲突)。Databricks还为顶级库提供高级支持、测试和嵌入式优化。

有关顶级库和其他提供的库的完整列表,请参阅每个可用运行时的以下文章:

如何使用Databricks Runtime ML

除了预安装的库之外,Databricks Runtime ML与Databricks Runtime在集群配置和管理Python包的方式上也有所不同。

使用Databricks Runtime ML创建一个集群

当你创建集群,在“Databricks Runtime version”下拉框中选择“Databricks Runtime ML版本”。支持CPU和gpu的ML运行时都可用。

选择Databricks Runtime ML

如果您选择一个支持gpu的ML运行时,系统会提示您选择一个兼容的驱动程序类型而且工作类型.不兼容的实例类型在下拉列表中显示为灰色。启用gpu的实例类型列在GPU-Accelerated标签。

重要的

  • 库在你的工作空间自动安装到所有集群可能与Databricks Runtime ML中包含的库冲突。在使用Databricks Runtime ML创建集群之前,请清除在所有集群上自动安装冲突库的复选框。看到发行说明查看Databricks Runtime ML每个版本都包含的库列表。

  • 要访问用于机器学习工作流的Unity Catalog中的数据,必须使用单用户集群.用户隔离群集与Databricks Runtime ML不兼容。

管理Python包

在Databricks Runtime 9.0 ML及以上版本中virtualenv包管理器用于安装Python包。所有Python包都安装在一个环境中:/砖/ python3

在Databricks Runtime 8.4 ML及以下版本中Conda包管理器用于安装Python包。所有Python包都安装在一个环境中:/砖/ python2在集群上使用Python 2和/砖/ python3在集群上使用Python 3。不支持切换(或激活)Conda环境。

有关管理Python库的信息,请参见

支持自动机器学习

Databricks Runtime ML包括自动化模型开发过程的工具,并帮助您高效地找到性能最佳的模型。

  • AutoML自动创建、调优和评估一组模型,并为每次运行创建一个包含源代码的Python笔记本,以便您可以检查、复制和修改代码。

  • 管理MLflow管理端到端模型生命周期,包括跟踪实验运行,部署和共享模型,以及维护集中的模型注册表。

  • Hyperopt,以SparkTrials类,自动化和分发ML模型参数调优。

限制

Databricks运行时ML不支持: