介绍砖运行时机器学习

砖运行时对机器学习(砖运行时的ML)提供了预构建的机器学习的基础设施,与所有的功能集成砖工作区。每个版本的砖运行时毫升是建立在相应的运行时版本的砖。例如,砖的运行时11.3 LTS机器学习是建立在运行时11.3 LTS砖。

砖的细节每个版本的功能运行时毫升,包括包括库的完整列表,请参阅发布说明

为什么使用砖运行时对机器学习的?

砖运行时毫升自动化创建集群优化机器学习。一些使用砖运行时的ML集群的优点包括:

  • 内置的流行的机器学习库,如TensorFlow PyTorch, Keras, XGBoost。

  • 内置的分布式训练库,比如Horovod。

  • 版本的安装库兼容。

  • 预先配置的GPU支持包括司机和支持库。

  • 快速创建集群。

砖,你可以使用任何库来创建逻辑来训练你的模型。预配置数据砖运行时毫升可以轻易规模常见的机器学习和深度学习步骤。

砖运行时毫升还包括砖工作空间的功能,如:

  • 数据探索、管理和治理。

    • 集群的创建和管理。

    • 图书馆和环境管理。

    • 代码管理与砖回购。

    • 自动化支持包括三角洲生活表、砖的工作和api。

    • 集成模型发展MLflow跟踪、模型部署和服务,实时推理。

关于使用砖进行机器学习的完整信息和深度学习,明白了介绍砖机器学习

教程:砖运行时机器学习

本教程是专为新用户的砖运行时毫升。它需要大约10分钟的时间,并显示了一个完整的端到端示例加载表格数据,训练模型,分布式hyperparameter调优和推理模型。它还演示了如何使用MLflow API和MLflow模型注册表。

请注意

以下的笔记本可能包括功能不可用这个版本的砖在谷歌的云。

砖教程的笔记本

在新标签页打开笔记本

库包含在砖运行时毫升

砖运行时毫升包括各种流行毫升库。每个版本的库更新包括新的特性和修复。

砖已指定的一个子集作为顶级库支持库。对于这些库,砖提供更快的更新节奏,与每个运行时版本更新到最新的包版本(除非依赖性冲突)。砖还提供了先进的支持、测试和嵌入式为顶级库优化。

顶级的完整列表和其他提供图书馆,看到每个运行时的发布说明:

为不支持的发行说明砖运行时毫升运行时,看到的不支持的版本

使用砖创建一个集群运行时毫升

当你创建一个集群,选择一个从砖砖运行时ML版本的运行时版本下拉。两个CPU和GPU-enabled毫升运行时是可用的。

选择砖运行时毫升

如果你从下拉菜单中选择一个集群的笔记本砖运行时版本出现在正确的集群的名称:

视图砖运行时的ML版本

如果你选择了一个GPU-enabled毫升运行时,会提示您选择一个兼容的驱动程序类型工作类型。不兼容的实例类型在下框中显示为灰色。以下列出GPU-enabled实例类型GPU-Accelerated标签。

重要的

图书馆在你的工作区自动安装到所有集群可以与库包含在砖运行时毫升冲突。在您创建一个集群砖运行时的ML,清除在所有集群安装自动复选框为冲突的库。看到释放笔记包含的库列表每个版本的砖运行时毫升。

管理Python包

砖运行时毫升与砖运行时的不同之处在于如何管理Python包。

在砖运行时9.0毫升以上,virtualenv使用包管理器安装Python包。所有Python包安装在一个环境:/砖/ python3

砖运行时的8.4毫升,下面Conda使用包管理器安装Python包。所有Python包安装在一个环境:/砖/ python2在使用Python 2和集群上/砖/ python3在集群中使用Python 3。开关(或激活)Conda环境不支持。

Python库管理的更多信息,请参阅

支持自动化的机器学习

砖运行时毫升包括工具来自动化模型开发过程,帮助您有效地找到最好的执行模型。

  • AutoML自动创建、曲调和评估一组模型并创建一个Python笔记本每次运行的源代码,这样你就可以审查,复制和修改代码。

  • 管理MLflow管理端到端模型的生命周期,包括跟踪实验运行,部署和共享模型,并维护一个集中式模型注册表。

  • Hyperopt,增强SparkTrials类,自动化和分发毫升模型参数调优。

限制

砖不支持运行时ML:

  • TableACLs集群

  • 集群spark.databricks.pyspark.enableProcessIsolation配置设置为真正的