Databricks Runtime 10.1 for ML(不支持)

Databricks Runtime 10.1 for Machine Learning为机器学习和数据科学提供了一个现成的环境Databricks Runtime 10.1(不支持).Databricks Runtime ML包含许多流行的机器学习库,包括TensorFlow、PyTorch和XGBoost。它还支持使用Horovod进行分布式深度学习训练。

有关更多信息,包括创建Databricks Runtime ML集群的说明,请参见Databricks运行时机器学习

新功能和改进

Databricks Runtime 10.1 ML是建立在Databricks Runtime 10.1之上的。有关Databricks Runtime 10.1(包括Apache Spark MLlib和SparkR)中的新特性的信息,请参见Databricks Runtime 10.1(不支持)发行说明。

对Databricks AutoML的增强

在Databricks Runtime 10.1中,Databricks AutoML包括改进的语义类型检测、训练期间潜在数据问题的新警报、防止过拟合模型的新功能,以及按时间顺序将输入数据集分为训练集、验证集和测试集的能力。

额外的语义类型检测

AutoML现在支持额外的语义类型检测:

  • 包含类别标签的数字列被视为类别类型。

  • 包含英文文本的字符串列被视为文本特性。

现在还可以添加注释来指定列数据类型。详细信息请参见语义类型检测

在培训期间警告潜在的数据问题

AutoML现在检测并生成数据集潜在问题的警报。示例警报包括不支持的列类型和高基数列。这些警告出现在实验页面的新警报选项卡。关于警报的其他信息包含在数据探索笔记本中。有关更多信息,请参见进行实验并监测结果

简化模型过拟合

两个新功能减少了使用AutoML时模型过拟合的可能性:

  • AutoML现在除了验证和训练指标外,还报告测试指标。

  • AutoML现在使用提前停止。如果验证度量不再改善,它将停止训练和调优模型。

按时间顺序将数据集分为训练集/验证集/测试集

对于分类和回归问题,可以按时间顺序将数据集分为训练集、验证集和测试集。看到将数据分成训练集/验证集/测试集获取详细信息。

对Databricks功能商店的增强

Databricks Feature Store现在支持特征表的其他数据类型:BinaryTypeDecimalType,MapType.有关更多信息,请参见支持的数据类型

Mlflow

以下改进从Mlflow版本1.21.0开始可用,该版本包含在Databricks Runtime 10.1 ML中。

  • [型号]升级fastai模型风味支持fastai v2(2.4.1及以上版本)。

  • [模型]引入mlflow。先知model flavor for Prophet time series models.

  • 修正了错误地将日期类字符串转换为datetime对象的模式强制错误。

Hyperopt

SparkTrials现在支持early_stopping_fn参数fmin.可以使用提前停止函数指定Hyperopt在达到最大计算次数之前停止超参数调优的条件。例如,如果目标函数不再递减,则可以使用此参数结束调优。详细信息请参见fmin ()

Databricks Runtime ML Python环境的主要更改

Python包升级

  • Automl 1.3.1 =>

  • feature store 0.3.4 => 0.3.5

  • 假日0.11.2 => 0.11.3.1

  • Horovod 0.22.1 => 0.23.0

  • hyperopt 0.2.5。Db2 => 0.2.5.db4

  • 失衡学习0.8.0 => 0.8.1

  • Lightgbm 3.1.1 => 3.3.0

  • Mlflow 1.20.2 => 1.21.0

  • 大风暴0.11.2 => 0.11.3

  • 5.1.0 => 5.3.0

  • Pytorch 1.9.0 => 1.9.1

  • Spacy 3.1.2 => 3.1.3

  • Sparkdl 2.2.0_db3 => 2.2.0_db4

  • Torchvision 0.10.0 => 0.10.1

  • 变压器4.9.2 => 4.11.3

新增Python包

  • Fasttext => 0.9.2

  • Tensorboard-plugin-profile => 2.5.0

的用法

MLlib自动化MLflow跟踪在运行Databricks Runtime 10.1 ML及以上版本的集群上已弃用。相反,使用MLflow PySpark ML自录通过调用mlflow.pyspark.ml.autolog ().自动记录在默认情况下是启用的砖Autologging

系统环境

Databricks Runtime 10.1 ML的系统环境与Databricks Runtime 10.1不同:

以下部分列出了Databricks Runtime 10.1 ML中包含的不同于Databricks Runtime 10.1的库。

Python库

Databricks Runtime 10.1 ML使用Virtualenv进行Python包管理,包括许多流行的ML包。

Databricks Runtime 10.1 ML除了以下章节中指定的包外,还包括以下包:

  • hyperopt 0.2.5.db4

  • sparkdl 2.2.0-db4

  • feature_store 0.3.5

  • automl 1.4.0

请注意

由于不兼容问题,Databricks Runtime 10.1 ML包含scikit-learn版本0.24,而不是版本1.0。scikit-learn包与Databricks Runtime 10.1 ML中的许多其他包进行交互。

你可以升级到scikit-learn 1.0版本;但Databricks不支持此版本。

若要升级,请使用notebook-scoped库.从笔记本开始,跑步%皮普安装——升级“scikit-learn > = 1.0 < 1.1”

另一种方法是使用这个集群初始化脚本

#!/bin/bash-e PIP install——upgrade“scikit-learn > = 1.0 < 1.1”

CPU集群上的Python库

图书馆

版本

图书馆

版本

图书馆

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

漂白剂

3.3.0

bli

0.7.4

boto3

1.16.7

botocore

1.19.7

cachetools

4.2.4

目录

2.0.6

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

铿锵声

5.0

点击

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密码学

3.4.7

周期计

0.10.0

cymem

2.0.5

Cython

0.29.23

databricks-automl-runtime

0.2.3

databricks-cli

0.14.3

dbus-python

1.2.16

装饰

5.0.6

defusedxml

是0.7.1

莳萝

0.3.2

diskcache

5.2.1

distlib

0.3.3

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

4.1

facets-overview

1.0.0

fasttext

0.9.2

filelock

3.0.12

1.1.2

flatbuffers

1.12

fsspec

0.9.0

未来

0.18.2

使惊讶

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

gviz-api

1.10.0

h5py

3.1.0

hijri-converter

2.2.2

假期

0.11.3.1

horovod

0.23.0

htmlmin

0.1.12

huggingface-hub

0.0.19

idna

2.10

ImageHash

4.2.1

imbalanced-learn

0.8.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

绝地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.6.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.2

korean-lunar-calendar

0.2.1

lightgbm

3.3.0

llvmlite

0.37.0

LunarCalendar

0.0.9

尖吻鲭鲨

1.1.3

减价

3.3.3

MarkupSafe

2.0.1

matplotlib

3.4.2

missingno

0.5.0

使走调

0.8.4

mleap

0.18.1

mlflow-skinny

1.21.0

多重方法

1.6

murmurhash

1.0.5

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

笔记本

6.3.0

numba

0.54.1

numpy

1.19.2

oauthlib

3.1.0

opt-einsum

3.3.0

包装

20.9

熊猫

1.2.4

pandas-profiling

3.1.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

表“感觉”

0.6.0

容易受骗的人

0.5.1

petastorm

0.11.3

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕头

8.2.0

皮普

21.0.1

情节

5.3.0

3.0.5

prometheus-client

0.10.1

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pybind11

2.8.0

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1发布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.4.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.6

python-dateutil

2.8.1发布

python编辑器

1.0.4

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正则表达式

2021.4.4

请求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

sacremoses

0.0.46

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鹏科技电子

0.39.0

simplejson

3.17.2

六个

1.15.0

切片机

0.0.7

smart-open

5.2.0

smmap

3.0.5

宽大的

3.1.3

spacy-legacy

3.0.8

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

srs

2.4.1

ssh-import-id

5.10

statsmodels

0.12.2

汇总

0.8.7

tangled-up-in-unicode

0.1.0

韧性

6.2.0

tensorboard

2.6.0

tensorboard-data-server

0.6.1

tensorboard-plugin-profile

2.5.0

tensorboard-plugin-wit

1.8.0

tensorflow-cpu

2.6.0

tensorflow-estimator

2.6.0

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

thinc

8.0.9

threadpoolctl

魅惑

分词器

0.10.3

火炬

1.9.1 + cpu

torchvision

0.10.1 + cpu

龙卷风

6.1

tqdm

4.59.0

traitlets

5.0.5

变形金刚

4.11.3

打字机

0.3.2

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

愿景

0.7.4

芥末酱

0.8.2

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.4.2

氧化锌碘仿糊

3.4.1

GPU集群上的Python库

图书馆

版本

图书馆

版本

图书馆

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

漂白剂

3.3.0

bli

0.7.4

boto3

1.16.7

botocore

1.19.7

cachetools

4.2.4

目录

2.0.6

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

铿锵声

5.0

点击

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密码学

3.4.7

周期计

0.10.0

cymem

2.0.5

Cython

0.29.23

databricks-automl-runtime

0.2.3

databricks-cli

0.14.3

dbus-python

1.2.16

装饰

5.0.6

defusedxml

是0.7.1

莳萝

0.3.2

diskcache

5.2.1

distlib

0.3.3

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

4.1

facets-overview

1.0.0

fasttext

0.9.2

filelock

3.0.12

1.1.2

flatbuffers

1.12

fsspec

0.9.0

未来

0.18.2

使惊讶

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

gviz-api

1.10.0

h5py

3.1.0

hijri-converter

2.2.2

假期

0.11.3.1

horovod

0.23.0

htmlmin

0.1.12

huggingface-hub

0.0.19

idna

2.10

ImageHash

4.2.1

imbalanced-learn

0.8.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

绝地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.6.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.2

korean-lunar-calendar

0.2.1

lightgbm

3.3.0

llvmlite

0.37.0

LunarCalendar

0.0.9

尖吻鲭鲨

1.1.3

减价

3.3.3

MarkupSafe

2.0.1

matplotlib

3.4.2

missingno

0.5.0

使走调

0.8.4

mleap

0.18.1

mlflow-skinny

1.21.0

多重方法

1.6

murmurhash

1.0.5

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

笔记本

6.3.0

numba

0.54.1

numpy

1.19.2

oauthlib

3.1.0

opt-einsum

3.3.0

包装

20.9

熊猫

1.2.4

pandas-profiling

3.1.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

表“感觉”

0.6.0

容易受骗的人

0.5.1

petastorm

0.11.3

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕头

8.2.0

皮普

21.0.1

情节

5.3.0

3.0.5

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pybind11

2.8.1发布

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1发布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.4.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.6

python-dateutil

2.8.1发布

python编辑器

1.0.4

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正则表达式

2021.4.4

请求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

sacremoses

0.0.46

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鹏科技电子

0.39.0

simplejson

3.17.2

六个

1.15.0

切片机

0.0.7

smart-open

5.2.0

smmap

3.0.5

宽大的

3.1.3

spacy-legacy

3.0.8

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

srs

2.4.1

ssh-import-id

5.10

statsmodels

0.12.2

汇总

0.8.7

tangled-up-in-unicode

0.1.0

韧性

6.2.0

tensorboard

2.6.0

tensorboard-data-server

0.6.1

tensorboard-plugin-profile

2.5.0

tensorboard-plugin-wit

1.8.0

tensorflow

2.6.0

tensorflow-estimator

2.6.0

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

thinc

8.0.9

threadpoolctl

魅惑

分词器

0.10.3

火炬

1.9.1 + cu111

torchvision

0.10.1 + cu111

龙卷风

6.1

tqdm

4.59.0

traitlets

5.0.5

变形金刚

4.11.3

打字机

0.3.2

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

愿景

0.7.4

芥末酱

0.8.2

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.4.2

氧化锌碘仿糊

3.4.1

包含Python模块的Spark包

火花包

Python模块

版本

graphframes

graphframes

0.8.2-db1-spark3.2

R库

R库与R库在Databricks Runtime 10.1。

Java和Scala库(Scala 2.12集群)

除了Java和Scala库在Databricks Runtime 10.1, Databricks Runtime 10.1 ML包含以下jar:

CPU集群

组ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.17.0-4882dc3

ml.dmlc

xgboost4j-spark_2.12

1.4.1

ml.dmlc

xgboost4j_2.12

1.4.1

org.graphframes

graphframes_2.12

0.8.1-db6-spark3.2

org.mlflow

mlflow-client

1.20.2

org.mlflow

mlflow-spark

1.20.2

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0

GPU集群

组ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.18.1-23eb1ef

ml.dmlc

xgboost4j-gpu_2.12

1.4.1

ml.dmlc

xgboost4j-spark-gpu_2.12

1.4.1-spark3.2

org.graphframes

graphframes_2.12

0.8.2-db1-spark3.2

org.mlflow

mlflow-client

1.21.0

org.mlflow

mlflow-spark

1.21.0

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0