Databricks Runtime 10.2 for ML(不支持)

Databricks在2021年12月发布了这张图片。

Databricks Runtime 10.2 for Machine Learning为机器学习和数据科学提供了一个现成的环境Databricks Runtime 10.2(不支持).Databricks Runtime ML包含许多流行的机器学习库,包括TensorFlow、PyTorch和XGBoost。Databricks Runtime ML包含AutoML,一个自动训练机器学习管道的工具。Databricks Runtime ML还支持使用Horovod进行分布式深度学习训练。

有关更多信息,包括创建Databricks Runtime ML集群的说明,请参见Databricks运行时机器学习

新功能和改进

Databricks Runtime 10.2 ML是建立在Databricks Runtime 10.2之上的。有关Databricks Runtime 10.2(包括Apache Spark MLlib和SparkR)中的新特性的信息,请参见Databricks Runtime 10.2(不支持)发行说明。

Databricks自动记录(公开预览)

Databricks自动记录现在在所有地区的公共预览。Databricks Autologging是一个无代码的解决方案,为Databricks上的机器学习培训课程提供自动实验跟踪。使用Databricks Autologging,当您从各种流行的机器学习库中训练模型时,可以自动捕获模型参数、指标、文件和沿袭信息。训练课程被记录为MLflow跟踪运行.模型文件也被跟踪,因此您可以轻松地将它们记录到MLflow模型注册表并将它们用于实时评分MLflow模型服务

有关Databricks自动记录的更多信息,请参见砖Autologging

对Databricks AutoML的增强

对。进行了以下增强砖AutoML

  • AutoML忽略只有一个值的列。

  • 对于分类和回归问题,用于按时间顺序将数据集分为训练集、验证集和测试集的时间列现在可以是字符串类型。以前只支持时间戳和整数。看到将数据分成训练集/验证集/测试集获取详细信息。

对Databricks功能商店的增强

对。进行了以下增强Databricks功能商店

简化FeatureStoreClient接口

FeatureStoreClient界面被简化。

  • FeatureStoreClient.create_feature_table ()已弃用。相反,使用FeatureStoreClient.create_table ()

  • FeatureStoreClient.get_feature_table ()已弃用。相反,使用FeatureStoreClient.get_table ()

  • 所有参数FeatureStoreClient.publish_table ()除了的名字而且online_store必须作为关键字参数传递。

有关更多信息,请参见使用特性表而且Python API

仅将选定的列发布到在线商店

Databricks Feature Store现在只支持将选定的列发布到在线商店。有关更多信息,请参见将选定的功能发布到在线商店

Databricks Runtime ML Python环境的主要更改

自动化MLflow跟踪集成在Databricks Runtime 10.1 ML中已弃用的Apache Spark MLlib,现在在Databricks Runtime 10.2 ML中默认禁用MLflow的PySpark ML Autologging集成,默认启用砖Autologging.自动记录MLlib的自动MLflow跟踪所捕获的信息之外的其他信息,包括参数、度量和与最佳模型相关的工件。

Python包升级

  • databicks -cli 0.14.3 => 0.16.2

  • Keras 2.6.0 => 2.7.0

  • Lightgbm 3.3.0 => 3.3.1

  • Mlflow 1.21.0 => 1.22.0

  • 5.3.1 .图5.3.0 =>

  • Shap 0.39.0 => 0.40.0

  • Spacy 3.1.3 => 3.2.0

  • Tensorboard 2.6.0 => 2.7.0

  • Tensorflow 2.6.0 =>

  • Torch 1.9.1 => 1.10.0

  • Torchvision 0.10.1 => 0.11.1

  • 变压器4.11.3 => 4.12.3

  • Xgboost 1.4.2 =>

系统环境

Databricks Runtime 10.2 ML的系统环境与Databricks Runtime 10.2不同:

以下部分列出了Databricks Runtime 10.2 ML中包含的不同于Databricks Runtime 10.2的库。

Python库

Databricks Runtime 10.2 ML使用Virtualenv进行Python包管理,包括许多流行的ML包。

Databricks Runtime 10.2 ML除了以下章节中指定的包外,还包括以下包:

  • hyperopt 0.2.7.db1

  • sparkdl 2.2.0-db5

  • feature_store 0.3.6

  • automl 1.5.0

CPU集群上的Python库

图书馆

版本

图书馆

版本

图书馆

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

bidict

0.21.4

漂白剂

3.3.0

bli

0.7.4

boto3

1.16.7

botocore

1.19.7

cachetools

4.2.4

目录

2.0.6

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

点击

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密码学

3.4.7

周期计

0.10.0

cymem

2.0.5

Cython

0.29.23

databricks-automl-runtime

0.2.4

databricks-cli

0.16.2

dbus-python

1.2.16

装饰

5.0.6

defusedxml

是0.7.1

莳萝

0.3.2

diskcache

5.2.1

distlib

0.3.3

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

以下4.4.1

facets-overview

1.0.0

fasttext

0.9.2

filelock

3.0.12

1.1.2

flatbuffers

2.0

fsspec

0.9.0

未来

0.18.2

使惊讶

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

gviz-api

1.10.0

h5py

3.1.0

hijri-converter

2.2.2

假期

0.11.3.1

horovod

0.23.0

htmlmin

0.1.12

huggingface-hub

0.1.2

idna

2.10

ImageHash

4.2.1

imbalanced-learn

0.8.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

绝地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.7.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.2

korean-lunar-calendar

0.2.1

langcodes

3.3.0

libclang

12.0.0

lightgbm

3.3.1

llvmlite

0.37.0

LunarCalendar

0.0.9

尖吻鲭鲨

1.1.3

减价

3.3.3

MarkupSafe

2.0.1

matplotlib

3.4.2

missingno

0.5.0

使走调

0.8.4

mleap

0.18.1

mlflow-skinny

1.22.0

多重方法

1.6

murmurhash

1.0.5

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

笔记本

6.3.0

numba

0.54.1

numpy

1.19.2

oauthlib

3.1.0

opt-einsum

3.3.0

包装

21.3

熊猫

1.2.4

pandas-profiling

3.1.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

表“感觉”

0.6.0

容易受骗的人

0.5.1

petastorm

0.11.3

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕头

8.2.0

皮普

21.0.1

情节

5.3.1

3.0.5

prometheus-client

0.10.1

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pybind11

2.8.1发布

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1发布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.4.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.6

python-dateutil

2.8.1发布

python编辑器

1.0.4

python-engineio

4.3.0

python-socketio

5.4.1之前

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正则表达式

2021.4.4

请求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

sacremoses

0.0.46

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鹏科技电子

0.40.0

simplejson

3.17.2

六个

1.15.0

切片机

0.0.7

smart-open

5.2.0

smmap

3.0.5

宽大的

3.2.0

spacy-legacy

3.0.8

spacy-loggers

1.0.1

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

srs

2.4.1

ssh-import-id

5.10

statsmodels

0.12.2

汇总

0.8.7

tangled-up-in-unicode

0.1.0

韧性

6.2.0

tensorboard

2.7.0

tensorboard-data-server

0.6.1

tensorboard-plugin-profile

2.5.0

tensorboard-plugin-wit

1.8.0

tensorflow-cpu

2.7.0

tensorflow-estimator

2.7.0

tensorflow-io-gcs-filesystem

0.22.0

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

thinc

8.0.12

threadpoolctl

魅惑

分词器

0.10.3

火炬

1.10.0 + cpu

torchvision

0.11.1 + cpu

龙卷风

6.1

tqdm

4.59.0

traitlets

5.0.5

变形金刚

4.12.3

打字机

0.3.2

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

愿景

0.7.4

芥末酱

0.8.2

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.5.0

氧化锌碘仿糊

3.4.1

GPU集群上的Python库

图书馆

版本

图书馆

版本

图书馆

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

bidict

0.21.4

漂白剂

3.3.0

bli

0.7.4

boto3

1.16.7

botocore

1.19.7

cachetools

4.2.4

目录

2.0.6

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

点击

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密码学

3.4.7

周期计

0.10.0

cymem

2.0.5

Cython

0.29.23

databricks-automl-runtime

0.2.4

databricks-cli

0.16.2

dbus-python

1.2.16

装饰

5.0.6

defusedxml

是0.7.1

莳萝

0.3.2

diskcache

5.2.1

distlib

0.3.3

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

以下4.4.1

facets-overview

1.0.0

fasttext

0.9.2

filelock

3.0.12

1.1.2

flatbuffers

2.0

fsspec

0.9.0

未来

0.18.2

使惊讶

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

gviz-api

1.10.0

h5py

3.1.0

hijri-converter

2.2.2

假期

0.11.3.1

horovod

0.23.0

htmlmin

0.1.12

huggingface-hub

0.1.2

idna

2.10

ImageHash

4.2.1

imbalanced-learn

0.8.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

绝地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.7.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.2

korean-lunar-calendar

0.2.1

langcodes

3.3.0

libclang

12.0.0

lightgbm

3.3.1

llvmlite

0.37.0

LunarCalendar

0.0.9

尖吻鲭鲨

1.1.3

减价

3.3.3

MarkupSafe

2.0.1

matplotlib

3.4.2

missingno

0.5.0

使走调

0.8.4

mleap

0.18.1

mlflow-skinny

1.22.0

多重方法

1.6

murmurhash

1.0.5

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

笔记本

6.3.0

numba

0.54.1

numpy

1.19.2

oauthlib

3.1.0

opt-einsum

3.3.0

包装

21.3

熊猫

1.2.4

pandas-profiling

3.1.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

表“感觉”

0.6.0

容易受骗的人

0.5.1

petastorm

0.11.3

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕头

8.2.0

皮普

21.0.1

情节

5.3.1

3.0.5

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pybind11

2.8.1发布

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1发布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.4.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.6

python-dateutil

2.8.1发布

python编辑器

1.0.4

python-engineio

4.3.0

python-socketio

5.4.1之前

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正则表达式

2021.4.4

请求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

sacremoses

0.0.46

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鹏科技电子

0.40.0

simplejson

3.17.2

六个

1.15.0

切片机

0.0.7

smart-open

5.2.0

smmap

3.0.5

宽大的

3.2.0

spacy-legacy

3.0.8

spacy-loggers

1.0.1

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

srs

2.4.1

ssh-import-id

5.10

statsmodels

0.12.2

汇总

0.8.7

tangled-up-in-unicode

0.1.0

韧性

6.2.0

tensorboard

2.7.0

tensorboard-data-server

0.6.1

tensorboard-plugin-profile

2.5.0

tensorboard-plugin-wit

1.8.0

tensorflow

2.7.0

tensorflow-estimator

2.7.0

tensorflow-io-gcs-filesystem

0.22.0

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

thinc

8.0.12

threadpoolctl

魅惑

分词器

0.10.3

火炬

1.10.0 + cu111

torchvision

0.11.1 + cu111

龙卷风

6.1

tqdm

4.59.0

traitlets

5.0.5

变形金刚

4.12.3

打字机

0.3.2

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

愿景

0.7.4

芥末酱

0.8.2

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.5.0

氧化锌碘仿糊

3.4.1

包含Python模块的Spark包

火花包

Python模块

版本

graphframes

graphframes

0.8.2-db1-spark3.2

R库

R库与R库在Databricks Runtime 10.2。

Java和Scala库(Scala 2.12集群)

在Databricks Runtime 10.2中,除了Java和Scala库,Databricks Runtime 10.2 ML还包含以下jar:

CPU集群

组ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.18.1-23eb1ef

ml.dmlc

xgboost4j-spark_2.12

1.5.1

ml.dmlc

xgboost4j_2.12

1.5.1

org.graphframes

graphframes_2.12

0.8.2-db1-spark3.2

org.mlflow

mlflow-client

1.22.0

org.mlflow

mlflow-spark

1.22.0

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0

GPU集群

组ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.18.1-23eb1ef

ml.dmlc

xgboost4j-spark_2.12

1.5.1

ml.dmlc

xgboost4j_2.12

1.5.1

org.graphframes

graphframes_2.12

0.8.2-db1-spark3.2

org.mlflow

mlflow-client

1.22.0

org.mlflow

mlflow-spark

1.22.0

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0