砖的运行时9.1 LTS机器学习

砖公布的这张照片,并宣布它长期支持(LTS) 2021年9月。

砖的运行时9.1 LTS机器学习提供了一个准备好了环境科学基于机器学习和数据砖运行时9.1 LTS。砖运行时毫升含有许多流行的机器学习库,包括TensorFlow PyTorch, XGBoost。砖运行时毫升包括AutoML,一个工具来自动训练机器学习管道。砖运行时毫升也支持使用Horovod分布深度学习培训。

请注意

LTS意味着这个版本长期支持。看到(LTS)生命周期的长期支持

更多信息,包括指令创建砖集群运行时毫升、明白了砖运行时机器学习

新特性和改进

AutoML

以下改进砖运行时9.1 LTS毫升以上的。

通过抽样AutoML支持更大的数据集

现在AutoML样本数据集,可能超过内存限制,允许它运行在大型数据集用更少的内存不足错误的风险。有关详细信息,请参见抽样大型数据集

基于语义类型AutoML预处理列

AutoML检测特定列的语义类型不同于他们的火花或熊猫数据类型。AutoML然后转换和数据预处理步骤适用于基于语义类型。具体来说,AutoML执行下面的转换:

  • 字符串和整数列代表日期或时间戳数据类型转换为一个时间戳。

  • 字符串列表示数字数据转换为数字类型。

改进AutoML生成的笔记本

预处理步骤现在纳入日期和时间戳列databricks-automl-runtime生成的笔记本电脑包,简化AutoML培训。databricks-automl-runtime砖中包含运行时9.1 LTS毫升以上,也可用吗PyPI

特色商店

以下改进砖运行时9.1 LTS毫升以上的。

详情,请参阅功能存储文档功能存储API文档

  • 当您创建一个TrainingSet,您现在可以设置标签=没有支持无监督学习应用。

  • 现在,您可以在一个指定多个特性FeatureLookup

  • 现在,您可以指定一个自定义功能表的路径。使用路径参数create_feature_table ()。默认的是数据库的位置。

  • 新的支持PySpark数据类型:ArrayType和ShortType。

Mlflow

可用以下改进在Mlflow 1.20.2版开始,这是包括在砖运行时9.1 LTS毫升。

  • Autologging scikit-learn现在每当scikit-learn记录岗位指标评价API,如sklearn.metrics.mean_squared_error,被称为。

  • Autologging PySpark毫升现在记录岗位指标时模型评价API,如Evaluator.evaluate (),被称为。

  • mlflow。* .log_modelmlflow。* .save_model现在有pip_requirementsextra_pip_requirements参数,这样您就可以直接指定的pip需求模型来记录或保存。

  • mlflow。* .log_modelmlflow。* .save_model现在自动推断的pip需求模型来记录或保存基于当前的软件环境。

  • stdMetrics条目现在记录为培训指标在PySpark CrossValidator autologging。

  • PyTorch闪电autologging现在支持分布式执行。

砖Autologging(公共预览版)

砖Autologging公共预览版已经扩展到新的地区。砖Autologging是没有代码的解决方案,提供自动实验跟踪砖机器学习训练。砖Autologging、模型参数、标准、文件,自动地获取和血统信息,当你的火车模型从不同的流行的机器学习库。培训记录MLflow跟踪运行。模型文件跟踪,这样你可以很容易地记录他们MLflow模型注册和部署它们实时得分MLflow模型服务

关于砖Autologging的更多信息,请参阅砖Autologging

重大变化砖Python运行时毫升的环境

Python包升级

  • automl 1.1.1 = > 1.2.1

  • feature_store 0.3.3 = > 0.3.4.1

  • 假期0.10.5.2 = > 0.11.2

  • keras 2.5.0 = > 2.6.0

  • mlflow 1.19.0 = > 1.20.2

  • petastorm 0.11.1 = > 0.11.2

  • 情节4.14.3 = > 5.1.0

  • spark-tensorflow-distributor 0.1.0 = > 1.0.0

  • sparkdl 2.2.0_db1 = > 2.2.0_db3

  • tensorboard 2.5.0 = > 2.6.0

  • tensorflow 2.5.0 = > 2.6.0

Python包添加

  • databricks-automl-runtime 0.1.0

系统环境

砖的系统环境运行时9.1 LTS毫升不同于砖运行时9.1 LTS如下:

下面列表中包含的库砖运行时9.1 LTS毫升,不同于那些包含在运行时9.1 LTS砖。

Python库

砖运行时9.1 LTS毫升使用Virtualenv Python包管理,包括许多流行毫升包。

除了指定的包在下面几节中,砖运行时9.1 LTS毫升还包括以下方案:

  • hyperopt 0.2.5.db2

  • sparkdl 2.2.0_db3

  • feature_store 0.3.4.1

  • automl 1.2.1 "

Python库对CPU集群

图书馆

版本

图书馆

版本

图书馆

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

漂白剂

3.3.0

boto3

1.16.7

botocore

1.19.7

瓶颈

1.3.2

cachetools

4.2.2

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

铿锵声

5.0

点击

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密码学

3.4.7

周期计

0.10.0

Cython

0.29.23

databricks-automl-runtime

0.1.0

databricks-cli

0.14.3

dbus-python

1.2.16

装饰

5.0.6

defusedxml

是0.7.1

莳萝

0.3.2

diskcache

5.2.1

distlib

0.3.2

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

4.0.0.2

facets-overview

1.0.0

filelock

3.0.12

1.1.2

flatbuffers

1.12

fsspec

0.9.0

未来

0.18.2

使惊讶

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

h5py

3.1.0

hijri-converter

2.2.1

假期

0.11.2

horovod

0.22.1

htmlmin

0.1.12

idna

2.10

ImageHash

4.2.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

绝地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.6.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.1

korean-lunar-calendar

0.2.1

lightgbm

3.1.1

llvmlite

0.37.0

LunarCalendar

0.0.9

尖吻鲭鲨

1.1.3

减价

3.3.3

MarkupSafe

1.1.1

matplotlib

3.4.2

missingno

0.5.0

使走调

0.8.4

mleap

0.17.0

mlflow-skinny

1.20.2

多重方法

1.4

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

笔记本

6.3.0

numba

0.54.0

numpy

1.19.2

oauthlib

3.1.0

opt-einsum

3.3.0

包装

20.9

熊猫

1.2.4

pandas-profiling

3.0.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

容易受骗的人

0.5.1

petastorm

0.11.2

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕头

8.2.0

皮普

21.0.1

情节

5.1.0

prometheus-client

0.10.1

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1发布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.3.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.6

python-dateutil

2.8.1发布

python编辑器

1.0.4

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正则表达式

2021.4.4

请求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鹏科技电子

0.39.0

simplejson

3.17.2

六个

1.15.0

切片机

0.0.7

smmap

3.0.5

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

ssh-import-id

5.10

statsmodels

0.12.2

汇总

0.8.7

tangled-up-in-unicode

0.1.0

韧性

6.2.0

tensorboard

2.6.0

tensorboard-data-server

0.6.1

tensorboard-plugin-wit

1.8.0

tensorflow-cpu

2.6.0

tensorflow-estimator

2.6.0

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

threadpoolctl

魅惑

火炬

1.9.0 + cpu

torchvision

0.10.0 + cpu

龙卷风

6.1

tqdm

4.59.0

traitlets

5.0.5

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

愿景

是0.7.1

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.4.2

氧化锌碘仿糊

3.4.1

Python库在GPU集群

图书馆

版本

图书馆

版本

图书馆

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

漂白剂

3.3.0

boto3

1.16.7

botocore

1.19.7

瓶颈

1.3.2

cachetools

4.2.2

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

铿锵声

5.0

点击

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密码学

3.4.7

周期计

0.10.0

Cython

0.29.23

databricks-automl-runtime

0.1.0

databricks-cli

0.14.3

dbus-python

1.2.16

装饰

5.0.6

defusedxml

是0.7.1

莳萝

0.3.2

diskcache

5.2.1

distlib

0.3.2

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

4.0.0.2

facets-overview

1.0.0

filelock

3.0.12

1.1.2

flatbuffers

1.12

fsspec

0.9.0

未来

0.18.2

使惊讶

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

h5py

3.1.0

hijri-converter

2.2.1

假期

0.11.2

horovod

0.22.1

htmlmin

0.1.12

idna

2.10

ImageHash

4.2.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

绝地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.6.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.1

korean-lunar-calendar

0.2.1

lightgbm

3.1.1

llvmlite

0.37.0

LunarCalendar

0.0.9

尖吻鲭鲨

1.1.3

减价

3.3.3

MarkupSafe

1.1.1

matplotlib

3.4.2

missingno

0.5.0

使走调

0.8.4

mleap

0.17.0

mlflow-skinny

1.20.2

多重方法

1.4

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

笔记本

6.3.0

numba

0.54.0

numpy

1.19.2

oauthlib

3.1.0

opt-einsum

3.3.0

包装

20.9

熊猫

1.2.4

pandas-profiling

3.0.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

容易受骗的人

0.5.1

petastorm

0.11.2

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕头

8.2.0

皮普

21.0.1

情节

5.1.0

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1发布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.3.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.6

python-dateutil

2.8.1发布

python编辑器

1.0.4

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正则表达式

2021.4.4

请求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鹏科技电子

0.39.0

simplejson

3.17.2

六个

1.15.0

切片机

0.0.7

smmap

3.0.5

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

ssh-import-id

5.10

statsmodels

0.12.2

汇总

0.8.7

tangled-up-in-unicode

0.1.0

韧性

6.2.0

tensorboard

2.6.0

tensorboard-data-server

0.6.1

tensorboard-plugin-wit

1.8.0

tensorflow

2.6.0

tensorflow-estimator

2.6.0

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

threadpoolctl

魅惑

火炬

1.9.0 + cu111

torchvision

0.10.0 + cu111

龙卷风

6.1

tqdm

4.59.0

traitlets

5.0.5

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

愿景

是0.7.1

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.4.2

氧化锌碘仿糊

3.4.1

引发包包含Python模块

火花包

Python模块

版本

graphframes

graphframes

0.8.1-db3-spark3.1

R库

R库的完全相同R库在运行时9.1 LTS砖。

Java和Scala库(Scala 2.12集群)

除了Java和Scala库砖运行时9.1 LTS,砖运行时9.1 LTS毫升包含以下jar:

CPU集群

组ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.17.0-4882dc3

ml.dmlc

xgboost4j-spark_2.12

1.4.1

ml.dmlc

xgboost4j_2.12

1.4.1

org.graphframes

graphframes_2.12

0.8.1-db2-spark3.1

org.mlflow

mlflow-client

1.20.2

org.mlflow

mlflow-spark

1.20.2

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0

GPU集群

组ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.17.0-4882dc3

ml.dmlc

xgboost4j-gpu_2.12

1.4.1

ml.dmlc

xgboost4j-spark-gpu_2.12

1.4.1

org.graphframes

graphframes_2.12

0.8.1-db2-spark3.1

org.mlflow

mlflow-client

1.20.2

org.mlflow

mlflow-spark

1.20.2

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0