Partilhar via


Databricks Runtime 9.0 para ML (EoS)

Nota

O suporte para esta versão do Databricks Runtime terminou. Para obter a data de fim do suporte, consulte Histórico de fim do suporte. Para todas as versões suportadas do Databricks Runtime, consulte Versões e compatibilidade das notas de versão do Databricks Runtime.

A Databricks lançou esta versão em agosto de 2021.

O Databricks Runtime 9.0 for Machine Learning fornece um ambiente pronto para uso para aprendizado de máquina e ciência de dados com base no Databricks Runtime 9.0 (EoS). O Databricks Runtime ML contém muitas bibliotecas populares de aprendizado de máquina, incluindo TensorFlow, PyTorch e XGBoost. Ele também suporta treinamento distribuído de aprendizagem profunda usando Horovod.

Para obter mais informações, incluindo instruções para criar um cluster de ML do Databricks Runtime, consulte IA e aprendizado de máquina no Databricks.

Correção

Uma versão anterior dessas notas de versão afirmava que o suporte para monitorar métricas de GPU de cluster com o Ganglia estava desativado na GPU Databricks Runtime 9.0 ML. Isso era verdade para o Databricks Runtime 9.0 ML Beta, mas o problema foi corrigido com o Databricks Runtime 9.0 ML GA. A declaração foi removida.

Novos recursos e melhorias

O Databricks Runtime 9.0 ML é construído sobre o Databricks Runtime 9.0. Para obter informações sobre o que há de novo no Databricks Runtime 9.0, incluindo Apache Spark MLlib e SparkR, consulte as notas de versão do Databricks Runtime 9.0 (EoS ).

Databricks Autologging (Visualização pública)

O Databricks Autologging agora está disponível para o Databricks Runtime 9.0 for Machine Learning em regiões selecionadas. O Databricks Autologging é uma solução sem código que fornece rastreamento automático de experimentos para sessões de treinamento de aprendizado de máquina no Azure Databricks. Com o Databricks Autologging, parâmetros de modelo, métricas, arquivos e informações de linhagem são capturados automaticamente quando você treina modelos de uma variedade de bibliotecas populares de aprendizado de máquina. As sessões de treinamento são registradas como MLflow Tracking Runs. Os arquivos de modelo também são rastreados para que você possa registrá-los facilmente no Registro do Modelo MLflow e implantá-los para pontuação em tempo real com o MLflow Model Serving.

Para obter mais informações sobre Databricks Autologging, consulte Databricks Autologging.

Melhorias no Databricks Feature Store

O desempenho ao criar um conjunto de treinamento foi melhorado minimizando o número de associações nas tabelas de recursos de origem.

A integração do XGBoost com o PySpark agora suporta treinamento distribuído e clusters de GPU

Para obter detalhes, consulte Usar XGBoost no Azure Databricks.

Principais alterações no ambiente Python do Databricks Runtime ML

Os ambientes Conda, juntamente com o comando %conda, são removidos. O Databricks Runtime 9.0 ML é construído com pip e virtualenv. Imagens personalizadas usando ambientes baseados em Conda com Databricks Container Services ainda serão suportadas, mas não terão recursos de biblioteca com escopo de notebook. O Databricks recomenda o uso de ambientes baseados em virtualenv com o Databricks Container Services e %pip para todas as bibliotecas com escopo de notebook.

Consulte Databricks Runtime 9.0 (EoS) para obter as principais alterações no ambiente Python do Databricks Runtime. Para obter uma lista completa dos pacotes Python instalados e suas versões, consulte Bibliotecas Python.

Pacotes Python atualizados

  • MLFLOW 1.18.0 -> 1.19.0
  • NLTK 3,5 -> 3,6,1

Pacotes Python adicionados

  • Profeta 1.0.1

Pacotes Python removidos

  • MKL
  • azure-core
  • azure-storage-blob
  • MSREST
  • docker
  • querystring-parser
  • Intel-OpenMP

Descontinuações e recursos sem suporte

  • No Databricks Runtime 9.0 ML, o HorovodRunner não suporta a configuração np=0, onde np é o número de processos paralelos a serem usados para o trabalho do Horovod.
  • O Databricks Runtime 9.0 ML inclui o r-base 4.1.0 com motor gráfico R versão 14. Isto não é suportado pelo RStudio Server versão 1.2.x.
  • nvprof é removido na GPU do Databricks Runtime 9.0 ML.

Ambiente do sistema

O ambiente do sistema no Databricks Runtime 9.0 ML difere do Databricks Runtime 9.0 da seguinte forma:

Bibliotecas

As seções a seguir listam as bibliotecas incluídas no Databricks Runtime 9.0 ML que diferem daquelas incluídas no Databricks Runtime 9.0.

Nesta secção:

Bibliotecas de nível superior

O Databricks Runtime 9.0 ML inclui as seguintes bibliotecas de camada superior:

Bibliotecas Python

O Databricks Runtime 9.0 ML usa o Virtualenv para gerenciamento de pacotes Python e inclui muitos pacotes de ML populares.

Além dos pacotes especificados nas seções a seguir, o Databricks Runtime 9.0 ML também inclui os seguintes pacotes:

  • hiperopta 0.2.5.db2
  • Sparkdl 2.2.0_db1
  • feature_store 0.3.3
  • AutoML 1.1.1 |

Bibliotecas Python em clusters de CPU

Biblioteca Versão Biblioteca Versão Biblioteca Versão
ABSL-PY 0.11.0 Antergos Linux 2015.10 (Laminação ISO) Appdirs 1.4.4
Argônio2-CFFI 20.1.0 Astor 0.8.1 Astunparse 1.6.3
gerador assíncrono 1.10 ATRs 20.3.0 Backcall 0.2.0
Cripta 3.2.0 lixívia 3.3.0 boto3 1.16.7
botocore 1.19.7 Gargalo 1.3.2 Ferramentas de cache 4.2.2
certifi 2020.12.5 cffi 1.14.5 chardet 4.0.0
clicar 7.1.2 Cloudpickle 1.6.0 CMDSTANPY 0.9.68
ConfigParser 5.0.1 convertdate 2.3.2 criptografia 3.4.7
cycler 0.10.0 Quisto 0.29.23 databricks-cli 0.14.3
dbus-python 1.2.16 decorador 5.0.6 DeUsedXML 0.7.1
endro 0.3.2 cache de disco 5.2.1 Distlib 0.3.2
distro-info 0,23ubuntu1 pontos de entrada 0.3 Ephem 4.0.0.2
facetas-visão geral 1.0.0 filelock 3.0.12 Flask 1.1.2
flatbuffers 1.12 FSspec 0.9.0 Futuro 0.18.2
gast 0.4.0 GitDB 4.0.7 GitPython 3.1.12
Google-Auth 1.22.1 google-auth-oauthlib 0.4.2 google-massas 0.2.0
Grpcio 1.34.1 Gunicorn 20.0.4 H5PY 3.1.0
Hijri-Conversor 2.1.3 feriados 0.10.5.2 Horovod 0.22.1
htmlmin 0.1.12 idna 2.10 ImagemHash 4.2.1
Ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 Isodato 0.6.0 é perigoso 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
Joblib 1.0.1 Joblibspark 0.3.0 jsonschema 3.2.0
jupyter-cliente 6.1.12 Jupyter-core 4.7.1 Jupyterlab-Pygments 0.1.2
jupyterlab-widgets 1.0.1 keras-noturno 2.5.0.dev2021032900 Pré-processamento de Keras 1.1.2
Kiwisolver 1.3.1 coalas 1.8.1 Coreano-Lunar-Calendário 0.2.1
LightGBM 3.1.1 llvmlite 0.36.0 LunarCalendário 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 faltandonão 0.5.0 Mistune 0.8.4
PEAML 0.17.0 mlflow-magro 1.19.0 multimétodo 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
Ninho-Asyncio 1.5.1 redex 2.5 NLTK 3.6.1
bloco de notas 6.3.0 numba 0.53.1 numpy 1.19.2
OAuthlib 3.1.0 opt-einsum 3.3.0 embalagem 20.9
pandas 1.2.4 criação de perfis de pandas 3.0.0 PandocFilters 1.4.3
Paramiko 2.7.2 Parso 0.7.0 patsy 0.5.1
petastorm 0.11.1 pexpect 4.8.0 Phik 0.12.0
pickleshare 0.7.5 Travesseiro 8.2.0 pip 21.0.1
enredo 4.14.3 Prometheus-cliente 0.10.1 prompt-toolkit 3.0.17
profeta 1.0.1 protobuf 3.17.2 PSUTIL 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-módulos 0.2.8 pycparser 2,20
Pidântico 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 Pyodbc 4.0.30
pyparsing 2.4.7 pirsistent 0.17.3 Pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
Pyzmq 20.0.0 regex 2021.4.4 pedidos 2.25.1
pedidos-oauthlib 1.3.0 pedidos-unixsocket 0.2.0 A tentar... 1.3.3
RSA 4.7.2 s3transferir 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Enviar2Lixo 1.5.0
setuptools 52.0.0 setuptools-git 1.2 PASP 0.39.0
simplejson 3.17.2 seis 1.15.0 segmentação de dados 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 SQLPARSE 0.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabular 0.8.7
emaranhado em unicode 0.1.0 TensorBoard 2.5.0 Tensorboard-Data-Server 0.6.1
Tensorboard-plugin-wit 1.8.0 TensorFlow-CPU 2.5.0 TensorFlow-Estimador 2.5.0
Termcolor 1.1.0 terminado 0.9.4 caminho de teste 0.4.4
ThreadPoolCtl 2.1.0 tocha 1.9.0+CPU Torchvision 0.10.0+CPU
tornado 6.1 TQDM 4.59.0 traços 5.0.5
extensões de digitação 3.7.4.3 Ujson 4.0.2 Upgrades autônomos 0.1
urllib3 1.25.11 virtualenv 20.4.1 visões 0.7.1
largura de wc 0.2.5 WebEncodings 0.5.1 Websocket-cliente 0.57.0
Werkzeug 1.0.1 roda 0.36.2 widgetsnbextension 3.5.1
embrulhado 1.12.1 xgboost 1.4.2

Bibliotecas Python em clusters GPU

Biblioteca Versão Biblioteca Versão Biblioteca Versão
ABSL-PY 0.11.0 Antergos Linux 2015.10 (Laminação ISO) Appdirs 1.4.4
Argônio2-CFFI 20.1.0 Astor 0.8.1 Astunparse 1.6.3
gerador assíncrono 1.10 ATRs 20.3.0 Backcall 0.2.0
Cripta 3.2.0 lixívia 3.3.0 boto3 1.16.7
botocore 1.19.7 Gargalo 1.3.2 Ferramentas de cache 4.2.2
certifi 2020.12.5 cffi 1.14.5 chardet 4.0.0
clicar 7.1.2 Cloudpickle 1.6.0 CMDSTANPY 0.9.68
ConfigParser 5.0.1 convertdate 2.3.2 criptografia 3.4.7
cycler 0.10.0 Quisto 0.29.23 databricks-cli 0.14.3
dbus-python 1.2.16 decorador 5.0.6 DeUsedXML 0.7.1
endro 0.3.2 cache de disco 5.2.1 Distlib 0.3.2
distro-info 0,23ubuntu1 pontos de entrada 0.3 Ephem 4.0.0.2
facetas-visão geral 1.0.0 filelock 3.0.12 Flask 1.1.2
flatbuffers 1.12 FSspec 0.9.0 Futuro 0.18.2
gast 0.4.0 GitDB 4.0.7 GitPython 3.1.12
Google-Auth 1.22.1 google-auth-oauthlib 0.4.2 google-massas 0.2.0
Grpcio 1.34.1 Gunicorn 20.0.4 H5PY 3.1.0
Hijri-Conversor 2.1.3 feriados 0.10.5.2 Horovod 0.22.1
htmlmin 0.1.12 idna 2.10 ImagemHash 4.2.1
Ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 Isodato 0.6.0 é perigoso 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
Joblib 1.0.1 Joblibspark 0.3.0 jsonschema 3.2.0
jupyter-cliente 6.1.12 Jupyter-core 4.7.1 Jupyterlab-Pygments 0.1.2
jupyterlab-widgets 1.0.1 keras-noturno 2.5.0.dev2021032900 Pré-processamento de Keras 1.1.2
Kiwisolver 1.3.1 coalas 1.8.1 Coreano-Lunar-Calendário 0.2.1
LightGBM 3.1.1 llvmlite 0.36.0 LunarCalendário 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 faltandonão 0.5.0 Mistune 0.8.4
PEAML 0.17.0 mlflow-magro 1.19.0 multimétodo 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
Ninho-Asyncio 1.5.1 redex 2.5 NLTK 3.6.1
bloco de notas 6.3.0 numba 0.53.1 numpy 1.19.2
OAuthlib 3.1.0 opt-einsum 3.3.0 embalagem 20.9
pandas 1.2.4 criação de perfis de pandas 3.0.0 PandocFilters 1.4.3
Paramiko 2.7.2 Parso 0.7.0 patsy 0.5.1
petastorm 0.11.1 pexpect 4.8.0 Phik 0.12.0
pickleshare 0.7.5 Travesseiro 8.2.0 pip 21.0.1
enredo 4.14.3 Prometheus-cliente 0.11.0 prompt-toolkit 3.0.17
profeta 1.0.1 protobuf 3.17.2 PSUTIL 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-módulos 0.2.8 pycparser 2,20
Pidântico 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 Pyodbc 4.0.30
pyparsing 2.4.7 pirsistent 0.17.3 Pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
Pyzmq 20.0.0 regex 2021.4.4 pedidos 2.25.1
pedidos-oauthlib 1.3.0 pedidos-unixsocket 0.2.0 A tentar... 1.3.3
RSA 4.7.2 s3transferir 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Enviar2Lixo 1.5.0
setuptools 52.0.0 setuptools-git 1.2 PASP 0.39.0
simplejson 3.17.2 seis 1.15.0 segmentação de dados 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 SQLPARSE 0.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabular 0.8.7
emaranhado em unicode 0.1.0 TensorBoard 2.5.0 Tensorboard-Data-Server 0.6.1
Tensorboard-plugin-wit 1.8.0 TensorFlow 2.5.0 TensorFlow-Estimador 2.5.0
Termcolor 1.1.0 terminado 0.9.4 caminho de teste 0.4.4
ThreadPoolCtl 2.1.0 tocha 1.9.0+CU111 Torchvision 0.10.0+CU111
tornado 6.1 TQDM 4.59.0 traços 5.0.5
extensões de digitação 3.7.4.3 Ujson 4.0.2 Upgrades autônomos 0.1
urllib3 1.25.11 virtualenv 20.4.1 visões 0.7.1
largura de wc 0.2.5 WebEncodings 0.5.1 Websocket-cliente 0.57.0
Werkzeug 1.0.1 roda 0.36.2 widgetsnbextension 3.5.1
embrulhado 1.12.1 xgboost 1.4.2

Pacotes Spark contendo módulos Python

Pacote Spark Módulo Python Versão
quadros gráficos quadros gráficos 0.8.1-DB3-Faísca3.1

Bibliotecas R

As bibliotecas R são idênticas às bibliotecas R no Databricks Runtime 9.0.

Bibliotecas Java e Scala (cluster Scala 2.12)

Além das bibliotecas Java e Scala no Databricks Runtime 9.0, o Databricks Runtime 9.0 ML contém os seguintes JARs:

Clusters de CPU

ID do Grupo ID do Artefacto Versão
com.typesafe.akka AKKA-actor_2,12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2,12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-faísca3.1
org.mlflow mlflow-cliente 1.19.0
org.mlflow MLFLOW-Faísca 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Clusters GPU

ID do Grupo ID do Artefacto Versão
com.typesafe.akka AKKA-actor_2,12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2,12 1.4.1
ml.dmlc xgboost4j-faísca-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-faísca3.1
org.mlflow mlflow-cliente 1.19.0
org.mlflow MLFLOW-Faísca 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0