Databricks Runtime 9.0 para ML (EoS)
Nota
O suporte para esta versão do Databricks Runtime terminou. Para obter a data de fim do suporte, consulte Histórico de fim do suporte. Para todas as versões suportadas do Databricks Runtime, consulte Versões e compatibilidade das notas de versão do Databricks Runtime.
A Databricks lançou esta versão em agosto de 2021.
O Databricks Runtime 9.0 for Machine Learning fornece um ambiente pronto para uso para aprendizado de máquina e ciência de dados com base no Databricks Runtime 9.0 (EoS). O Databricks Runtime ML contém muitas bibliotecas populares de aprendizado de máquina, incluindo TensorFlow, PyTorch e XGBoost. Ele também suporta treinamento distribuído de aprendizagem profunda usando Horovod.
Para obter mais informações, incluindo instruções para criar um cluster de ML do Databricks Runtime, consulte IA e aprendizado de máquina no Databricks.
Correção
Uma versão anterior dessas notas de versão afirmava que o suporte para monitorar métricas de GPU de cluster com o Ganglia estava desativado na GPU Databricks Runtime 9.0 ML. Isso era verdade para o Databricks Runtime 9.0 ML Beta, mas o problema foi corrigido com o Databricks Runtime 9.0 ML GA. A declaração foi removida.
Novos recursos e melhorias
O Databricks Runtime 9.0 ML é construído sobre o Databricks Runtime 9.0. Para obter informações sobre o que há de novo no Databricks Runtime 9.0, incluindo Apache Spark MLlib e SparkR, consulte as notas de versão do Databricks Runtime 9.0 (EoS ).
Databricks Autologging (Visualização pública)
O Databricks Autologging agora está disponível para o Databricks Runtime 9.0 for Machine Learning em regiões selecionadas. O Databricks Autologging é uma solução sem código que fornece rastreamento automático de experimentos para sessões de treinamento de aprendizado de máquina no Azure Databricks. Com o Databricks Autologging, parâmetros de modelo, métricas, arquivos e informações de linhagem são capturados automaticamente quando você treina modelos de uma variedade de bibliotecas populares de aprendizado de máquina. As sessões de treinamento são registradas como MLflow Tracking Runs. Os arquivos de modelo também são rastreados para que você possa registrá-los facilmente no Registro do Modelo MLflow e implantá-los para pontuação em tempo real com o MLflow Model Serving.
Para obter mais informações sobre Databricks Autologging, consulte Databricks Autologging.
Melhorias no Databricks Feature Store
O desempenho ao criar um conjunto de treinamento foi melhorado minimizando o número de associações nas tabelas de recursos de origem.
A integração do XGBoost com o PySpark agora suporta treinamento distribuído e clusters de GPU
Para obter detalhes, consulte Usar XGBoost no Azure Databricks.
Principais alterações no ambiente Python do Databricks Runtime ML
Os ambientes Conda, juntamente com o comando %conda, são removidos. O Databricks Runtime 9.0 ML é construído com pip
e virtualenv
.
Imagens personalizadas usando ambientes baseados em Conda com Databricks Container Services ainda serão suportadas, mas não terão recursos de biblioteca com escopo de notebook. O Databricks recomenda o uso de ambientes baseados em virtualenv com o Databricks Container Services e %pip
para todas as bibliotecas com escopo de notebook.
Consulte Databricks Runtime 9.0 (EoS) para obter as principais alterações no ambiente Python do Databricks Runtime. Para obter uma lista completa dos pacotes Python instalados e suas versões, consulte Bibliotecas Python.
Pacotes Python atualizados
- MLFLOW 1.18.0 -> 1.19.0
- NLTK 3,5 -> 3,6,1
Pacotes Python adicionados
- Profeta 1.0.1
Pacotes Python removidos
- MKL
- azure-core
- azure-storage-blob
- MSREST
- docker
- querystring-parser
- Intel-OpenMP
Descontinuações e recursos sem suporte
- No Databricks Runtime 9.0 ML, o HorovodRunner não suporta a configuração
np=0
, ondenp
é o número de processos paralelos a serem usados para o trabalho do Horovod. - O Databricks Runtime 9.0 ML inclui o r-base 4.1.0 com motor gráfico R versão 14. Isto não é suportado pelo RStudio Server versão 1.2.x.
nvprof
é removido na GPU do Databricks Runtime 9.0 ML.
Ambiente do sistema
O ambiente do sistema no Databricks Runtime 9.0 ML difere do Databricks Runtime 9.0 da seguinte forma:
- DBUtils: Databricks Runtime ML não inclui o utilitário Biblioteca (dbutils.library) (legado).
Em vez disso, use
%pip
comandos. Veja Bibliotecas em Python com âmbito de bloco de notas. - Para clusters de GPU, o Databricks Runtime ML inclui as seguintes bibliotecas de GPU NVIDIA:
- CUDA 11,0
- cuDNN 8.1.0.77
- NCCL 2.10.3
- TensorRT 7.2.2
Bibliotecas
As seções a seguir listam as bibliotecas incluídas no Databricks Runtime 9.0 ML que diferem daquelas incluídas no Databricks Runtime 9.0.
Nesta secção:
- Bibliotecas de nível superior
- Bibliotecas Python
- Bibliotecas R
- Bibliotecas Java e Scala (cluster Scala 2.12)
Bibliotecas de nível superior
O Databricks Runtime 9.0 ML inclui as seguintes bibliotecas de camada superior:
- GraphFrames
- Horovod e HorovodRunner
- MLflow
- PyTorch
- conector spark-tensorflow;
- TensorFlow
- TensorBoard
Bibliotecas Python
O Databricks Runtime 9.0 ML usa o Virtualenv para gerenciamento de pacotes Python e inclui muitos pacotes de ML populares.
Além dos pacotes especificados nas seções a seguir, o Databricks Runtime 9.0 ML também inclui os seguintes pacotes:
- hiperopta 0.2.5.db2
- Sparkdl 2.2.0_db1
- feature_store 0.3.3
- AutoML 1.1.1 |
Bibliotecas Python em clusters de CPU
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
ABSL-PY | 0.11.0 | Antergos Linux | 2015.10 (Laminação ISO) | Appdirs | 1.4.4 |
Argônio2-CFFI | 20.1.0 | Astor | 0.8.1 | Astunparse | 1.6.3 |
gerador assíncrono | 1.10 | ATRs | 20.3.0 | Backcall | 0.2.0 |
Cripta | 3.2.0 | lixívia | 3.3.0 | boto3 | 1.16.7 |
botocore | 1.19.7 | Gargalo | 1.3.2 | Ferramentas de cache | 4.2.2 |
certifi | 2020.12.5 | cffi | 1.14.5 | chardet | 4.0.0 |
clicar | 7.1.2 | Cloudpickle | 1.6.0 | CMDSTANPY | 0.9.68 |
ConfigParser | 5.0.1 | convertdate | 2.3.2 | criptografia | 3.4.7 |
cycler | 0.10.0 | Quisto | 0.29.23 | databricks-cli | 0.14.3 |
dbus-python | 1.2.16 | decorador | 5.0.6 | DeUsedXML | 0.7.1 |
endro | 0.3.2 | cache de disco | 5.2.1 | Distlib | 0.3.2 |
distro-info | 0,23ubuntu1 | pontos de entrada | 0.3 | Ephem | 4.0.0.2 |
facetas-visão geral | 1.0.0 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 1.12 | FSspec | 0.9.0 | Futuro | 0.18.2 |
gast | 0.4.0 | GitDB | 4.0.7 | GitPython | 3.1.12 |
Google-Auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-massas | 0.2.0 |
Grpcio | 1.34.1 | Gunicorn | 20.0.4 | H5PY | 3.1.0 |
Hijri-Conversor | 2.1.3 | feriados | 0.10.5.2 | Horovod | 0.22.1 |
htmlmin | 0.1.12 | idna | 2.10 | ImagemHash | 4.2.1 |
Ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.4 | Isodato | 0.6.0 | é perigoso | 1.1.0 |
Jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
Joblib | 1.0.1 | Joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-cliente | 6.1.12 | Jupyter-core | 4.7.1 | Jupyterlab-Pygments | 0.1.2 |
jupyterlab-widgets | 1.0.1 | keras-noturno | 2.5.0.dev2021032900 | Pré-processamento de Keras | 1.1.2 |
Kiwisolver | 1.3.1 | coalas | 1.8.1 | Coreano-Lunar-Calendário | 0.2.1 |
LightGBM | 3.1.1 | llvmlite | 0.36.0 | LunarCalendário | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 1.1.1 |
matplotlib | 3.4.2 | faltandonão | 0.5.0 | Mistune | 0.8.4 |
PEAML | 0.17.0 | mlflow-magro | 1.19.0 | multimétodo | 1.4 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
Ninho-Asyncio | 1.5.1 | redex | 2.5 | NLTK | 3.6.1 |
bloco de notas | 6.3.0 | numba | 0.53.1 | numpy | 1.19.2 |
OAuthlib | 3.1.0 | opt-einsum | 3.3.0 | embalagem | 20.9 |
pandas | 1.2.4 | criação de perfis de pandas | 3.0.0 | PandocFilters | 1.4.3 |
Paramiko | 2.7.2 | Parso | 0.7.0 | patsy | 0.5.1 |
petastorm | 0.11.1 | pexpect | 4.8.0 | Phik | 0.12.0 |
pickleshare | 0.7.5 | Travesseiro | 8.2.0 | pip | 21.0.1 |
enredo | 4.14.3 | Prometheus-cliente | 0.10.1 | prompt-toolkit | 3.0.17 |
profeta | 1.0.1 | protobuf | 3.17.2 | PSUTIL | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-módulos | 0.2.8 | pycparser | 2,20 |
Pidântico | 1.8.2 | Pygments | 2.8.1 | PyGObject | 3.36.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.3.0 | Pyodbc | 4.0.30 |
pyparsing | 2.4.7 | pirsistent | 0.17.3 | Pystan | 2.19.1.1 |
python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 | python-editor | 1.0.4 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
Pyzmq | 20.0.0 | regex | 2021.4.4 | pedidos | 2.25.1 |
pedidos-oauthlib | 1.3.0 | pedidos-unixsocket | 0.2.0 | A tentar... | 1.3.3 |
RSA | 4.7.2 | s3transferir | 0.3.7 | scikit-learn | 0.24.1 |
scipy | 1.6.2 | seaborn | 0.11.1 | Enviar2Lixo | 1.5.0 |
setuptools | 52.0.0 | setuptools-git | 1.2 | PASP | 0.39.0 |
simplejson | 3.17.2 | seis | 1.15.0 | segmentação de dados | 0.0.7 |
smmap | 3.0.5 | spark-tensorflow-distributor | 0.1.0 | SQLPARSE | 0.4.1 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | tabular | 0.8.7 |
emaranhado em unicode | 0.1.0 | TensorBoard | 2.5.0 | Tensorboard-Data-Server | 0.6.1 |
Tensorboard-plugin-wit | 1.8.0 | TensorFlow-CPU | 2.5.0 | TensorFlow-Estimador | 2.5.0 |
Termcolor | 1.1.0 | terminado | 0.9.4 | caminho de teste | 0.4.4 |
ThreadPoolCtl | 2.1.0 | tocha | 1.9.0+CPU | Torchvision | 0.10.0+CPU |
tornado | 6.1 | TQDM | 4.59.0 | traços | 5.0.5 |
extensões de digitação | 3.7.4.3 | Ujson | 4.0.2 | Upgrades autônomos | 0.1 |
urllib3 | 1.25.11 | virtualenv | 20.4.1 | visões | 0.7.1 |
largura de wc | 0.2.5 | WebEncodings | 0.5.1 | Websocket-cliente | 0.57.0 |
Werkzeug | 1.0.1 | roda | 0.36.2 | widgetsnbextension | 3.5.1 |
embrulhado | 1.12.1 | xgboost | 1.4.2 |
Bibliotecas Python em clusters GPU
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
ABSL-PY | 0.11.0 | Antergos Linux | 2015.10 (Laminação ISO) | Appdirs | 1.4.4 |
Argônio2-CFFI | 20.1.0 | Astor | 0.8.1 | Astunparse | 1.6.3 |
gerador assíncrono | 1.10 | ATRs | 20.3.0 | Backcall | 0.2.0 |
Cripta | 3.2.0 | lixívia | 3.3.0 | boto3 | 1.16.7 |
botocore | 1.19.7 | Gargalo | 1.3.2 | Ferramentas de cache | 4.2.2 |
certifi | 2020.12.5 | cffi | 1.14.5 | chardet | 4.0.0 |
clicar | 7.1.2 | Cloudpickle | 1.6.0 | CMDSTANPY | 0.9.68 |
ConfigParser | 5.0.1 | convertdate | 2.3.2 | criptografia | 3.4.7 |
cycler | 0.10.0 | Quisto | 0.29.23 | databricks-cli | 0.14.3 |
dbus-python | 1.2.16 | decorador | 5.0.6 | DeUsedXML | 0.7.1 |
endro | 0.3.2 | cache de disco | 5.2.1 | Distlib | 0.3.2 |
distro-info | 0,23ubuntu1 | pontos de entrada | 0.3 | Ephem | 4.0.0.2 |
facetas-visão geral | 1.0.0 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 1.12 | FSspec | 0.9.0 | Futuro | 0.18.2 |
gast | 0.4.0 | GitDB | 4.0.7 | GitPython | 3.1.12 |
Google-Auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-massas | 0.2.0 |
Grpcio | 1.34.1 | Gunicorn | 20.0.4 | H5PY | 3.1.0 |
Hijri-Conversor | 2.1.3 | feriados | 0.10.5.2 | Horovod | 0.22.1 |
htmlmin | 0.1.12 | idna | 2.10 | ImagemHash | 4.2.1 |
Ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.4 | Isodato | 0.6.0 | é perigoso | 1.1.0 |
Jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
Joblib | 1.0.1 | Joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-cliente | 6.1.12 | Jupyter-core | 4.7.1 | Jupyterlab-Pygments | 0.1.2 |
jupyterlab-widgets | 1.0.1 | keras-noturno | 2.5.0.dev2021032900 | Pré-processamento de Keras | 1.1.2 |
Kiwisolver | 1.3.1 | coalas | 1.8.1 | Coreano-Lunar-Calendário | 0.2.1 |
LightGBM | 3.1.1 | llvmlite | 0.36.0 | LunarCalendário | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 1.1.1 |
matplotlib | 3.4.2 | faltandonão | 0.5.0 | Mistune | 0.8.4 |
PEAML | 0.17.0 | mlflow-magro | 1.19.0 | multimétodo | 1.4 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
Ninho-Asyncio | 1.5.1 | redex | 2.5 | NLTK | 3.6.1 |
bloco de notas | 6.3.0 | numba | 0.53.1 | numpy | 1.19.2 |
OAuthlib | 3.1.0 | opt-einsum | 3.3.0 | embalagem | 20.9 |
pandas | 1.2.4 | criação de perfis de pandas | 3.0.0 | PandocFilters | 1.4.3 |
Paramiko | 2.7.2 | Parso | 0.7.0 | patsy | 0.5.1 |
petastorm | 0.11.1 | pexpect | 4.8.0 | Phik | 0.12.0 |
pickleshare | 0.7.5 | Travesseiro | 8.2.0 | pip | 21.0.1 |
enredo | 4.14.3 | Prometheus-cliente | 0.11.0 | prompt-toolkit | 3.0.17 |
profeta | 1.0.1 | protobuf | 3.17.2 | PSUTIL | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-módulos | 0.2.8 | pycparser | 2,20 |
Pidântico | 1.8.2 | Pygments | 2.8.1 | PyGObject | 3.36.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.3.0 | Pyodbc | 4.0.30 |
pyparsing | 2.4.7 | pirsistent | 0.17.3 | Pystan | 2.19.1.1 |
python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 | python-editor | 1.0.4 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
Pyzmq | 20.0.0 | regex | 2021.4.4 | pedidos | 2.25.1 |
pedidos-oauthlib | 1.3.0 | pedidos-unixsocket | 0.2.0 | A tentar... | 1.3.3 |
RSA | 4.7.2 | s3transferir | 0.3.7 | scikit-learn | 0.24.1 |
scipy | 1.6.2 | seaborn | 0.11.1 | Enviar2Lixo | 1.5.0 |
setuptools | 52.0.0 | setuptools-git | 1.2 | PASP | 0.39.0 |
simplejson | 3.17.2 | seis | 1.15.0 | segmentação de dados | 0.0.7 |
smmap | 3.0.5 | spark-tensorflow-distributor | 0.1.0 | SQLPARSE | 0.4.1 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | tabular | 0.8.7 |
emaranhado em unicode | 0.1.0 | TensorBoard | 2.5.0 | Tensorboard-Data-Server | 0.6.1 |
Tensorboard-plugin-wit | 1.8.0 | TensorFlow | 2.5.0 | TensorFlow-Estimador | 2.5.0 |
Termcolor | 1.1.0 | terminado | 0.9.4 | caminho de teste | 0.4.4 |
ThreadPoolCtl | 2.1.0 | tocha | 1.9.0+CU111 | Torchvision | 0.10.0+CU111 |
tornado | 6.1 | TQDM | 4.59.0 | traços | 5.0.5 |
extensões de digitação | 3.7.4.3 | Ujson | 4.0.2 | Upgrades autônomos | 0.1 |
urllib3 | 1.25.11 | virtualenv | 20.4.1 | visões | 0.7.1 |
largura de wc | 0.2.5 | WebEncodings | 0.5.1 | Websocket-cliente | 0.57.0 |
Werkzeug | 1.0.1 | roda | 0.36.2 | widgetsnbextension | 3.5.1 |
embrulhado | 1.12.1 | xgboost | 1.4.2 |
Pacotes Spark contendo módulos Python
Pacote Spark | Módulo Python | Versão |
---|---|---|
quadros gráficos | quadros gráficos | 0.8.1-DB3-Faísca3.1 |
Bibliotecas R
As bibliotecas R são idênticas às bibliotecas R no Databricks Runtime 9.0.
Bibliotecas Java e Scala (cluster Scala 2.12)
Além das bibliotecas Java e Scala no Databricks Runtime 9.0, o Databricks Runtime 9.0 ML contém os seguintes JARs:
Clusters de CPU
ID do Grupo | ID do Artefacto | Versão |
---|---|---|
com.typesafe.akka | AKKA-actor_2,12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.17.0-4882dc3 |
ml.dmlc | xgboost4j-spark_2,12 | 1.4.1 |
ml.dmlc | xgboost4j_2.12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-faísca3.1 |
org.mlflow | mlflow-cliente | 1.19.0 |
org.mlflow | MLFLOW-Faísca | 1.19.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Clusters GPU
ID do Grupo | ID do Artefacto | Versão |
---|---|---|
com.typesafe.akka | AKKA-actor_2,12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.17.0-4882dc3 |
ml.dmlc | xgboost4j-gpu_2,12 | 1.4.1 |
ml.dmlc | xgboost4j-faísca-gpu_2.12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-faísca3.1 |
org.mlflow | mlflow-cliente | 1.19.0 |
org.mlflow | MLFLOW-Faísca | 1.19.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |