Databricks Runtime 11.3 LTS para Machine Learning
O Databricks Runtime 11.3 LTS para Machine Learning fornece um ambiente pronto para uso em aprendizado de máquina e ciência de dados com base no Databricks Runtime 11.3 LTS. O Databricks Runtime ML contém muitas bibliotecas de aprendizado de máquina populares, inclusive TensorFlow, PyTorch e XGBoost. O Databricks Runtime ML inclui o AutoML, uma ferramenta para treinamento automático de pipelines de aprendizado de máquina. O Databricks Runtime ML também oferece suporte ao treinamento de aprendizado profundo distribuído com o uso do Horovod.
Observação
LTS significa que essa versão possui suporte de longo prazo. Consulte Ciclo de vida da versão de LTS do Databricks Runtime.
Para obter mais informações, incluindo instruções para criar um cluster de ML do Databricks Runtime, confira IA e aprendizado de máquina no Databricks.
Dica
Para ver as notas sobre a versão das versões do Databricks Runtime que chegaram ao fim do suporte (EoS), confira Notas sobre as versões do Databricks Runtime em fim de suporte. As versões do Databricks Runtime EoS foram desativadas e podem não ser atualizadas.
Novos recursos e aprimoramentos
O Databricks Runtime 11.3 LTS para ML tem como base o Databricks Runtime 11.3 LTS. Para obter informações sobre as novidades do Databricks Runtime 11.3 LTS, inclusive o MLlib e o SparkR do Apache Spark, confira as notas sobre a versão do Databricks Runtime 11.3 LTS.
Aprimoramentos no AutoML
O AutoML agora dá suporte ao uso de tabelas de recursos existentes do Feature Store em seus experimentos do AutoML. Para obter detalhes, consulte Integração do AutoML Feature Store.
Os notebooks de avaliação gerados pelo AutoML agora contêm snippets de código que permitem que os usuários executem novamente o ajuste do hiperparâmetro.
O AutoML agora dá suporte a recursos DecimalType
.
Correções de bug
O Databricks Runtime 11.3 LTS para ML inclui uma versão atualizada do sparkdl.xgboost
. As versões anteriores de sparkdl.xgboost
contêm bugs corrigidos nesta versão, portanto, o Databricks recomenda que os usuários da biblioteca atualizem para o Databricks Runtime 11.3 LTS para ML.
Preparar para versões futuras
Uma versão futura do Databricks Runtime ML incluirá a versão 1.0 do sklearn
. Visite a sklearn
documentação para obter informações sobre como se preparar para essa mudança.
O Databricks Runtime ML contém dois pacotes openblas
. O pacote /opt/OpenBLAS
foi preterido no Databricks Runtime 11.3 LTS para ML e será removido em uma próxima versão.
Ambiente do sistema
O ambiente do sistema no Databricks Runtime 11.3 LTS para ML difere do Databricks Runtime 11.3 LTS nestes pontos:
- DBUtils: o Databricks Runtime ML não inclui o Utilitário de biblioteca (dbutils.library) (herdado).
Use os comandos
%pip
. Confira as bibliotecas Python no escopo do notebook. - Para clusters de GPU, o Databricks Runtime ML inclui as seguintes bibliotecas de GPU NVIDIA:
- CUDA 11.3
- cuDNN 8.0.5.39
- NCCL 2.9.9
- TensorRT 7.2.2
O Databricks Runtime 11.3 LTS ML inclui o XGBoost 1.6.1, que não tem suporte para clusters de GPU com capacidade de computação 5.2 e inferior.
Bibliotecas
As seções a seguir listam as bibliotecas incluídas no Databricks Runtime 11.3 LTS para ML que diferem daquelas incluídas no Databricks Runtime 11.3 LTS.
Nesta seção:
- Bibliotecas de camada superior
- Bibliotecas do Python
- Bibliotecas do R
- Bibliotecas do Java e do Scala (cluster do Scala 2.12)
Bibliotecas de camada superior
O Databricks Runtime 11.3 LTS para ML inclui as seguintes bibliotecas de camada superior:
- GraphFrames
- Horovod e HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
- Scikit-learn
Bibliotecas do Python
O Databricks Runtime 11.3 LTS para ML usa o Virtualenv para gerenciamento de pacotes Python e inclui muitos pacotes de ML populares.
Além dos pacotes especificados nas seções a seguir, o Databricks Runtime 11.3 LTS para ML também inclui os seguintes pacotes:
- hyperopt 0.2.7.db1
- sparkdl 2.3.0-db3
- feature_store 0.7.0
- automl 1.13.2
Para reproduzir o ambiente do Python do Databricks Runtime ML no ambiente virtual do Python local, baixe o arquivo requirements-11.3.txt e execute pip install -r requirements-11.3.txt
. Esse comando instala todas as bibliotecas código aberto que o Databricks Runtime ML usa, mas não instala bibliotecas desenvolvidas pelo Databricks, como databricks-automl
, databricks-feature-store
, ou o fork do Databricks de hyperopt
.
Bibliotecas do Python em clusters de CPU
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
absl-py | 1.0.0 | argon2-cffi | 20.1.0 | astor | 0.8.1 |
astunparse | 1.6.3 | async-generator | 1,10 | attrs | 21.2.0 |
azure-core | 1.22.1 | azure-cosmos | 4.2.0 | backcall | 0.2.0 |
backports.entry-points-selectable | 1.1.1 | bcrypt | 4.0.0 | black | 22.3.0 |
bleach | 4.0.0 | blis | 0.7.8 | boto3 | 1.21.18 |
botocore | 1.24.18 | cachetools | 5.2.0 | catalogue | 2.0.8 |
certifi | 2021.10.8 | cffi | 1.14.6 | chardet | 4.0.0 |
charset-normalizer | 2.0.4 | clique | 8.0.3 | cloudpickle | 2.0.0 |
cmdstanpy | 0.9.68 | confecção | 0.0.1 | configparser | 5.2.0 |
convertdate | 2.4.0 | criptografia | 3.4.8 | cycler | 0.10.0 |
cymem | 2.0.6 | Cython | 0.29.24 | databricks-automl-runtime | 0.2.11 |
databricks-cli | 0.17.3 | dbl-tempo | 0.1.12 | dbus-python | 1.2.16 |
debugpy | 1.4.1 | decorator | 5.1.0 | defusedxml | 0.7.1 |
dill | 0.3.4 | diskcache | 5.4.0 | distlib | 0.3.6 |
entrypoints | 0.3 | ephem | 4.1.3 | facets-overview | 1.0.0 |
fasttext | 0.9.2 | filelock | 3.3.1 | Flask | 1.1.2 |
flatbuffers | 1.12 | fsspec | 2021.8.1 | future | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.9 | GitPython | 3.1.27 |
google-auth | 2.6.0 | google-auth-oauthlib | 0.4.6 | google-pasta | 0.2.0 |
grpcio | 1.44.0 | gunicorn | 20.1.0 | gviz-api | 1.10.0 |
h5py | 3.3.0 | hijri-converter | 2.2.4 | feriados | 0.15 |
horovod | 0.25.0 | htmlmin | 0.1.12 | huggingface-hub | 0.9.1 |
idna | 3.2 | ImageHash | 4.3.0 | imbalanced-learn | 0.8.1 |
importlib-metadata | 4.8.1 | ipykernel | 6.12.1 | ipython | 7.32.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.7.0 | isodate | 0.6.1 |
itsdangerous | 2.0.1 | jedi | 0.18.0 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.5.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.8.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.9.0 |
Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | korean-lunar-calendar | 0.3.1 |
langcodes | 3.3.0 | libclang | 14.0.6 | lightgbm | 3.3.2 |
llvmlite | 0.37.0 | LunarCalendar | 0.0.9 | Mako | 1.2.0 |
Markdown | 3.3.6 | MarkupSafe | 2.0.1 | matplotlib | 3.4.3 |
matplotlib-inline | 0.1.2 | missingno | 0.5.1 | mistune | 0.8.4 |
mleap | 0.20.0 | mlflow-skinny | 1.29.0 | multimethod | 1.9 |
murmurhash | 1.0.8 | mypy-extensions | 0.4.3 | nbclient | 0.5.3 |
nbconvert | 6.1.0 | nbformat | 5.1.3 | nest-asyncio | 1.5.1 |
networkx | 2.6.3 | nltk | 3.6.5 | notebook | 6.4.5 |
numba | 0.54.1 | numpy | 1.20.3 | oauthlib | 3.2.0 |
opt-einsum | 3.3.0 | empacotando | 21.0 | pandas | 1.3.4 |
pandas-profiling | 3.1.0 | pandocfilters | 1.4.3 | paramiko | 2.9.2 |
parso | 0.8.2 | pathspec | 0.9.0 | pathy | 0.6.2 |
patsy | 0.5.2 | petastorm | 0.11.4 | pexpect | 4.8.0 |
phik | 0.12.2 | pickleshare | 0.7.5 | Pillow | 8.4.0 |
pip | 21.2.4 | platformdirs | 2.5.2 | plotly | 5.9.0 |
pmdarima | 1.8.5 | preshed | 3.0.7 | prometheus-client | 0.11.0 |
prompt-toolkit | 3.0.20 | prophet | 1.0.1 | protobuf | 3.19.4 |
psutil | 5.8.0 | psycopg2 | 2.9.3 | ptyprocess | 0.7.0 |
pyarrow | 7.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
pybind11 | 2.10.0 | pycparser | 2,20 | pydantic | 1.9.2 |
Pygments | 2.10.0 | PyGObject | 3.36.0 | PyJWT | 2.5.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.5.0 | pyodbc | 4.0.31 |
pyparsing | 3.0.4 | pyrsistent | 0.18.0 | pystan | 2.19.1.1 |
python-dateutil | 2.8.2 | python-editor | 1.0.4 | pytz | 2021.3 |
PyWavelets | 1.1.1 | PyYAML | 6,0 | pyzmq | 22.2.1 |
regex | 2021.8.3 | solicitações | 2.26.0 | requests-oauthlib | 1.3.1 |
requests-unixsocket | 0.2.0 | rsa | 4.9 | s3transfer | 0.5.2 |
scikit-learn | 0.24.2 | scipy | 1.7.1 | seaborn | 0.11.3 |
Send2Trash | 1.8.0 | setuptools | 58.0.4 | setuptools-git | 1,2 |
shap | 0.41.0 | simplejson | 3.17.6 | six | 1.16.0 |
slicer | 0.0.7 | smart-open | 5.2.1 | smmap | 5.0.0 |
spacy | 3.4.1 | spacy-legacy | 3.0.10 | spacy-loggers | 1.0.3 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.2 | srsly | 2.4.4 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | tabulate | 0.8.9 |
tangled-up-in-unicode | 0.1.0 | tenacity | 8.0.1 | tensorboard | 2.9.1 |
tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.8.0 | tensorboard-plugin-wit | 1.8.1 |
tensorflow-cpu | 2.9.1 | tensorflow-estimator | 2.9.0 | tensorflow-io-gcs-filesystem | 0.27.0 |
termcolor | 2.0.1 | terminado | 0.9.4 | testpath | 0.5.0 |
thinc | 8.1.2 | threadpoolctl | 2.2.0 | tokenize-rt | 4.2.1 |
criadores de token | 0.12.1 | tomli | 2.0.1 | torch | 1.12.1+cpu |
torchvision | 0.13.1+cpu | tornado | 6.1 | tqdm | 4.62.3 |
traitlets | 5.1.0 | transformers | 4.21.2 | typer | 0.4.2 |
typing-extensions | 3.10.0.2 | ujson | 4.0.2 | unattended-upgrades | 0,1 |
urllib3 | 1.26.7 | virtualenv | 20.8.0 | visions | 0.7.4 |
wasabi | 0.10.1 | wcwidth | 0.2.5 | webencodings | 0.5.1 |
websocket-client | 1.3.1 | Werkzeug | 2.0.2 | wheel | 0.37.0 |
widgetsnbextension | 3.6.0 | wrapt | 1.12.1 | xgboost | 1.6.2 |
zipp | 3.6.0 |
Bibliotecas do Python em clusters de GPU
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
absl-py | 1.0.0 | argon2-cffi | 20.1.0 | astor | 0.8.1 |
astunparse | 1.6.3 | async-generator | 1,10 | attrs | 21.2.0 |
azure-core | 1.22.1 | azure-cosmos | 4.2.0 | backcall | 0.2.0 |
backports.entry-points-selectable | 1.1.1 | bcrypt | 4.0.0 | black | 22.3.0 |
bleach | 4.0.0 | blis | 0.7.8 | boto3 | 1.21.18 |
botocore | 1.24.18 | cachetools | 5.2.0 | catalogue | 2.0.8 |
certifi | 2021.10.8 | cffi | 1.14.6 | chardet | 4.0.0 |
charset-normalizer | 2.0.4 | clique | 8.0.3 | cloudpickle | 2.0.0 |
cmdstanpy | 0.9.68 | confecção | 0.0.1 | configparser | 5.2.0 |
convertdate | 2.4.0 | criptografia | 3.4.8 | cycler | 0.10.0 |
cymem | 2.0.6 | Cython | 0.29.24 | databricks-automl-runtime | 0.2.11 |
databricks-cli | 0.17.3 | dbl-tempo | 0.1.12 | dbus-python | 1.2.16 |
debugpy | 1.4.1 | decorator | 5.1.0 | defusedxml | 0.7.1 |
dill | 0.3.4 | diskcache | 5.4.0 | distlib | 0.3.6 |
entrypoints | 0.3 | ephem | 4.1.3 | facets-overview | 1.0.0 |
fasttext | 0.9.2 | filelock | 3.3.1 | Flask | 1.1.2 |
flatbuffers | 1.12 | fsspec | 2021.8.1 | future | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.9 | GitPython | 3.1.27 |
google-auth | 2.6.0 | google-auth-oauthlib | 0.4.6 | google-pasta | 0.2.0 |
grpcio | 1.44.0 | gunicorn | 20.1.0 | gviz-api | 1.10.0 |
h5py | 3.3.0 | hijri-converter | 2.2.4 | feriados | 0.15 |
horovod | 0.25.0 | htmlmin | 0.1.12 | huggingface-hub | 0.9.1 |
idna | 3.2 | ImageHash | 4.3.0 | imbalanced-learn | 0.8.1 |
importlib-metadata | 4.8.1 | ipykernel | 6.12.1 | ipython | 7.32.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.7.0 | isodate | 0.6.1 |
itsdangerous | 2.0.1 | jedi | 0.18.0 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.5.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.8.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.9.0 |
Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | korean-lunar-calendar | 0.3.1 |
langcodes | 3.3.0 | libclang | 14.0.6 | lightgbm | 3.3.2 |
llvmlite | 0.37.0 | LunarCalendar | 0.0.9 | Mako | 1.2.0 |
Markdown | 3.3.6 | MarkupSafe | 2.0.1 | matplotlib | 3.4.3 |
matplotlib-inline | 0.1.2 | missingno | 0.5.1 | mistune | 0.8.4 |
mleap | 0.20.0 | mlflow-skinny | 1.29.0 | multimethod | 1.9 |
murmurhash | 1.0.8 | mypy-extensions | 0.4.3 | nbclient | 0.5.3 |
nbconvert | 6.1.0 | nbformat | 5.1.3 | nest-asyncio | 1.5.1 |
networkx | 2.6.3 | nltk | 3.6.5 | notebook | 6.4.5 |
numba | 0.54.1 | numpy | 1.20.3 | oauthlib | 3.2.0 |
opt-einsum | 3.3.0 | empacotando | 21.0 | pandas | 1.3.4 |
pandas-profiling | 3.1.0 | pandocfilters | 1.4.3 | paramiko | 2.9.2 |
parso | 0.8.2 | pathspec | 0.9.0 | pathy | 0.6.2 |
patsy | 0.5.2 | petastorm | 0.11.4 | pexpect | 4.8.0 |
phik | 0.12.2 | pickleshare | 0.7.5 | Pillow | 8.4.0 |
pip | 21.2.4 | platformdirs | 2.5.2 | plotly | 5.9.0 |
pmdarima | 1.8.5 | preshed | 3.0.7 | prompt-toolkit | 3.0.20 |
prophet | 1.0.1 | protobuf | 3.19.4 | psutil | 5.8.0 |
psycopg2 | 2.9.3 | ptyprocess | 0.7.0 | pyarrow | 7.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pybind11 | 2.10.0 |
pycparser | 2,20 | pydantic | 1.9.2 | Pygments | 2.10.0 |
PyGObject | 3.36.0 | PyJWT | 2.5.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.5.0 | pyodbc | 4.0.31 | pyparsing | 3.0.4 |
pyrsistent | 0.18.0 | pystan | 2.19.1.1 | python-dateutil | 2.8.2 |
python-editor | 1.0.4 | pytz | 2021.3 | PyWavelets | 1.1.1 |
PyYAML | 6,0 | pyzmq | 22.2.1 | regex | 2021.8.3 |
solicitações | 2.26.0 | requests-oauthlib | 1.3.1 | requests-unixsocket | 0.2.0 |
rsa | 4.9 | s3transfer | 0.5.2 | scikit-learn | 0.24.2 |
scipy | 1.7.1 | seaborn | 0.11.3 | Send2Trash | 1.8.0 |
setuptools | 58.0.4 | setuptools-git | 1,2 | shap | 0.41.0 |
simplejson | 3.17.6 | six | 1.16.0 | slicer | 0.0.7 |
smart-open | 5.2.1 | smmap | 5.0.0 | spacy | 3.4.1 |
spacy-legacy | 3.0.10 | spacy-loggers | 1.0.3 | spark-tensorflow-distributor | 1.0.0 |
sqlparse | 0.4.2 | srsly | 2.4.4 | ssh-import-id | 5.10 |
statsmodels | 0.12.2 | tabulate | 0.8.9 | tangled-up-in-unicode | 0.1.0 |
tenacity | 8.0.1 | tensorboard | 2.9.1 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-profile | 2.8.0 | tensorboard-plugin-wit | 1.8.1 | tensorflow | 2.9.1 |
tensorflow-estimator | 2.9.0 | tensorflow-io-gcs-filesystem | 0.27.0 | termcolor | 2.0.1 |
terminado | 0.9.4 | testpath | 0.5.0 | thinc | 8.1.2 |
threadpoolctl | 2.2.0 | tokenize-rt | 4.2.1 | criadores de token | 0.12.1 |
tomli | 2.0.1 | torch | 1.12.1+cu113 | torchvision | 0.13.1+cu113 |
tornado | 6.1 | tqdm | 4.62.3 | traitlets | 5.1.0 |
transformers | 4.21.2 | typer | 0.4.2 | typing-extensions | 3.10.0.2 |
ujson | 4.0.2 | unattended-upgrades | 0,1 | urllib3 | 1.26.7 |
virtualenv | 20.8.0 | visions | 0.7.4 | wasabi | 0.10.1 |
wcwidth | 0.2.5 | webencodings | 0.5.1 | websocket-client | 1.3.1 |
Werkzeug | 2.0.2 | wheel | 0.37.0 | widgetsnbextension | 3.6.0 |
wrapt | 1.12.1 | xgboost | 1.6.2 | zipp | 3.6.0 |
Bibliotecas do R
As bibliotecas do R são idênticas às Bibliotecas do R existentes no Databricks Runtime 11.3 LTS.
Bibliotecas do Java e do Scala (cluster do Scala 2.12)
Além das bibliotecas do Java e do Scala no Databricks Runtime 11.3 LTS, o Databricks Runtime 11.3 LTS para ML contém os seguintes JARs:
Clusters de CPU
ID do Grupo | Artifact ID | Versão |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | v0.20.0-db1 |
ml.dmlc | xgboost4j-spark_2.12 | 1.6.2 |
ml.dmlc | xgboost4j_2.12 | 1.6.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.29.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Clusters de GPU
ID do Grupo | Artifact ID | Versão |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | v0.20.0-db1 |
ml.dmlc | xgboost4j-gpu_2.12 | 1.6.2 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 1.6.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.29.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |