Databricks Runtime 10.2 para ML (EoS)
Nota:
El soporte técnico con esta versión de Databricks Runtime ha finalizado. Para obtener la fecha de finalización del soporte técnico, consulte Historial de finalización del soporte técnico. Para ver todas las versiones de Databricks Runtime con soporte técnico, consulte las notas de la versión de Databricks Runtime versiones y compatibilidad.
Databricks publicó esta versión en diciembre de 2021.
Databricks Runtime 10.2 para Machine Learning proporciona un entorno listo para usar de aprendizaje automático y ciencia de datos basado en Databricks Runtime 10.2 (EoS). Databricks Runtime ML contiene muchas bibliotecas populares de aprendizaje automático, incluidas TensorFlow, PyTorch y XGBoost. Databricks Runtime ML incluye AutoML, una herramienta para entrenar automáticamente canalizaciones de aprendizaje automático. Databricks Runtime ML también admite el entrenamiento de aprendizaje profundo distribuido mediante Horovod.
Para más información, incluidas las instrucciones para crear un clúster de Databricks Runtime ML, consulte IA y aprendizaje automático en Databricks.
Nuevas características y mejoras
Databricks Runtime 10.2 ML se basa en Databricks Runtime 10.2. Para más información sobre las novedades de Databricks Runtime 10.2, entre las que se incluyen Apache Spark MLlib y SparkR, consulte las notas de la versión de Databricks Runtime 10.2 (EoS).
Registro automático de Databricks (Versión preliminar pública)
El Registro automático de Databricks está ahora en Versión preliminar pública en todas las regiones. El Registro automático de Databricks es una solución sin código que proporciona seguimiento automático de experimentos, para sesiones de entrenamiento de aprendizaje automático en Azure Databricks. Con el Registro automático de Databricks, los parámetros del modelo, las métricas, los archivos y la información del linaje se capturan automáticamente, al entrenar modelos a partir de una serie de bibliotecas populares de aprendizaje automático. Las sesiones de entrenamiento se registran como ejecuciones de seguimiento de MLflow. También se realiza un seguimiento de los archivos del modelo, para poder registrarlos fácilmente en el registro de modelos de MLflow e implementarlos para realizar una puntuación en tiempo real, con el Servicio de modelo de MLflow.
Para más información sobre el Registro automático de Databricks, consulte Registro automático de Databricks.
Mejoras en AutoML
Se han realizado las siguientes mejoras en AutoML.
- AutoML omite las columnas que tienen solo un valor.
- Para los problemas de clasificación y regresión, la columna de tiempo usada para dividir el conjunto de datos, cronológicamente, en conjuntos de entrenamiento, validación y pruebas, ahora puede ser de tipo cadena. Antes, solo se admitían los tipos de marca de tiempo y entero. Consulte Dividir datos en conjuntos de entrenamiento, validación y pruebas para obtener más información.
Mejoras en el Almacén de características de Databricks
Se han realizado las siguientes mejoras en el Almacén de características de Databricks.
Interfaz de FeatureStoreClient
simplificada
Se ha simplificado la interfaz de FeatureStoreClient.
FeatureStoreClient.create_feature_table()
está en desuso. En su lugar, useFeatureStoreClient.create_table()
.FeatureStoreClient.get_feature_table()
está en desuso. En su lugar, useFeatureStoreClient.get_table()
.- Todos los argumentos dirigidos a
FeatureStoreClient.publish_table()
, que sean distintos dename
yonline_store
, deben pasarse como argumentos de palabra clave.
Publicar solo las columnas seleccionadas en tiendas en línea
Ahora, el Almacén de características de Databricks admite que solo se publiquen las columnas seleccionadas en una tienda en línea. Para más información, consulte Publicación de características seleccionadas en una tienda en línea.
Cambios importantes en el entorno de Python de Databricks Runtime ML
La integración de Seguimiento de MLflow automatizado para Apache Spark MLlib, que estaba en desuso en Databricks Runtime 10.1 ML, ahora está deshabilitada de manera predeterminada en Databricks Runtime 10.2 ML. Se ha reemplazado por la integración de Registro automático de PySpark ML de MLflow, que está habilitada de manera predeterminada con el Registro automático de Databricks. El registro automático registra información adicional, más allá de lo que capturaba el seguimiento de MLflow automatizado para MLlib, incluidos los parámetros, las métricas y los artefactos asociados al mejor modelo.
Paquetes de Python actualizados
- databricks-cli 0.14.3 => 0.16.2
- keras 2.6.0 => 2.7.0
- lightgbm 3.3.0 => 3.3.1
- mlflow 1.21.0 => 1.22.0
- plotly 5.3.0 => 5.3.1
- shap 0.39.0 => 0.40.0
- spacy 3.1.3 => 3.2.0
- tensorboard 2.6.0 => 2.7.0
- tensorflow 2.6.0 => 2.7.0
- torch 1.9.1 => 1.10.0
- torchvision 0.10.1 => 0.11.1
- transformers 4.11.3 => 4.12.3
- xgboost 1.4.2 => 1.5.0
Entorno del sistema
El entorno del sistema de Databricks Runtime 10.2 ML se diferencia del de Databricks Runtime 10.2 en lo siguiente:
- DBUtils: Databricks Runtime ML no incluye la utilidad de biblioteca de (dbutils.library) (heredada).
Use comandos
%pip
en su lugar. Consulte Bibliotecas de Python cuyo ámbito es Notebook. - En los clústeres de GPU, Databricks Runtime ML incluye las siguientes bibliotecas de GPU de NVIDIA:
- CUDA 11.0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
Bibliotecas
En las secciones siguientes se enumeran las bibliotecas incluidas en Databricks Runtime 10.2 ML, que difieren de las incluidas en Databricks Runtime 10.2.
En esta sección:
- Bibliotecas de nivel superior
- Bibliotecas de Python
- Bibliotecas de R
- Bibliotecas de Java y Scala (clúster de Scala 2.12)
Bibliotecas de nivel superior
Databricks Runtime 10.2 ML incluye las siguientes bibliotecas de nivel superior:
- GraphFrames
- Horovod y HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Bibliotecas de Python
Databricks Runtime 10.2 ML usa Virtualenv para la administración de paquetes de Python, e incluye muchos paquetes de ML populares.
Además de los paquetes especificados en las secciones siguientes, Databricks Runtime 10.2 ML también incluye los siguientes:
- hyperopt 0.2.7.db1
- sparkdl 2.2.0-db5
- feature_store 0.3.6
- automl 1.5.0
Bibliotecas de Python en clústeres de CPU
Biblioteca | Versión | Biblioteca | Versión | Biblioteca | Versión |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1.10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | bleach | 3.3.0 |
blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | catalogue | 2.0.6 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | click | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | criptografía | 3.4.7 | cycler | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.4 |
databricks-cli | 0.16.2 | dbus-python | 1.2.16 | decorator | 5.0.6 |
defusedxml | 0.7.1 | dill | 0.3.2 | diskcache | 5.2.1 |
distlib | 0.3.3 | distro-info | 0.23ubuntu1 | entrypoints | 0,3 |
ephem | 4.1.1 | facets-overview | 1.0.0 | fasttext | 0.9.2 |
filelock | 3.0.12 | Flask | 1.1.2 | flatbuffers | 2.0 |
fsspec | 0.9.0 | future | 0.18.2 | gast | 0.4.0 |
gitdb | 4.0.7 | GitPython | 3.1.12 | google-auth | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grpcio | 1.39.0 |
gunicorn | 20.0.4 | gviz-api | 1.10.0 | h5py | 3.1.0 |
hijri-converter | 2.2.2 | holidays | 0.11.3.1 | horovod | 0.23.0 |
htmlmin | 0.1.12 | huggingface-hub | 0.1.2 | idna | 2.10 |
ImageHash | 4.2.1 | imbalanced-learn | 0.8.1 | importlib-metadata | 3.10.0 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodate | 0.6.0 | itsdangerous | 1.1.0 |
jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.7.0 | keras-preprocessing | 1.1.2 |
kiwisolver | 1.3.1 | koalas | 1.8.2 | korean-lunar-calendar | 0.2.1 |
langcodes | 3.3.0 | libclang | 12.0.0 | lightgbm | 3.3.1 |
llvmlite | 0.37.0 | LunarCalendar | 0.0.9 | Mako | 1.1.3 |
Markdown | 3.3.3 | MarkupSafe | 2.0.1 | matplotlib | 3.4.2 |
missingno | 0.5.0 | mistune | 0.8.4 | mleap | 0.18.1 |
mlflow-skinny | 1.22.0 | multimethod | 1.6 | murmurhash | 1.0.5 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2.5 | nltk | 3.6.1 |
notebook | 6.3.0 | numba | 0.54.1 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | empaquetado | 21,3 |
pandas | 1.2.4 | pandas-profiling | 3.1.0 | pandocfilters | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | pathy | 0.6.0 |
patsy | 0.5.1 | petastorm | 0.11.3 | pexpect | 4.8.0 |
phik | 0.12.0 | pickleshare | 0.7.5 | Pillow | 8.2.0 |
pip | 21.0.1 | plotly | 5.3.1 | preshed | 3.0.5 |
prometheus-client | 0.10.1 | prompt-toolkit | 3.0.17 | prophet | 1.0.1 |
protobuf | 3.17.2 | psutil | 5.8.0 | psycopg2 | 2.8.5 |
ptyprocess | 0.7.0 | pyarrow | 4.0.0 | pyasn1 | 0.4.8 |
pyasn1-modules | 0.2.8 | pybind11 | 2.8.1 | pycparser | 2,20 |
pydantic | 1.8.2 | Pygments | 2.8.1 | PyGObject | 3.36.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.4.0 | pyodbc | 4.0.30 |
pyparsing | 2.4.7 | pyrsistent | 0.17.3 | pystan | 2.19.1.1 |
python-apt | 2.0.0+ubuntu0.20.4.6 | Python-dateutil | 2.8.1 | python-editor | 1.0.4 |
python-engineio | 4.3.0 | python-socketio | 5.4.1 | pytz | 2020.5 |
PyWavelets | 1.1.1 | PyYAML | 5.4.1 | pyzmq | 20.0.0 |
regex | 2021.4.4 | Solicitudes | 2.25.1 | requests-oauthlib | 1.3.0 |
requests-unixsocket | 0.2.0 | rsa | 4.7.2 | s3transfer | 0.3.7 |
sacremoses | 0.0.46 | scikit-learn | 0.24.1 | scipy | 1.6.2 |
seaborn | 0.11.1 | Send2Trash | 1.5.0 | setuptools | 52.0.0 |
setuptools-git | 1.2 | shap | 0.40.0 | simplejson | 3.17.2 |
six (seis) | 1.15.0 | segmentación | 0.0.7 | smart-open | 5.2.0 |
smmap | 3.0.5 | spacy | 3.2.0 | spacy-legacy | 3.0.8 |
spacy-loggers | 1.0.1 | spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 |
srsly | 2.4.1 | ssh-import-id | 5.10 | statsmodels | 0.12.2 |
tabulate | 0.8.7 | tangled-up-in-unicode | 0.1.0 | tenacity | 6.2.0 |
tensorboard | 2.7.0 | tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.5.0 |
tensorboard-plugin-wit | 1.8.0 | tensorflow-cpu | 2.7.0 | tensorflow-estimator | 2.7.0 |
tensorflow-io-gcs-filesystem | 0.22.0 | termcolor | 1.1.0 | terminado | 0.9.4 |
testpath | 0.4.4 | thinc | 8.0.12 | threadpoolctl | 2.1.0 |
tokenizers | 0.10.3 | torch | 1.10.0+cpu | torchvision | 0.11.1+cpu |
tornado | 6.1 | tqdm | 4.59.0 | traitlets | 5.0.5 |
transformadores | 4.12.3 | typer | 0.3.2 | typing-extensions | 3.7.4.3 |
ujson | 4.0.2 | unattended-upgrades | 0,1 | urllib3 | 1.25.11 |
virtualenv | 20.4.1 | visions | 0.7.4 | wasabi | 0.8.2 |
wcwidth | 0.2.5 | webencodings | 0.5.1 | websocket-client | 0.57.0 |
Werkzeug | 1.0.1 | wheel | 0.36.2 | widgetsnbextension | 3.5.1 |
wrapt | 1.12.1 | xgboost | 1.5.0 | zipp | 3.4.1 |
Bibliotecas de Python en clústeres de GPU
Biblioteca | Versión | Biblioteca | Versión | Biblioteca | Versión |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1.10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | bleach | 3.3.0 |
blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | catalogue | 2.0.6 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | click | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | criptografía | 3.4.7 | cycler | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.4 |
databricks-cli | 0.16.2 | dbus-python | 1.2.16 | decorator | 5.0.6 |
defusedxml | 0.7.1 | dill | 0.3.2 | diskcache | 5.2.1 |
distlib | 0.3.3 | distro-info | 0.23ubuntu1 | entrypoints | 0,3 |
ephem | 4.1.1 | facets-overview | 1.0.0 | fasttext | 0.9.2 |
filelock | 3.0.12 | Flask | 1.1.2 | flatbuffers | 2.0 |
fsspec | 0.9.0 | future | 0.18.2 | gast | 0.4.0 |
gitdb | 4.0.7 | GitPython | 3.1.12 | google-auth | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grpcio | 1.39.0 |
gunicorn | 20.0.4 | gviz-api | 1.10.0 | h5py | 3.1.0 |
hijri-converter | 2.2.2 | holidays | 0.11.3.1 | horovod | 0.23.0 |
htmlmin | 0.1.12 | huggingface-hub | 0.1.2 | idna | 2.10 |
ImageHash | 4.2.1 | imbalanced-learn | 0.8.1 | importlib-metadata | 3.10.0 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodate | 0.6.0 | itsdangerous | 1.1.0 |
jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.7.0 | keras-preprocessing | 1.1.2 |
kiwisolver | 1.3.1 | koalas | 1.8.2 | korean-lunar-calendar | 0.2.1 |
langcodes | 3.3.0 | libclang | 12.0.0 | lightgbm | 3.3.1 |
llvmlite | 0.37.0 | LunarCalendar | 0.0.9 | Mako | 1.1.3 |
Markdown | 3.3.3 | MarkupSafe | 2.0.1 | matplotlib | 3.4.2 |
missingno | 0.5.0 | mistune | 0.8.4 | mleap | 0.18.1 |
mlflow-skinny | 1.22.0 | multimethod | 1.6 | murmurhash | 1.0.5 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2.5 | nltk | 3.6.1 |
notebook | 6.3.0 | numba | 0.54.1 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | empaquetado | 21,3 |
pandas | 1.2.4 | pandas-profiling | 3.1.0 | pandocfilters | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | pathy | 0.6.0 |
patsy | 0.5.1 | petastorm | 0.11.3 | pexpect | 4.8.0 |
phik | 0.12.0 | pickleshare | 0.7.5 | Pillow | 8.2.0 |
pip | 21.0.1 | plotly | 5.3.1 | preshed | 3.0.5 |
prompt-toolkit | 3.0.17 | prophet | 1.0.1 | protobuf | 3.17.2 |
psutil | 5.8.0 | psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
pybind11 | 2.8.1 | pycparser | 2,20 | pydantic | 1.8.2 |
Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.4.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
pyrsistent | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.6 |
Python-dateutil | 2.8.1 | python-editor | 1.0.4 | python-engineio | 4.3.0 |
python-socketio | 5.4.1 | pytz | 2020.5 | PyWavelets | 1.1.1 |
PyYAML | 5.4.1 | pyzmq | 20.0.0 | regex | 2021.4.4 |
Solicitudes | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
rsa | 4.7.2 | s3transfer | 0.3.7 | sacremoses | 0.0.46 |
scikit-learn | 0.24.1 | scipy | 1.6.2 | seaborn | 0.11.1 |
Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
shap | 0.40.0 | simplejson | 3.17.2 | six (seis) | 1.15.0 |
segmentación | 0.0.7 | smart-open | 5.2.0 | smmap | 3.0.5 |
spacy | 3.2.0 | spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | srsly | 2.4.1 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | tabulate | 0.8.7 |
tangled-up-in-unicode | 0.1.0 | tenacity | 6.2.0 | tensorboard | 2.7.0 |
tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.0 |
tensorflow | 2.7.0 | tensorflow-estimator | 2.7.0 | tensorflow-io-gcs-filesystem | 0.22.0 |
termcolor | 1.1.0 | terminado | 0.9.4 | testpath | 0.4.4 |
thinc | 8.0.12 | threadpoolctl | 2.1.0 | tokenizers | 0.10.3 |
torch | 1.10.0+cu111 | torchvision | 0.11.1+cu111 | tornado | 6.1 |
tqdm | 4.59.0 | traitlets | 5.0.5 | transformadores | 4.12.3 |
typer | 0.3.2 | typing-extensions | 3.7.4.3 | ujson | 4.0.2 |
unattended-upgrades | 0,1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
visions | 0.7.4 | wasabi | 0.8.2 | wcwidth | 0.2.5 |
webencodings | 0.5.1 | websocket-client | 0.57.0 | Werkzeug | 1.0.1 |
wheel | 0.36.2 | widgetsnbextension | 3.5.1 | wrapt | 1.12.1 |
xgboost | 1.5.0 | zipp | 3.4.1 |
Paquetes de Spark que contienen módulos de Python
Paquete de Spark | Módulo de Python | Versión |
---|---|---|
graphframes | graphframes | 0.8.2-db1-spark3.2 |
Bibliotecas de R
Las bibliotecas de R son idénticas a las bibliotecas de R de Databricks Runtime 10.2.
Bibliotecas de Java y Scala (clúster de Scala 2.12)
Además de las bibliotecas de Java y Scala de Databricks Runtime 10.2, Databricks Runtime 10.2 ML contiene los siguientes archivos JAR:
Clústeres de CPU
Identificador de grupo | Identificador de artefacto | Versión |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.1 |
ml.dmlc | xgboost4j_2.12 | 1.5.1 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.22.0 |
org.mlflow | mlflow-spark | 1.22.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Clústeres de GPU
Identificador de grupo | Identificador de artefacto | Versión |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.1 |
ml.dmlc | xgboost4j_2.12 | 1.5.1 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.22.0 |
org.mlflow | mlflow-spark | 1.22.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |