Compartir a través de


Databricks Runtime 10.3 para ML (EoS)

Nota:

El soporte técnico con esta versión de Databricks Runtime ha finalizado. Para obtener la fecha de finalización del soporte técnico, consulte Historial de finalización del soporte técnico. Para ver todas las versiones de Databricks Runtime con soporte técnico, consulte las notas de la versión de Databricks Runtime versiones y compatibilidad.

Databricks Runtime 10.3 para Machine Learning proporciona un entorno listo para usar de aprendizaje automático y ciencia de datos basado en Databricks Runtime 10.3 (EoS). Databricks Runtime ML contiene muchas bibliotecas populares de aprendizaje automático, incluidas TensorFlow, PyTorch y XGBoost. Databricks Runtime ML incluye AutoML, una herramienta para entrenar automáticamente canalizaciones de aprendizaje automático. Databricks Runtime ML también admite el entrenamiento de aprendizaje profundo distribuido mediante Horovod.

Para más información, incluidas las instrucciones para crear un clúster de Databricks Runtime ML, consulte IA y aprendizaje automático en Databricks.

Nuevas características y mejoras

Databricks Runtime 10.3 ML se basa en Databricks Runtime 10.3. Para obtener información sobre las’novedades de Databricks Runtime 10.3, incluidas las notas de la versión de Apache Spark MLlib y SparkR, consulte las notas de la versión de Databricks Runtime 10.3 (EoS).

Mejoras en AutoML

Se han realizado las siguientes mejoras en AutoML.

AutoML ahora admite el modelo ARIMA para la previsión

Además de Prophet, AutoML ahora crea y evalúa modelos ARIMA para los problemas de previsión.

Exclusión de columnas de un conjunto de datos

Al usar la API de AutoML, puede especificar columnas que AutoML debe omitir durante sus cálculos. Esto está disponible solo para problemas de clasificación y regresión. Consulte Referencia de la API de Python de AutoML para obtener más información.

Exclusión de marcos de algoritmos de una ejecución de AutoML

Puede especificar marcos de algoritmos, como scikit-learn, que AutoML no debe tener en cuenta en el desarrollo de modelos. Consulte Configuración avanzada y Referencia de api de Python de AutoML para obtener más información.

max_trials (en desuso)

El parámetro max_trials está en desuso y se quitará en la siguiente versión principal de Databricks Runtime ML. Use timeout_minutes para controlar la duración de una ejecución de AutoML. Además, en Databricks Runtime 10.1 ML y versiones posteriores, AutoML incorpora la detención anticipada; detendrá el entrenamiento y el ajuste de los modelos si la métrica de validación ya no mejora.

Mejoras en el Almacén de características de Databricks

Ahora puede aplicar búsquedas a un momento dado en las tablas de características de serie temporal. Consulte Compatibilidad a un momento dado mediante tablas de características de serie temporal para obtener más información.

Registro automático de Databricks (GA)

El registro automático de Databricks ahora está disponible con carácter general en Databricks Runtime 10.3 ML. El registro automático de Databricks es una solución sin código que proporciona seguimiento automático de experimentos para sesiones de entrenamiento de aprendizaje automático en Azure Databricks. Con el Registro automático de Databricks, los parámetros del modelo, las métricas, los archivos y la información del linaje se capturan automáticamente, al entrenar modelos a partir de una serie de bibliotecas populares de aprendizaje automático. Las sesiones de entrenamiento se registran como ejecuciones de seguimiento de MLflow. También se realiza un seguimiento de los archivos del modelo, para poder registrarlos fácilmente en el registro de modelos de MLflow e implementarlos para realizar una puntuación en tiempo real, con el servicio de modelo de MLflow.

Consulte Registro automático de Databricks para obtener más información.

Entorno del sistema

El entorno del sistema de Databricks Runtime 10.3 ML se diferencia del de Databricks Runtime 10.3 en lo siguiente:

Bibliotecas

En las secciones siguientes se indican las bibliotecas incluidas en Databricks Runtime 10.3 ML que difieren de las incluidas en Databricks Runtime 10.3.

En esta sección:

Bibliotecas de nivel superior

Databricks Runtime 10.3 ML incluye las siguientes bibliotecas de nivel superior:

Bibliotecas de Python

Databricks Runtime 10.3 ML usa Virtualenv para la administración de paquetes de Python e incluye muchos paquetes de ML populares.

Además de los paquetes especificados en las secciones siguientes, Databricks Runtime 10.3 ML también incluye los siguientes:

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0-db5
  • feature_store 0.3.7
  • automl 1.6.0

Bibliotecas de Python en clústeres de CPU

Biblioteca Versión Biblioteca Versión Biblioteca Versión
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 bidict 0.21.4 bleach 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 catalogue 2.0.6 certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 click 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 criptografía 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.5
databricks-cli 0.16.2 dbl-tempo 0.1.2 dbus-python 1.2.16
decorator 5.0.6 defusedxml 0.7.1 dill 0.3.2
diskcache 5.2.1 distlib 0.3.4 distro-info 0.23ubuntu1
entrypoints 0,3 ephem 4.1.3 facets-overview 1.0.0
fasttext 0.9.2 filelock 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 future 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.2 vacaciones 0,12
horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
idna 2.10 ImageHash 4.2.1 imbalanced-learn 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
itsdangerous 1.1.0 jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.7.0
keras-preprocessing 1.1.2 kiwisolver 1.3.1 koalas 1.8.2
korean-lunar-calendar 0.2.1 langcodes 3.3.0 libclang 12.0.0
lightgbm 3.3.1 llvmlite 0.38.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.23.0 multimethod 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 notebook 6.3.0 numba 0.55.0
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
empaquetado 21,3 pandas 1.2.4 pandas-profiling 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 patsy 0.5.1 petastorm 0.11.3
pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Pillow 8.2.0 pip 21.0.1 plotly 5.5.0
pmdarima 1.8.4 preshed 3.0.5 prometheus-client 0.10.1
prompt-toolkit 3.0.17 prophet 1.0.1 protobuf 3.17.2
psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
pyarrow 4.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.9.0 pycparser 2,20 pydantic 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.4.0 pyodbc 4.0.30 pyparsing 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6
Python-dateutil 2.8.1 python-editor 1.0.4 python-engineio 4.3.0
python-socketio 5.4.1 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 regex 2021.4.4
Solicitudes 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 scipy 1.6.2 seaborn 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1.2
shap 0.40.0 simplejson 3.17.2 six (seis) 1.15.0
segmentación 0.0.7 smart-open 5.2.0 smmap 3.0.5
spacy 3.2.1 spacy-legacy 3.0.8 spacy-loggers 1.0.1
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 srsly 2.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabulate 0.8.7
tangled-up-in-unicode 0.1.0 tenacity 6.2.0 tensorboard 2.7.0
tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1
tensorflow-cpu 2.7.0 tensorflow-estimator 2.7.0 tensorflow-io-gcs-filesystem 0.23.1
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
thinc 8.0.12 threadpoolctl 2.1.0 tokenizers 0.10.3
torch 1.10.1+cpu torchvision 0.11.2+cpu tornado 6.1
tqdm 4.59.0 traitlets 5.0.5 transformadores 4.15.0
typer 0.3.2 typing-extensions 3.7.4.3 ujson 4.0.2
unattended-upgrades 0,1 urllib3 1.25.11 virtualenv 20.4.1
visions 0.7.4 wasabi 0.8.2 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
wheel 0.36.2 widgetsnbextension 3.5.1 wrapt 1.12.1
xgboost 1.5.1 zipp 3.4.1

Bibliotecas de Python en clústeres de GPU

Biblioteca Versión Biblioteca Versión Biblioteca Versión
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 bidict 0.21.4 bleach 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 catalogue 2.0.6 certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 click 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 criptografía 3.4.7 cycler 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.5
databricks-cli 0.16.2 dbl-tempo 0.1.2 dbus-python 1.2.16
decorator 5.0.6 defusedxml 0.7.1 dill 0.3.2
diskcache 5.2.1 distlib 0.3.4 distro-info 0.23ubuntu1
entrypoints 0,3 ephem 4.1.3 facets-overview 1.0.0
fasttext 0.9.2 filelock 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 future 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.2 vacaciones 0,12
horovod 0.23.0 htmlmin 0.1.12 huggingface-hub 0.1.2
idna 2.10 ImageHash 4.2.1 imbalanced-learn 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
itsdangerous 1.1.0 jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.7.0
keras-preprocessing 1.1.2 kiwisolver 1.3.1 koalas 1.8.2
korean-lunar-calendar 0.2.1 langcodes 3.3.0 libclang 12.0.0
lightgbm 3.3.1 llvmlite 0.38.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.23.0 multimethod 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 notebook 6.3.0 numba 0.55.0
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
empaquetado 21,3 pandas 1.2.4 pandas-profiling 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 patsy 0.5.1 petastorm 0.11.3
pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Pillow 8.2.0 pip 21.0.1 plotly 5.5.0
pmdarima 1.8.4 preshed 3.0.5 prompt-toolkit 3.0.17
prophet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.9.0
pycparser 2,20 pydantic 1.8.2 Pygments 2.8.1
PyGObject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 pyparsing 2.4.7 pyrsistent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6 Python-dateutil 2.8.1
python-editor 1.0.4 python-engineio 4.3.0 python-socketio 5.4.1
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 Solicitudes 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 rsa 4.7.2
s3transfer 0.3.7 sacremoses 0.0.46 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 shap 0.40.0
simplejson 3.17.2 six (seis) 1.15.0 segmentación 0.0.7
smart-open 5.2.0 smmap 3.0.5 spacy 3.2.1
spacy-legacy 3.0.8 spacy-loggers 1.0.1 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 srsly 2.4.1 ssh-import-id 5.10
statsmodels 0.12.2 tabulate 0.8.7 tangled-up-in-unicode 0.1.0
tenacity 6.2.0 tensorboard 2.7.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1 tensorflow 2.7.0
tensorflow-estimator 2.7.0 tensorflow-io-gcs-filesystem 0.23.1 termcolor 1.1.0
terminado 0.9.4 testpath 0.4.4 thinc 8.0.12
threadpoolctl 2.1.0 tokenizers 0.10.3 torch 1.10.1+cu111
torchvision 0.11.2+cu111 tornado 6.1 tqdm 4.59.0
traitlets 5.0.5 transformadores 4.15.0 typer 0.3.2
typing-extensions 3.7.4.3 ujson 4.0.2 unattended-upgrades 0,1
urllib3 1.25.11 virtualenv 20.4.1 visions 0.7.4
wasabi 0.8.2 wcwidth 0.2.5 webencodings 0.5.1
websocket-client 0.57.0 Werkzeug 1.0.1 wheel 0.36.2
widgetsnbextension 3.5.1 wrapt 1.12.1 xgboost 1.5.1
zipp 3.4.1

Paquetes de Spark que contienen módulos de Python

Paquete de Spark Módulo de Python Versión
graphframes graphframes 0.8.2-db1-spark3.2

Bibliotecas de R

Las bibliotecas de R son idénticas a las bibliotecas de R de Databricks Runtime 10.3.

Bibliotecas de Java y Scala (clúster de Scala 2.12)

Además de las bibliotecas de Java y Scala de Databricks Runtime 10.3, Databricks Runtime 10.3 ML contiene los siguientes archivos JAR:

Clústeres de CPU

Identificador de grupo Identificador de artefacto Versión
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.1
ml.dmlc xgboost4j_2.12 1.5.1
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.23.0
org.mlflow mlflow-spark 1.23.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Clústeres de GPU

Identificador de grupo Identificador de artefacto Versión
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.1
ml.dmlc xgboost4j_2.12 1.5.1
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.23.0
org.mlflow mlflow-spark 1.23.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0