Databricks Runtime 9.1 LTS para Machine Learning

Artículo
11/15/2024

Databricks publicó esta imagen y la declaró con soporte a largo plazo (LTS) en septiembre de 2021.

Databricks Runtime 9.1 LTS para Machine Learning proporciona un entorno listo para usar, de aprendizaje automático y ciencia de datos, basado en Databricks Runtime 9.1 LTS. Databricks Runtime ML contiene muchas bibliotecas populares de aprendizaje automático, incluidas TensorFlow, PyTorch y XGBoost. Databricks Runtime ML incluye AutoML, una herramienta para entrenar automáticamente canalizaciones de aprendizaje automático. Databricks Runtime ML también admite el entrenamiento de aprendizaje profundo distribuido mediante Horovod.

Nota:

LTS significa que esta versión tiene soporte técnico a largo plazo. Consulte Ciclo de vida de la versión de Databricks Runtime LTS.

Para obtener más información, incluidas las instrucciones para crear un clúster de Databricks Runtime ML, consulte IA y aprendizaje automático en Databricks.

Sugerencia

Para ver las notas de la versión de las versiones de Databricks Runtime que han llegado a la finalización del soporte (EoS), vea las Notas de la versión de finalización del soporte de Databricks Runtime. Las versiones de Databricks Runtime EoS se han retirado y es posible que no se actualicen.

Nuevas características y mejoras

AutoML

Las siguientes mejoras están disponibles en Databricks Runtime 9.1 LTS ML y versiones posteriores.

AutoML admite conjuntos de datos más grandes mediante muestreo

AutoML ahora muestrea conjuntos de datos que podrían superar las restricciones de memoria, lo que le permite ejecutarse en conjuntos de datos más grandes con menos riesgo de errores por memoria insuficiente. Para más información, consulte Muestreo de conjuntos de datos grandes.

AutoML preprocesa columnas en función del tipo semántico

AutoML detecta determinadas columnas que tienen un tipo semántico diferente de su tipo de datos Spark o Pandas. Así, AutoML convierte y aplica los pasos de preprocesamiento de datos en función del tipo semántico detectado. En concreto, AutoML realiza las conversiones siguientes:

Las columnas de cadena y entero que representan datos de fecha o de marca de tiempo se convierten en un tipo de marca de tiempo.
Las columnas de cadena que representan datos numéricos se convierten a un tipo numérico.

Mejoras en los cuadernos generados por AutoML

Los pasos de preprocesamiento de las columnas de fecha y marca de tiempo ahora se incorporan en el paquete databricks-automl-runtime, lo que simplifica los cuadernos generados por el entrenamiento de AutoML. databricks-automl-runtimese incluye en Databricks Runtime 9.1 LTS ML y posteriores, y también está disponible en PyPI.

Almacén de características

Las siguientes mejoras están disponibles en Databricks Runtime 9.1 LTS ML y versiones posteriores.

Al crear un TrainingSet, ahora puede establecer el valor label=None para admitir aplicaciones de aprendizaje no supervisadas.
Ahora puede especificar más de una característica en un único valor FeatureLookup.
Ahora puede especificar una ruta de acceso personalizada para las tablas de características. Use el parámetro path en create_feature_table(). El valor predeterminado es la ubicación de la base de datos.
Nuevos tipos de datos de PySpark admitidos: ArrayType y ShortType.

MLflow

Las siguientes mejoras están disponibles a partir de la versión 1.20.2 de Mlflow, que se incluye en Databricks Runtime 9.1 LTS ML.

El registro automático de scikit-learn ahora registra las métricas posteriores al entrenamiento, cada vez que se llama a una API de evaluación de scikit-learn, como sklearn.metrics.mean_squared_error.
El registro automático de PySpark ML ahora registra las métricas posteriores al entrenamiento, cada vez que se llama a una API de evaluación de modelos, como Evaluator.evaluate().
mlflow.*.log_model y mlflow.*.save_model ahora tienen argumentos pip_requirements y extra_pip_requirements para que pueda especificar directamente los requisitos de pip del modelo que se va a registrar o guardar.
mlflow.*.log_model y mlflow.*.save_model ahora deducen automáticamente los requisitos de pip del modelo que se va a registrar o guardar, en función del entorno de software actual.
Las entradas stdMetrics ahora se registran como métricas de entrenamiento durante el registro automático de PySpark CrossValidator.
El registro automático de PyTorch Lightning ahora admite la ejecución distribuida.

Registro automático de Databricks (Versión preliminar pública)

La Versión preliminar pública del Registro automático de Databricks se ha ampliado a nuevas regiones. El Registro automático de Databricks es una solución sin código que proporciona seguimiento automático de experimentos, para sesiones de entrenamiento de aprendizaje automático en Azure Databricks. Con el Registro automático de Databricks, los parámetros del modelo, las métricas, los archivos y la información del linaje se capturan automáticamente, al entrenar modelos a partir de una serie de bibliotecas populares de aprendizaje automático. Las sesiones de entrenamiento se registran como ejecuciones de seguimiento de MLflow. También se realiza un seguimiento de los archivos del modelo, para poder registrarlos fácilmente en el registro de modelos de MLflow e implementarlos para realizar una puntuación en tiempo real, con el Servicio de modelo de MLflow.

Para más información sobre el Registro automático de Databricks, consulte Registro automático de Databricks.

Cambios importantes en el entorno de Python de Databricks Runtime ML

Paquetes de Python actualizados

automl 1.1.1 => 1.2.1
feature_store 0.3.3 => 0.3.4.1
holidays 0.10.5.2 => 0.11.2
keras 2.5.0 => 2.6.0
mlflow 1.19.0 => 1.20.2
petastorm 0.11.1 => 0.11.2
plotly 4.14.3 => 5.1.0
spark-tensorflow-distributor 0.1.0 => 1.0.0
sparkdl 2.2.0_db1 => 2.2.0_db3
tensorboard 2.5.0 => 2.6.0
tensorflow 2.5.0 => 2.6.0

Paquetes de Python agregados

databricks-automl-runtime 0.1.0

Entorno del sistema

El entorno del sistema de Databricks Runtime 9.1 LTS ML se diferencia del de Databricks Runtime 9.1 LTS en lo siguiente:

DBUtils: Databricks Runtime ML no incluye la utilidad de biblioteca de (dbutils.library) (heredada). Use comandos %pip en su lugar. Consulte Bibliotecas de Python cuyo ámbito es Notebook.
En los clústeres de GPU, Databricks Runtime ML incluye las siguientes bibliotecas de GPU de NVIDIA:
- CUDA 11.0
- cuDNN 8.1.0.77
- NCCL 2.10.3
- TensorRT 7.2.2

Bibliotecas

En las secciones siguientes se enumeran las bibliotecas incluidas en Databricks Runtime 9.1 LTS ML, que difieren de las incluidas en Databricks Runtime 9.1 LTS.

En esta sección:

Bibliotecas de nivel superior
Bibliotecas de Python
Bibliotecas de R
Bibliotecas de Java y Scala (clúster de Scala 2.12)

Bibliotecas de nivel superior

Databricks Runtime 9.1 LTS ML incluye las siguientes bibliotecas de nivel superior:

Bibliotecas de Python

Databricks Runtime 9.1 LTS ML usa Virtualenv para la administración de paquetes de Python e incluye muchos paquetes de ML populares.

Además de los paquetes especificados en las secciones siguientes, Databricks Runtime 9.1 LTS ML también incluye los paquetes siguientes:

hyperopt 0.2.5.db2
sparkdl 2.2.0_db3
feature_store 0.3.4.1
automl 1.2.1

Bibliotecas de Python en clústeres de CPU

Biblioteca	Versión	Biblioteca	Versión	Biblioteca	Versión
absl-py	0.11.0	Antergos Linux	2015.10 (ISO-Rolling)	appdirs	1.4.4
argon2-cffi	20.1.0	astor	0.8.1	astunparse	1.6.3
async-generator	1.10	attrs	20.3.0	backcall	0.2.0
bcrypt	3.2.0	bleach	3.3.0	boto3	1.16.7
botocore	1.19.7	Bottleneck	1.3.2	cachetools	4.2.2
certifi	2020.12.5	cffi	1.14.5	chardet	4.0.0
clang	5.0	click	7.1.2	cloudpickle	1.6.0
cmdstanpy	0.9.68	configparser	5.0.1	convertdate	2.3.2
criptografía	3.4.7	cycler	0.10.0	Cython	0.29.23
databricks-automl-runtime	0.1.0	databricks-cli	0.14.3	dbus-python	1.2.16
decorator	5.0.6	defusedxml	0.7.1	dill	0.3.2
diskcache	5.2.1	distlib	0.3.2	distro-info	0.23ubuntu1
entrypoints	0,3	ephem	4.0.0.2	facets-overview	1.0.0
filelock	3.0.12	Flask	1.1.2	flatbuffers	1.12
fsspec	0.9.0	future	0.18.2	gast	0.4.0
gitdb	4.0.7	GitPython	3.1.12	google-auth	1.22.1
google-auth-oauthlib	0.4.2	google-pasta	0.2.0	grpcio	1.39.0
gunicorn	20.0.4	h5py	3.1.0	hijri-converter	2.2.1
vacaciones	0.11.2	horovod	0.22.1	htmlmin	0.1.12
idna	2.10	ImageHash	4.2.1	importlib-metadata	3.10.0
ipykernel	5.3.4	ipython	7.22.0	ipython-genutils	0.2.0
ipywidgets	7.6.3	isodate	0.6.0	itsdangerous	1.1.0
jedi	0.17.2	Jinja2	2.11.3	jmespath	0.10.0
joblib	1.0.1	joblibspark	0.3.0	jsonschema	3.2.0
jupyter-client	6.1.12	jupyter-core	4.7.1	jupyterlab-pygments	0.1.2
jupyterlab-widgets	1.0.0	keras	2.6.0	keras-preprocessing	1.1.2
kiwisolver	1.3.1	koalas	1.8.1	korean-lunar-calendar	0.2.1
lightgbm	3.1.1	llvmlite	0.37.0	LunarCalendar	0.0.9
Mako	1.1.3	Markdown	3.3.3	MarkupSafe	1.1.1
matplotlib	3.4.2	missingno	0.5.0	mistune	0.8.4
mleap	0.17.0	mlflow-skinny	1.20.2	multimethod	1.4
nbclient	0.5.3	nbconvert	6.0.7	nbformat	5.1.3
nest-asyncio	1.5.1	networkx	2.5	nltk	3.6.1
notebook	6.3.0	numba	0.54.0	numpy	1.19.2
oauthlib	3.1.0	opt-einsum	3.3.0	empaquetado	20.9
pandas	1.2.4	pandas-profiling	3.0.0	pandocfilters	1.4.3
paramiko	2.7.2	parso	0.7.0	patsy	0.5.1
petastorm	0.11.2	pexpect	4.8.0	phik	0.12.0
pickleshare	0.7.5	Pillow	8.2.0	pip	21.0.1
plotly	5.1.0	prometheus-client	0.10.1	prompt-toolkit	3.0.17
prophet	1.0.1	protobuf	3.17.2	psutil	5.8.0
psycopg2	2.8.5	ptyprocess	0.7.0	pyarrow	4.0.0
pyasn1	0.4.8	pyasn1-modules	0.2.8	pycparser	2,20
pydantic	1.8.2	Pygments	2.8.1	PyGObject	3.36.0
PyMeeus	0.5.11	PyNaCl	1.3.0	pyodbc	4.0.30
pyparsing	2.4.7	pyrsistent	0.17.3	pystan	2.19.1.1
python-apt	2.0.0+ubuntu0.20.4.6	Python-dateutil	2.8.1	python-editor	1.0.4
pytz	2020.5	PyWavelets	1.1.1	PyYAML	5.4.1
pyzmq	20.0.0	regex	2021.4.4	Solicitudes	2.25.1
requests-oauthlib	1.3.0	requests-unixsocket	0.2.0	rsa	4.7.2
s3transfer	0.3.7	scikit-learn	0.24.1	scipy	1.6.2
seaborn	0.11.1	Send2Trash	1.5.0	setuptools	52.0.0
setuptools-git	1.2	shap	0.39.0	simplejson	3.17.2
six (seis)	1.15.0	segmentación	0.0.7	smmap	3.0.5
spark-tensorflow-distributor	1.0.0	sqlparse	0.4.1	ssh-import-id	5.10
statsmodels	0.12.2	tabulate	0.8.7	tangled-up-in-unicode	0.1.0
tenacity	6.2.0	tensorboard	2.6.0	tensorboard-data-server	0.6.1
tensorboard-plugin-wit	1.8.0	tensorflow-cpu	2.6.0	tensorflow-estimator	2.6.0
termcolor	1.1.0	terminado	0.9.4	testpath	0.4.4
threadpoolctl	2.1.0	torch	1.9.0+cpu	torchvision	0.10.0+cpu
tornado	6.1	tqdm	4.59.0	traitlets	5.0.5
typing-extensions	3.7.4.3	ujson	4.0.2	unattended-upgrades	0,1
urllib3	1.25.11	virtualenv	20.4.1	visions	0.7.1
wcwidth	0.2.5	webencodings	0.5.1	websocket-client	0.57.0
Werkzeug	1.0.1	wheel	0.36.2	widgetsnbextension	3.5.1
wrapt	1.12.1	xgboost	1.4.2	zipp	3.4.1

Bibliotecas de Python en clústeres de GPU

Biblioteca	Versión	Biblioteca	Versión	Biblioteca	Versión
absl-py	0.11.0	Antergos Linux	2015.10 (ISO-Rolling)	appdirs	1.4.4
argon2-cffi	20.1.0	astor	0.8.1	astunparse	1.6.3
async-generator	1.10	attrs	20.3.0	backcall	0.2.0
bcrypt	3.2.0	bleach	3.3.0	boto3	1.16.7
botocore	1.19.7	Bottleneck	1.3.2	cachetools	4.2.2
certifi	2020.12.5	cffi	1.14.5	chardet	4.0.0
clang	5.0	click	7.1.2	cloudpickle	1.6.0
cmdstanpy	0.9.68	configparser	5.0.1	convertdate	2.3.2
criptografía	3.4.7	cycler	0.10.0	Cython	0.29.23
databricks-automl-runtime	0.1.0	databricks-cli	0.14.3	dbus-python	1.2.16
decorator	5.0.6	defusedxml	0.7.1	dill	0.3.2
diskcache	5.2.1	distlib	0.3.2	distro-info	0.23ubuntu1
entrypoints	0,3	ephem	4.0.0.2	facets-overview	1.0.0
filelock	3.0.12	Flask	1.1.2	flatbuffers	1.12
fsspec	0.9.0	future	0.18.2	gast	0.4.0
gitdb	4.0.7	GitPython	3.1.12	google-auth	1.22.1
google-auth-oauthlib	0.4.2	google-pasta	0.2.0	grpcio	1.39.0
gunicorn	20.0.4	h5py	3.1.0	hijri-converter	2.2.1
vacaciones	0.11.2	horovod	0.22.1	htmlmin	0.1.12
idna	2.10	ImageHash	4.2.1	importlib-metadata	3.10.0
ipykernel	5.3.4	ipython	7.22.0	ipython-genutils	0.2.0
ipywidgets	7.6.3	isodate	0.6.0	itsdangerous	1.1.0
jedi	0.17.2	Jinja2	2.11.3	jmespath	0.10.0
joblib	1.0.1	joblibspark	0.3.0	jsonschema	3.2.0
jupyter-client	6.1.12	jupyter-core	4.7.1	jupyterlab-pygments	0.1.2
jupyterlab-widgets	1.0.0	keras	2.6.0	keras-preprocessing	1.1.2
kiwisolver	1.3.1	koalas	1.8.1	korean-lunar-calendar	0.2.1
lightgbm	3.1.1	llvmlite	0.37.0	LunarCalendar	0.0.9
Mako	1.1.3	Markdown	3.3.3	MarkupSafe	1.1.1
matplotlib	3.4.2	missingno	0.5.0	mistune	0.8.4
mleap	0.17.0	mlflow-skinny	1.20.2	multimethod	1.4
nbclient	0.5.3	nbconvert	6.0.7	nbformat	5.1.3
nest-asyncio	1.5.1	networkx	2.5	nltk	3.6.1
notebook	6.3.0	numba	0.54.0	numpy	1.19.2
oauthlib	3.1.0	opt-einsum	3.3.0	empaquetado	20.9
pandas	1.2.4	pandas-profiling	3.0.0	pandocfilters	1.4.3
paramiko	2.7.2	parso	0.7.0	patsy	0.5.1
petastorm	0.11.2	pexpect	4.8.0	phik	0.12.0
pickleshare	0.7.5	Pillow	8.2.0	pip	21.0.1
plotly	5.1.0	prompt-toolkit	3.0.17	prophet	1.0.1
protobuf	3.17.2	psutil	5.8.0	psycopg2	2.8.5
ptyprocess	0.7.0	pyarrow	4.0.0	pyasn1	0.4.8
pyasn1-modules	0.2.8	pycparser	2,20	pydantic	1.8.2
Pygments	2.8.1	PyGObject	3.36.0	PyMeeus	0.5.11
PyNaCl	1.3.0	pyodbc	4.0.30	pyparsing	2.4.7
pyrsistent	0.17.3	pystan	2.19.1.1	python-apt	2.0.0+ubuntu0.20.4.6
Python-dateutil	2.8.1	python-editor	1.0.4	pytz	2020.5
PyWavelets	1.1.1	PyYAML	5.4.1	pyzmq	20.0.0
regex	2021.4.4	Solicitudes	2.25.1	requests-oauthlib	1.3.0
requests-unixsocket	0.2.0	rsa	4.7.2	s3transfer	0.3.7
scikit-learn	0.24.1	scipy	1.6.2	seaborn	0.11.1
Send2Trash	1.5.0	setuptools	52.0.0	setuptools-git	1.2
shap	0.39.0	simplejson	3.17.2	six (seis)	1.15.0
segmentación	0.0.7	smmap	3.0.5	spark-tensorflow-distributor	1.0.0
sqlparse	0.4.1	ssh-import-id	5.10	statsmodels	0.12.2
tabulate	0.8.7	tangled-up-in-unicode	0.1.0	tenacity	6.2.0
tensorboard	2.6.0	tensorboard-data-server	0.6.1	tensorboard-plugin-wit	1.8.0
tensorflow	2.6.0	tensorflow-estimator	2.6.0	termcolor	1.1.0
terminado	0.9.4	testpath	0.4.4	threadpoolctl	2.1.0
torch	1.9.0+cu111	torchvision	0.10.0+cu111	tornado	6.1
tqdm	4.59.0	traitlets	5.0.5	typing-extensions	3.7.4.3
ujson	4.0.2	unattended-upgrades	0,1	urllib3	1.25.11
virtualenv	20.4.1	visions	0.7.1	wcwidth	0.2.5
webencodings	0.5.1	websocket-client	0.57.0	Werkzeug	1.0.1
wheel	0.36.2	widgetsnbextension	3.5.1	wrapt	1.12.1
xgboost	1.4.2	zipp	3.4.1

Paquetes de Spark que contienen módulos de Python

Paquete de Spark	Módulo de Python	Versión
graphframes	graphframes	0.8.1-db3-spark3.1

Bibliotecas de R

Las bibliotecas de R son idénticas a las bibliotecas de R de Databricks Runtime 9.1 LTS.

Bibliotecas de Java y Scala (clúster de Scala 2.12)

Además de las bibliotecas de Java y Scala de Databricks Runtime 9.1 LTS, Databricks Runtime 9.1 LTS ML contiene los siguientes archivos JAR:

Clústeres de CPU

Identificador de grupo	Identificador de artefacto	Versión
com.typesafe.akka	akka-actor_2.12	2.5.23
ml.combust.mleap	mleap-databricks-runtime_2.12	0.17.0-4882dc3
ml.dmlc	xgboost4j-spark_2.12	1.4.1
ml.dmlc	xgboost4j_2.12	1.4.1
org.graphframes	graphframes_2.12	0.8.1-db2-spark3.1
org.mlflow	mlflow-client	1.20.2
org.mlflow	mlflow-spark	1.20.2
org.scala-lang.modules	scala-java8-compat_2.12	0.8.0
org.tensorflow	spark-tensorflow-connector_2.12	1.15.0

Clústeres de GPU

Identificador de grupo	Identificador de artefacto	Versión
com.typesafe.akka	akka-actor_2.12	2.5.23
ml.combust.mleap	mleap-databricks-runtime_2.12	0.17.0-4882dc3
ml.dmlc	xgboost4j-gpu_2.12	1.4.1
ml.dmlc	xgboost4j-spark-gpu_2.12	1.4.1
org.graphframes	graphframes_2.12	0.8.1-db2-spark3.1
org.mlflow	mlflow-client	1.20.2
org.mlflow	mlflow-spark	1.20.2
org.scala-lang.modules	scala-java8-compat_2.12	0.8.0
org.tensorflow	spark-tensorflow-connector_2.12	1.15.0

Compartir a través de