Compartir vía


Databricks Runtime 5.3 ML (EoS)

Nota:

El soporte técnico con esta versión de Databricks Runtime ha finalizado. Para obtener la fecha de finalización del soporte técnico, consulte Historial de finalización del soporte técnico. Para ver todas las versiones de Databricks Runtime con soporte técnico, consulte las notas de la versión de Databricks Runtime versiones y compatibilidad.

Databricks publicó esta versión en abril de 2019.

Databricks Runtime 5.3 ML proporciona un entorno ya preparado de aprendizaje automático y ciencia de datos, basado en Databricks Runtime 5.3 (EoS). Databricks Runtime for ML contiene muchas bibliotecas de aprendizaje automático populares, incluidas TensorFlow, PyTorch, Keras y XGBoost. También admite entrenamiento de aprendizaje profundo distribuido mediante Horovod.

Para más información, incluidas las instrucciones para crear un clúster de Databricks Runtime ML, consulte IA y aprendizaje automático en Databricks.

Nuevas características

Databricks Runtime 5.3 ML se basa en Databricks Runtime 5.3. Para información sobre las novedades de Databricks Runtime 5.3, consulte las notas de la versión de Databricks Runtime 5.3 (EoS). Además de las actualizaciones de la biblioteca, Databricks Runtime 5.3 ML presenta las siguientes características nuevas:

  • Integración MLflow + Apache Spark MLib: Databricks Runtime 5.3 ML admite el registro automático de ejecuciones de MLflow para los modelos que se ajustan mediante algoritmos de optimización de PySpark CrossValidator y TrainValidationSplit.

    Importante

    Esta característica se encuentra en versión preliminar privada. Póngase en contacto su representante de ventas de Azure Databricks para obtener información sobre cómo habilitarla.

  • Actualiza las siguientes bibliotecas a la versión más reciente:

    • PyArrow, de 0.8.0 a 0.12.1: BinaryType es compatible con la conversión basada en Arrow y se puede usar en PandasUDF.
    • Horovod, de 0.15.2 a 0.16.0.
    • TensorboardX, de 1.4 a 1.6.

Databricks ML Model Export API está en desuso. Azure Databricks recomienda usar MLeap en su lugar, ya que proporciona una cobertura más amplia de los tipos de modelo de MLlib. Encuentre más información en Exportación de modelos de Machine Learning en MLeap.

Nota:

Además, Databricks Runtime 5.3 contiene un nuevo montaje FUSE optimizado para la carga de datos, puntos de control de modelos y el registro de cada trabajo en una ubicación de almacenamiento compartido file:/dbfs/ml, que proporciona E/S de alto rendimiento para cargas de trabajo de aprendizaje profundo. Consulte Carga de datos para el aprendizaje automático y el aprendizaje profundo.

Actualizaciones de mantenimiento

Consulte Actualizaciones de mantenimiento de Databricks Runtime 5.4 ML.

Entorno del sistema

El entorno del sistema de Databricks Runtime 5.3 ML se diferencia del de Databricks Runtime 5.3 en lo siguiente:

  • Python: 2.7.15 para clústeres de Python 2 y 3.6.5 para clústeres de Python 3.
  • DBUtils: Databricks Runtime 5.3 ML no contiene la Utilidad de biblioteca (dbutils.library) (heredada).
  • En el caso de los clústeres de GPU, las bibliotecas de GPU de NVIDIA siguientes:
    • Controlador Tesla 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

Bibliotecas

En las secciones siguientes se enumeran las bibliotecas incluidas en Databricks Runtime 5.3 ML, que difieren de las incluidas en Databricks Runtime 5.3.

Bibliotecas de nivel superior

Databricks Runtime 5.3 ML incluye las siguientes bibliotecas de nivel superior:

Bibliotecas de Python

Databricks Runtime 5.3 ML usa Conda para la administración de paquetes de Python. Como resultado, hay diferencias importantes en las bibliotecas de Python preinstaladas en comparación con Databricks Runtime. A continuación se muestra una lista completa de los paquetes de Python proporcionados y las versiones instaladas mediante el administrador de paquetes de Conda.

Biblioteca Versión Biblioteca Versión Biblioteca Versión
absl-py 0.7.0 argparse 1.4.0 asn1crypto 0.24.0
astor 0.7.1 backports-abc 0.5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt 3.1.6 bleach 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
criptografía 2.2.2 cycler 0.10.0 Cython 0.28.2
decorator 4.3.0 docutils 0.14 entrypoints 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 futuros 3.2.0
gast 0.2.2 grpcio 1.12.1 h5py 2.8.0
horovod 0.16.0 html5lib 1.0.1 idna 2.6
ipaddress 1.0.22 ipython 5.7.0 ipython_genutils 0.2.0
jdcal 1.4 Jinja2 2,10 jmespath 0.9.3
jsonschema 2.6.0 jupyter-client 5.2.3 jupyter-core 4.4.0
Keras 2.2.4 Keras-Applications 1.0.6 keras-preprocessing 1.0.5
kiwisolver 1.0.1 linecache2 1.0.0 llvmlite 0.23.1
lxml 4.2.1 Markdown 3.0.1 MarkupSafe 1,0
matplotlib 2.2.2 mistune 0.8.3 mleap 0.8.1
mock 2.0.0 msgpack 0.5.6 nbconvert 5.3.1
nbformat 4.4.0 nariz 1.3.7 nose-exclude 0.5.0
numba 0.38.0+0.g2a2b772fc.dirty numpy 1.14.3 olefile 0.45.1
openpyxl 2.5.3 pandas 0.23.0 pandocfilters 1.4.2
paramiko 2.4.1 pathlib2 2.3.2 patsy 0.5.0
pbr 5.1.1 pexpect 4.5.0 pickleshare 0.7.4
Pillow 5.1.0 pip 10.0.1 ply 3,11
prompt-toolkit 1.0.15 protobuf 3.6.1 psutil 5.6.0
psycopg2 2.7.5 ptyprocess 0.5.2 pyarrow 0.12.1
pyasn1 0.4.5 pycparser 2,18 Pygments 2.2.0
PyNaCl 1.3.0 pyOpenSSL 18.0.0 pyparsing 2.2.0
PySocks 1.6.8 Python 2.7.15 Python-dateutil 2.7.3
pytz 2018.4 PyYAML 3,12 pyzmq 17.0.0
Solicitudes 2.18.4 s3transfer 0.1.13 scandir 1.7
scikit-learn 0.19.1 scipy 1.1.0 seaborn 0.8.1
setuptools 39.1.0 simplegeneric 0.8.1 singledispatch 3.4.0.3
six (seis) 1.11.0 statsmodels 0.9.0 subprocess32 3.5.3
tensorboard 1.12.2 tensorboardX 1.6 tensorflow 1.12.0
termcolor 1.1.0 testpath 0.3.1 torch 0.4.1
torchvision 0.2.1 tornado 5.0.2 traceback2 1.4.0
traitlets 4.3.2 unittest2 1.1.0 urllib3 1.22
virtualenv 16.0.0 wcwidth 0.1.7 webencodings 0.5.1
Werkzeug 0.14.1 wheel 0.31.1 wrapt 1.10.11
wsgiref 0.1.2

Además, los paquetes de Spark siguientes incluyen módulos de Python:

Paquete de Spark Módulo de Python Versión
graphframes graphframes 0.7.0-db1-spark2.4
spark-deep-learning sparkdl 1.5.0-db1-spark2.4
tensorframes tensorframes 0.6.0-s_2.11

Bibliotecas de R

Las bibliotecas de R son idénticas a las bibliotecas de R de Databricks Runtime 5.3.

Bibliotecas de Java y Scala (clúster de Scala 2.11)

Además de las bibliotecas de Java y Scala de Databricks Runtime 5.3, Databricks Runtime 5.3 ML contiene los siguientes archivos JAR:

Identificador de grupo Identificador de artefacto Versión
com.databricks spark-deep-learning 1.5.0-db1-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-spark 0.81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
org.tensorframes tensorframes 0.6.0-s_2.11