Databricks Runtime 5.3 ML (EoS)
Nota:
El soporte técnico con esta versión de Databricks Runtime ha finalizado. Para obtener la fecha de finalización del soporte técnico, consulte Historial de finalización del soporte técnico. Para ver todas las versiones de Databricks Runtime con soporte técnico, consulte las notas de la versión de Databricks Runtime versiones y compatibilidad.
Databricks publicó esta versión en abril de 2019.
Databricks Runtime 5.3 ML proporciona un entorno ya preparado de aprendizaje automático y ciencia de datos, basado en Databricks Runtime 5.3 (EoS). Databricks Runtime for ML contiene muchas bibliotecas de aprendizaje automático populares, incluidas TensorFlow, PyTorch, Keras y XGBoost. También admite entrenamiento de aprendizaje profundo distribuido mediante Horovod.
Para más información, incluidas las instrucciones para crear un clúster de Databricks Runtime ML, consulte IA y aprendizaje automático en Databricks.
Nuevas características
Databricks Runtime 5.3 ML se basa en Databricks Runtime 5.3. Para información sobre las novedades de Databricks Runtime 5.3, consulte las notas de la versión de Databricks Runtime 5.3 (EoS). Además de las actualizaciones de la biblioteca, Databricks Runtime 5.3 ML presenta las siguientes características nuevas:
Integración MLflow + Apache Spark MLib: Databricks Runtime 5.3 ML admite el registro automático de ejecuciones de MLflow para los modelos que se ajustan mediante algoritmos de optimización de PySpark
CrossValidator
yTrainValidationSplit
.Importante
Esta característica se encuentra en versión preliminar privada. Póngase en contacto su representante de ventas de Azure Databricks para obtener información sobre cómo habilitarla.
Actualiza las siguientes bibliotecas a la versión más reciente:
- PyArrow, de 0.8.0 a 0.12.1:
BinaryType
es compatible con la conversión basada en Arrow y se puede usar en PandasUDF. - Horovod, de 0.15.2 a 0.16.0.
- TensorboardX, de 1.4 a 1.6.
- PyArrow, de 0.8.0 a 0.12.1:
Databricks ML Model Export API está en desuso. Azure Databricks recomienda usar MLeap en su lugar, ya que proporciona una cobertura más amplia de los tipos de modelo de MLlib. Encuentre más información en Exportación de modelos de Machine Learning en MLeap.
Nota:
Además, Databricks Runtime 5.3 contiene un nuevo montaje FUSE optimizado para la carga de datos, puntos de control de modelos y el registro de cada trabajo en una ubicación de almacenamiento compartido file:/dbfs/ml
, que proporciona E/S de alto rendimiento para cargas de trabajo de aprendizaje profundo. Consulte Carga de datos para el aprendizaje automático y el aprendizaje profundo.
Actualizaciones de mantenimiento
Consulte Actualizaciones de mantenimiento de Databricks Runtime 5.4 ML.
Entorno del sistema
El entorno del sistema de Databricks Runtime 5.3 ML se diferencia del de Databricks Runtime 5.3 en lo siguiente:
- Python: 2.7.15 para clústeres de Python 2 y 3.6.5 para clústeres de Python 3.
- DBUtils: Databricks Runtime 5.3 ML no contiene la Utilidad de biblioteca (dbutils.library) (heredada).
- En el caso de los clústeres de GPU, las bibliotecas de GPU de NVIDIA siguientes:
- Controlador Tesla 396.44
- CUDA 9.2
- CUDNN 7.2.1
Bibliotecas
En las secciones siguientes se enumeran las bibliotecas incluidas en Databricks Runtime 5.3 ML, que difieren de las incluidas en Databricks Runtime 5.3.
Bibliotecas de nivel superior
Databricks Runtime 5.3 ML incluye las siguientes bibliotecas de nivel superior:
Bibliotecas de Python
Databricks Runtime 5.3 ML usa Conda para la administración de paquetes de Python. Como resultado, hay diferencias importantes en las bibliotecas de Python preinstaladas en comparación con Databricks Runtime. A continuación se muestra una lista completa de los paquetes de Python proporcionados y las versiones instaladas mediante el administrador de paquetes de Conda.
Biblioteca | Versión | Biblioteca | Versión | Biblioteca | Versión |
---|---|---|---|---|---|
absl-py | 0.7.0 | argparse | 1.4.0 | asn1crypto | 0.24.0 |
astor | 0.7.1 | backports-abc | 0.5 | backports.functools-lru-cache | 1.5 |
backports.weakref | 1.0.post1 | bcrypt | 3.1.6 | bleach | 2.1.3 |
boto | 2.48.0 | boto3 | 1.7.62 | botocore | 1.10.62 |
certifi | 2018.04.16 | cffi | 1.11.5 | chardet | 3.0.4 |
cloudpickle | 0.5.3 | colorama | 0.3.9 | configparser | 3.5.0 |
criptografía | 2.2.2 | cycler | 0.10.0 | Cython | 0.28.2 |
decorator | 4.3.0 | docutils | 0.14 | entrypoints | 0.2.3 |
enum34 | 1.1.6 | et-xmlfile | 1.0.1 | funcsigs | 1.0.2 |
functools32 | 3.2.3-2 | fusepy | 2.0.4 | futuros | 3.2.0 |
gast | 0.2.2 | grpcio | 1.12.1 | h5py | 2.8.0 |
horovod | 0.16.0 | html5lib | 1.0.1 | idna | 2.6 |
ipaddress | 1.0.22 | ipython | 5.7.0 | ipython_genutils | 0.2.0 |
jdcal | 1.4 | Jinja2 | 2,10 | jmespath | 0.9.3 |
jsonschema | 2.6.0 | jupyter-client | 5.2.3 | jupyter-core | 4.4.0 |
Keras | 2.2.4 | Keras-Applications | 1.0.6 | keras-preprocessing | 1.0.5 |
kiwisolver | 1.0.1 | linecache2 | 1.0.0 | llvmlite | 0.23.1 |
lxml | 4.2.1 | Markdown | 3.0.1 | MarkupSafe | 1,0 |
matplotlib | 2.2.2 | mistune | 0.8.3 | mleap | 0.8.1 |
mock | 2.0.0 | msgpack | 0.5.6 | nbconvert | 5.3.1 |
nbformat | 4.4.0 | nariz | 1.3.7 | nose-exclude | 0.5.0 |
numba | 0.38.0+0.g2a2b772fc.dirty | numpy | 1.14.3 | olefile | 0.45.1 |
openpyxl | 2.5.3 | pandas | 0.23.0 | pandocfilters | 1.4.2 |
paramiko | 2.4.1 | pathlib2 | 2.3.2 | patsy | 0.5.0 |
pbr | 5.1.1 | pexpect | 4.5.0 | pickleshare | 0.7.4 |
Pillow | 5.1.0 | pip | 10.0.1 | ply | 3,11 |
prompt-toolkit | 1.0.15 | protobuf | 3.6.1 | psutil | 5.6.0 |
psycopg2 | 2.7.5 | ptyprocess | 0.5.2 | pyarrow | 0.12.1 |
pyasn1 | 0.4.5 | pycparser | 2,18 | Pygments | 2.2.0 |
PyNaCl | 1.3.0 | pyOpenSSL | 18.0.0 | pyparsing | 2.2.0 |
PySocks | 1.6.8 | Python | 2.7.15 | Python-dateutil | 2.7.3 |
pytz | 2018.4 | PyYAML | 3,12 | pyzmq | 17.0.0 |
Solicitudes | 2.18.4 | s3transfer | 0.1.13 | scandir | 1.7 |
scikit-learn | 0.19.1 | scipy | 1.1.0 | seaborn | 0.8.1 |
setuptools | 39.1.0 | simplegeneric | 0.8.1 | singledispatch | 3.4.0.3 |
six (seis) | 1.11.0 | statsmodels | 0.9.0 | subprocess32 | 3.5.3 |
tensorboard | 1.12.2 | tensorboardX | 1.6 | tensorflow | 1.12.0 |
termcolor | 1.1.0 | testpath | 0.3.1 | torch | 0.4.1 |
torchvision | 0.2.1 | tornado | 5.0.2 | traceback2 | 1.4.0 |
traitlets | 4.3.2 | unittest2 | 1.1.0 | urllib3 | 1.22 |
virtualenv | 16.0.0 | wcwidth | 0.1.7 | webencodings | 0.5.1 |
Werkzeug | 0.14.1 | wheel | 0.31.1 | wrapt | 1.10.11 |
wsgiref | 0.1.2 |
Además, los paquetes de Spark siguientes incluyen módulos de Python:
Paquete de Spark | Módulo de Python | Versión |
---|---|---|
graphframes | graphframes | 0.7.0-db1-spark2.4 |
spark-deep-learning | sparkdl | 1.5.0-db1-spark2.4 |
tensorframes | tensorframes | 0.6.0-s_2.11 |
Bibliotecas de R
Las bibliotecas de R son idénticas a las bibliotecas de R de Databricks Runtime 5.3.
Bibliotecas de Java y Scala (clúster de Scala 2.11)
Además de las bibliotecas de Java y Scala de Databricks Runtime 5.3, Databricks Runtime 5.3 ML contiene los siguientes archivos JAR:
Identificador de grupo | Identificador de artefacto | Versión |
---|---|---|
com.databricks | spark-deep-learning | 1.5.0-db1-spark2.4 |
com.typesafe.akka | akka-actor_2.11 | 2.3.11 |
ml.combust.mleap | mleap-databricks-runtime_2.11 | 0.13.0 |
ml.dmlc | xgboost4j | 0.81 |
ml.dmlc | xgboost4j-spark | 0.81 |
org.graphframes | graphframes_2.11 | 0.7.0-db1-spark2.4 |
org.tensorflow | libtensorflow | 1.12.0 |
org.tensorflow | libtensorflow_jni | 1.12.0 |
org.tensorflow | spark-tensorflow-connector_2.11 | 1.12.0 |
org.tensorflow | tensorflow | 1.12.0 |
org.tensorframes | tensorframes | 0.6.0-s_2.11 |