Partilhar via


Databricks Runtime 5.2 ML

A Databricks lançou esta versão em janeiro de 2019.

O Databricks Runtime 5.2 ML fornece um ambiente pronto para uso para aprendizado de máquina e ciência de dados com base no Databricks Runtime 5.2 (EoS). O Databricks Runtime for ML contém muitas bibliotecas populares de aprendizado de máquina, incluindo TensorFlow, PyTorch, Keras e XGBoost. Ele também suporta treinamento distribuído do TensorFlow usando Horovod.

Para obter mais informações, incluindo instruções para criar um cluster de ML do Databricks Runtime, consulte IA e aprendizado de máquina no Databricks.

Novas funcionalidades

O Databricks Runtime 5.2 ML é construído sobre o Databricks Runtime 5.2. Para obter informações sobre o que há de novo no Databricks Runtime 5.2, consulte as notas de versão do Databricks Runtime 5.2 (EoS ). Além das atualizações da biblioteca, o Databricks Runtime 5.2 ML apresenta os seguintes novos recursos:

  • O GraphFrames agora suporta a API Pregel (Python) com otimizações de desempenho do Databricks.
  • HorovodRunner acrescenta:
    • Em um cluster de GPU, os processos de treinamento são mapeados para GPUs em vez de nós de trabalho para simplificar o suporte a tipos de instância de várias GPUs. Este suporte integrado permite-lhe distribuir para todas as GPUs numa máquina multi-GPU sem código personalizado.
    • HorovodRunner.run() agora retorna o valor de retorno do primeiro processo de treinamento.

Nota

As versões do Databricks Runtime ML recebem todas as atualizações de manutenção para a versão base do Databricks Runtime. Para obter uma lista de todas as atualizações de manutenção, consulte Atualizações de manutenção para Databricks Runtime (arquivado).

Ambiente do sistema

O ambiente do sistema no Databricks Runtime 5.2 ML difere do Databricks Runtime 5.2 da seguinte forma:

  • Python: 2.7.15 para clusters Python 2 e 3.6.5 para clusters Python 3.
  • DBUtils: Databricks Runtime 5.2 ML não contém o utilitário Biblioteca (dbutils.library) (legado).
  • Para clusters de GPU, as seguintes bibliotecas de GPU NVIDIA:
    • Motorista Tesla 396.44
    • CUDA 9,2
    • CUDNN 7.2.1

Bibliotecas

As seções a seguir listam as bibliotecas incluídas no Databricks Runtime 5.2 ML que diferem daquelas incluídas no Databricks Runtime 5.2.

Bibliotecas Python

O Databricks Runtime 5.2 ML usa o Conda para gerenciamento de pacotes Python. Como resultado, há grandes diferenças nas bibliotecas Python pré-instaladas em comparação com o Databricks Runtime. A seguir está uma lista completa dos pacotes Python fornecidos e versões instaladas usando o gerenciador de pacotes Conda.

Biblioteca Versão Biblioteca Versão Biblioteca Versão
ABSL-PY 0.6.1 argparse 1.4.0 asn1crypto 0.24.0
Astor 0.7.1 backports-abc 0.5 backports.functools-lru-cache 1.5
backports.weakref 1.0.POST1 Cripta 3.1.5 lixívia 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet 3.0.4
Cloudpickle 0.5.3 colorama 0.3.9 ConfigParser 3.5.0
criptografia 2.2.2 cycler 0.10.0 Quisto 0.28.2
decorador 4.3.0 docutils 0.14 pontos de entrada 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 futuros 3.2.0
gast 0.2.0 Grpcio 1.12.1 H5PY 2.8.0
Horovod 0.15.2 html5lib 1.0.1 idna 2.6
ipaddress 1.0.22 ipython 5.7.0 ipython_genutils 0.2.0
jdcal 1.4 Jinja2 2.10 jmespath 0.9.3
jsonschema 2.6.0 jupyter-cliente 5.2.3 Jupyter-core 4.4.0
Keras 2.2.4 Keras-Aplicações 1.0.6 Pré-processamento de Keras 1.0.5
Kiwisolver 1.0.1 LineCache2 1.0.0 llvmlite 0.23.1
lxml 4.2.1 Markdown 3.0.1 MarkupSafe 1.0
matplotlib 2.2.2 Mistune 0.8.3 PEAML 0.8.1
simulado 2.0.0 msgpack 0.5.6 nbconvert 5.3.1
nbformat 4.4.0 nariz 1.3.7 nariz-excluir 0.5.0
numba 0.38.0+0.g2a2b772fc.sujo numpy 1.14.3 olefile 0.45.1
openpyxl 2.5.3 pandas 0.23.0 PandocFilters 1.4.2
Paramiko 2.4.1 pathlib2 2.3.2 patsy 0.5.0
PBR 5.1.1 pexpect 4.5.0 pickleshare 0.7.4
Travesseiro 5.1.0 pip 10.0.1 ply 3.11
prompt-toolkit 1.0.15 protobuf 3.6.1 psycopg2 2.7.5
ptyprocess 0.5.2 pyarrow 0.8.0 pyasn1 0.4.4
pycparser 2.18 Pygments 2.2.0 PyNaCl 1.3.0
pyOpenSSL 18.0.0 pyparsing 2.2.0 Meias PySocks 1.6.8
Python 2.7.15 python-dateutil 2.7.3 pytz 2018.4
PyYAML 3.12 Pyzmq 17.0.0 pedidos 2.18.4
s3transferir 0.1.13 Scandir 1.7 scikit-learn 0.19.1
scipy 1.1.0 seaborn 0.8.1 setuptools 39.1.0
simplesgenérico 0.8.1 singledispatch 3.4.0.3 seis 1.11.0
statsmodels 0.9.0 subprocesso32 3.5.3 TensorBoard 1.12.2
tensorboardX 1.4 TensorFlow 1.12.0 Termcolor 1.1.0
caminho de teste 0.3.1 tocha 0.4.1 Torchvision 0.2.1
tornado 5.0.2 traceback2 1.4.0 traços 4.3.2
teste unitário2 1.1.0 urllib3 1.22 virtualenv 16.0.0
largura de wc 0.1.7 WebEncodings 0.5.1 Werkzeug 0.14.1
roda 0.31.1 embrulhado 1.10.11 wsgiref 0.1.2

Além disso, os seguintes pacotes do Spark incluem módulos Python:

Pacote Spark Módulo Python Versão
quadros gráficos quadros gráficos 0.7.0-db1-faísca2.4
faísca-aprendizagem profunda Faísca 1.5.0-DB1-Faísca2.4
tensorframes tensorframes 0.6.0-s_2.11

Bibliotecas R

As bibliotecas R são idênticas às bibliotecas R no Databricks Runtime 5.2.

Bibliotecas Java e Scala (cluster Scala 2.11)

Além das bibliotecas Java e Scala no Databricks Runtime 5.2, o Databricks Runtime 5.2 ML contém os seguintes JARs:

ID do Grupo ID do Artefacto Versão
com.databricks faísca-aprendizagem profunda 1.5.0-DB1-Faísca2.4
com.typesafe.akka AKKA-actor_2,11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0,81
ml.dmlc xgboost4j-faísca 0,81
org.graphframes graphframes_2.11 0.7.0-db1-faísca2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow TensorFlow 1.12.0
org.tensorframes tensorframes 0.6.0-s_2.11