Databricks Runtime 5.4 para ML (EoS)
Nota
O suporte para esta versão do Databricks Runtime terminou. Para obter a data de fim do suporte, consulte Histórico de fim do suporte. Para todas as versões suportadas do Databricks Runtime, consulte Versões e compatibilidade das notas de versão do Databricks Runtime.
A Databricks lançou esta versão em junho de 2019.
O Databricks Runtime 5.4 for Machine Learning fornece um ambiente pronto para uso para aprendizado de máquina e ciência de dados com base no Databricks Runtime 5.4 (EoS). O Databricks Runtime ML contém muitas bibliotecas populares de aprendizado de máquina, incluindo TensorFlow, PyTorch, Keras e XGBoost. Ele também suporta treinamento distribuído de aprendizagem profunda usando Horovod.
Para obter mais informações, incluindo instruções para criar um cluster de ML do Databricks Runtime, consulte IA e aprendizado de máquina no Databricks.
Novas funcionalidades
O Databricks Runtime 5.4 ML é construído sobre o Databricks Runtime 5.4. Para obter informações sobre o que há de novo no Databricks Runtime 5.4, consulte as notas de versão do Databricks Runtime 5.4 (EoS ).
Além das atualizações da biblioteca, o Databricks Runtime 5.4 ML apresenta os seguintes novos recursos:
Hyperopt distribuído + rastreamento automatizado de MLflow
O Databricks Runtime 5.4 ML introduz uma nova implementação do Hyperopt alimentado pelo Apache Spark para dimensionar e simplificar o ajuste de hiperparâmetros. Uma nova Trials
classe SparkTrials
é implementada para distribuir execuções de avaliação do Hyperopt entre várias máquinas e nós usando o Apache Spark. Além disso, todos os experimentos de ajuste, juntamente com os hiperparâmetros ajustados e as métricas direcionadas, são automaticamente registrados em execuções do MLflow. Consulte Parallelize Hyperopt hyperparameter tuning.
Importante
Esta funcionalidade está em Pré-visualização Pública.
Apache Spark MLlib + rastreamento automatizado de MLflow
O Databricks Runtime 5.4 ML suporta o registro automático de execuções MLflow para modelos ajustados usando algoritmos CrossValidator
de ajuste PySpark e TrainValidationSplit
. Consulte Apache Spark MLlib e rastreamento automatizado de MLflow. Esse recurso está ativado por padrão no Databricks Runtime 5.4 ML, mas estava desativado por padrão no Databricks Runtime 5.3 ML.
Importante
Esta funcionalidade está em Pré-visualização Pública.
Melhoria do HorovodRunner
A saída enviada do Horovod para o nó do driver Spark agora é visível nas células do notebook.
Atualização do pacote XGBoost Python
XGBoost Python pacote 0.80 está instalado.
Ambiente do sistema
O ambiente do sistema no Databricks Runtime 5.4 ML difere do Databricks Runtime 5.4 da seguinte maneira:
- Python: 2.7.15 para clusters Python 2 e 3.6.5 para clusters Python 3.
- DBUtils: Databricks Runtime 5.4 ML não contém o utilitário Biblioteca (dbutils.library) (legado).
- Para clusters de GPU, as seguintes bibliotecas de GPU NVIDIA:
- Motorista Tesla 396.44
- CUDA 9,2
- CUDNN 7.2.1
Bibliotecas
As seções a seguir listam as bibliotecas incluídas no Databricks Runtime 5.4 ML que diferem daquelas incluídas no Databricks Runtime 5.4.
Bibliotecas de nível superior
O Databricks Runtime 5.4 ML inclui as seguintes bibliotecas de camada superior:
Bibliotecas Python
O Databricks Runtime 5.4 ML usa o Conda para gerenciamento de pacotes Python. Como resultado, há grandes diferenças nas bibliotecas Python instaladas em comparação com o Databricks Runtime. A seguir está uma lista completa dos pacotes Python fornecidos e versões instaladas usando o gerenciador de pacotes Conda.
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
ABSL-PY | 0.7.1 | argparse | 1.4.0 | asn1crypto | 0.24.0 |
Astor | 0.7.1 | backports-abc | 0.5 | backports.functools-lru-cache | 1.5 |
backports.weakref | 1.0.POST1 | Cripta | 3.1.6 | lixívia | 2.1.3 |
boto | 2.48.0 | boto3 | 1.7.62 | botocore | 1.10.62 |
certifi | 2018.04.16 | cffi | 1.11.5 | chardet | 3.0.4 |
Cloudpickle | 0.5.3 | colorama | 0.3.9 | ConfigParser | 3.5.0 |
criptografia | 2.2.2 | cycler | 0.10.0 | Quisto | 0.28.2 |
decorador | 4.3.0 | docutils | 0.14 | pontos de entrada | 0.2.3 |
enum34 | 1.1.6 | et-xmlfile | 1.0.1 | funcsigs | 1.0.2 |
functools32 | 3.2.3-2 | fusepy | 2.0.4 | Futuro | 0.17.1 |
futuros | 3.2.0 | gast | 0.2.2 | Grpcio | 1.12.1 |
H5PY | 2.8.0 | Horovod | 0.16.0 | html5lib | 1.0.1 |
hiperoptia | 0.1.2.db4 | idna | 2.6 | ipaddress | 1.0.22 |
ipython | 5.7.0 | ipython_genutils | 0.2.0 | jdcal | 1.4 |
Jinja2 | 2.10 | jmespath | 0.9.4 | jsonschema | 2.6.0 |
jupyter-cliente | 5.2.3 | Jupyter-core | 4.4.0 | Keras | 2.2.4 |
Keras-Aplicações | 1.0.7 | Pré-processamento de Keras | 1.0.9 | Kiwisolver | 1.1.0 |
LineCache2 | 1.0.0 | llvmlite | 0.23.1 | lxml | 4.2.1 |
Markdown | 3.1.1 | MarkupSafe | 1.0 | matplotlib | 2.2.2 |
Mistune | 0.8.3 | MKL-FFT | 1.0.0 | mkl-aleatório | 1.0.1 |
PEAML | 0.8.1 | simulado | 2.0.0 | msgpack | 0.5.6 |
nbconvert | 5.3.1 | nbformat | 4.4.0 | redex | 2.2 |
nariz | 1.3.7 | nariz-excluir | 0.5.0 | numba | 0.38.0+0.g2a2b772fc.sujo |
numpy | 1.14.3 | olefile | 0.45.1 | openpyxl | 2.5.3 |
pandas | 0.23.0 | PandocFilters | 1.4.2 | Paramiko | 2.4.1 |
pathlib2 | 2.3.2 | patsy | 0.5.0 | PBR | 5.1.3 |
pexpect | 4.5.0 | pickleshare | 0.7.4 | Travesseiro | 5.1.0 |
pip | 10.0.1 | ply | 3.11 | prompt-toolkit | 1.0.15 |
protobuf | 3.7.1 | PSUTIL | 5.6.2 | psycopg2 | 2.7.5 |
ptyprocess | 0.5.2 | pyarrow | 0.12.1 | pyasn1 | 0.4.5 |
pycparser | 2.18 | Pygments | 2.2.0 | Pymongo | 3.8.0 |
PyNaCl | 1.3.0 | pyOpenSSL | 18.0.0 | pyparsing | 2.2.0 |
Meias PySocks | 1.6.8 | Python | 2.7.15 | python-dateutil | 2.7.3 |
pytz | 2018.4 | PyYAML | 5.1 | Pyzmq | 17.0.0 |
pedidos | 2.18.4 | s3transferir | 0.1.13 | Scandir | 1.7 |
scikit-learn | 0.19.1 | scipy | 1.1.0 | seaborn | 0.8.1 |
setuptools | 39.1.0 | simplesgenérico | 0.8.1 | singledispatch | 3.4.0.3 |
seis | 1.11.0 | statsmodels | 0.9.0 | subprocesso32 | 3.5.4 |
TensorBoard | 1.12.2 | tensorboardX | 1.6 | TensorFlow | 1.12.0 |
Termcolor | 1.1.0 | caminho de teste | 0.3.1 | tocha | 0.4.1 |
Torchvision | 0.2.1 | tornado | 5.0.2 | TQDM | 4.32.1 |
traceback2 | 1.4.0 | traços | 4.3.2 | teste unitário2 | 1.1.0 |
urllib3 | 1.22 | virtualenv | 16.0.0 | largura de wc | 0.1.7 |
WebEncodings | 0.5.1 | Werkzeug | 0.14.1 | roda | 0.31.1 |
embrulhado | 1.10.11 | wsgiref | 0.1.2 |
Além disso, os seguintes pacotes do Spark incluem módulos Python:
Pacote Spark | Módulo Python | Versão |
---|---|---|
quadros gráficos | quadros gráficos | 0.7.0-db1-faísca2.4 |
faísca-aprendizagem profunda | Faísca | 1.5.0-DB3-Faísca2.4 |
tensorframes | tensorframes | 0.6.0-s_2.11 |
Bibliotecas R
As bibliotecas R são idênticas às bibliotecas R no Databricks Runtime 5.4.
Bibliotecas Java e Scala (cluster Scala 2.11)
Além das bibliotecas Java e Scala no Databricks Runtime 5.4, o Databricks Runtime 5.4 ML contém os seguintes JARs:
ID do Grupo | ID do Artefacto | Versão |
---|---|---|
com.databricks | faísca-aprendizagem profunda | 1.5.0-DB3-Faísca2.4 |
com.typesafe.akka | AKKA-actor_2,11 | 2.3.11 |
ml.combust.mleap | mleap-databricks-runtime_2.11 | 0.13.0 |
ml.dmlc | xgboost4j | 0,81 |
ml.dmlc | xgboost4j-faísca | 0,81 |
org.graphframes | graphframes_2.11 | 0.7.0-db1-faísca2.4 |
org.tensorflow | libtensorflow | 1.12.0 |
org.tensorflow | libtensorflow_jni | 1.12.0 |
org.tensorflow | spark-tensorflow-connector_2.11 | 1.12.0 |
org.tensorflow | TensorFlow | 1.12.0 |
org.tensorframes | tensorframes | 0.6.0-s_2.11 |