Databricks Runtime 10.5 para Aprendizado de Máquina (EoS)
Nota
O suporte para esta versão do Databricks Runtime terminou. Para obter a data de fim do suporte, consulte Histórico de fim do suporte. Para todas as versões suportadas do Databricks Runtime, consulte Versões e compatibilidade das notas de versão do Databricks Runtime.
O Databricks Runtime 10.5 for Machine Learning fornece um ambiente pronto para uso para aprendizado de máquina e ciência de dados com base no Databricks Runtime 10.5 (EoS). O Databricks Runtime ML contém muitas bibliotecas populares de aprendizado de máquina, incluindo TensorFlow, PyTorch e XGBoost. O Databricks Runtime ML inclui o AutoML, uma ferramenta para treinar automaticamente pipelines de aprendizado de máquina. O Databricks Runtime ML também suporta treinamento distribuído de aprendizado profundo usando o Horovod.
Para obter mais informações, incluindo instruções para criar um cluster de ML do Databricks Runtime, consulte IA e aprendizado de máquina no Databricks.
Novos recursos e melhorias
O Databricks Runtime 10.5 ML é construído sobre o Databricks Runtime 10.5. Para obter informações sobre o que há de novo no Databricks Runtime 10.5, incluindo Apache Spark MLlib e SparkR, consulte as notas de versão do Databricks Runtime 10.5 (EoS ).
Melhorias no AutoML
Os seguintes aprimoramentos foram feitos no AutoML.
- O uso aprimorado da memória permite que o AutoML treine em conjuntos de dados maiores.
- Com a previsão do AutoML, agora você pode exportar as melhores previsões do modelo para uma tabela usando a API. Se
output_database
for fornecido, o AutoML salvará as previsões do melhor modelo em uma nova tabela no banco de dados especificado. As previsões não são salvas seoutput_database
não for especificado.
Aprimoramentos no Databricks Feature Store
Os seguintes aprimoramentos foram feitos no Databricks Feature Store.
- Agora você pode excluir uma tabela de recursos existente com a
drop_table
API. Essa ação também descarta a tabela Delta subjacente. - Agora você pode usar a API Python do Feature Engineering and Workspace Feature Store para adicionar uma tag a uma tabela de recursos ao criá-la ou registrá-la e para adicionar, atualizar, excluir ou ler tags em tabelas de recursos existentes.
Ambiente do sistema
O ambiente do sistema no Databricks Runtime 10.5 ML difere do Databricks Runtime 10.5 da seguinte forma:
- DBUtils: Databricks Runtime ML não inclui o utilitário Biblioteca (dbutils.library) (legado).
Em vez disso, use
%pip
comandos. Veja Bibliotecas em Python com âmbito de bloco de notas. - Para clusters de GPU, o Databricks Runtime ML inclui as seguintes bibliotecas de GPU NVIDIA:
- CUDA 11,0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
Bibliotecas
As seções a seguir listam as bibliotecas incluídas no Databricks Runtime 10.5 ML que diferem daquelas incluídas no Databricks Runtime 10.5.
Nesta secção:
- Bibliotecas de nível superior
- Bibliotecas Python
- Bibliotecas R
- Bibliotecas Java e Scala (cluster Scala 2.12)
Bibliotecas de nível superior
O Databricks Runtime 10.5 ML inclui as seguintes bibliotecas de camada superior:
- GraphFrames
- Horovod e HorovodRunner
- MLflow
- PyTorch
- conector spark-tensorflow;
- TensorFlow
- TensorBoard
Bibliotecas Python
O Databricks Runtime 10.5 ML usa o Virtualenv para gerenciamento de pacotes Python e inclui muitos pacotes de ML populares.
Além dos pacotes especificados nas seções a seguir, o Databricks Runtime 10.5 ML também inclui os seguintes pacotes:
- hiperopt 0.2.7.db1
- Faísca 2.2.0-DB6
- feature_store 0.4.1
- AutoML 1.8.0 |
Bibliotecas Python em clusters de CPU
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
ABSL-PY | 0.11.0 | Antergos Linux | 2015.10 (Laminação ISO) | Appdirs | 1.4.4 |
Argônio2-CFFI | 20.1.0 | Astor | 0.8.1 | Astunparse | 1.6.3 |
gerador assíncrono | 1.10 | ATRs | 20.3.0 | Backcall | 0.2.0 |
Cripta | 3.2.0 | Bidico | 0.21.4 | lixívia | 3.3.0 |
Blis | 0.7.7 | boto3 | 1.16.7 | botocore | 1.19.7 |
Ferramentas de cache | 4.2.4 | catálogo | 2.0.7 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | clicar | 7.1.2 |
Cloudpickle | 1.6.0 | CMDSTANPY | 0.9.68 | ConfigParser | 5.0.1 |
convertdate | 2.4.0 | criptografia | 3.4.7 | cycler | 0.10.0 |
cymem | 2.0.6 | Quisto | 0.29.23 | databricks-automl-runtime | 0.2.7 |
databricks-cli | 0.16.4 | DBL-TEMPO | 0.1.2 | dbus-python | 1.2.16 |
decorador | 5.0.6 | DeUsedXML | 0.7.1 | endro | 0.3.2 |
cache de disco | 5.4.0 | Distlib | 0.3.4 | distro-info | 0,23ubuntu1 |
pontos de entrada | 0.3 | Ephem | 4.1.3 | facetas-visão geral | 1.0.0 |
texto rápido | 0.9.2 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 2.0 | FSspec | 0.9.0 | Futuro | 0.18.2 |
gast | 0.4.0 | GitDB | 4.0.9 | GitPython | 3.1.12 |
Google-Auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-massas | 0.2.0 |
Grpcio | 1.39.0 | Gunicorn | 20.0.4 | GVIZ-API | 1.10.0 |
H5PY | 3.1.0 | Hijri-Conversor | 2.2.3 | feriados | 0,13 |
Horovod | 0.23.0 | htmlmin | 0.1.12 | abraçar-face-hub | 0.5.1 |
idna | 2.10 | ImagemHash | 4.2.1 | aprendizagem desequilibrada | 0.8.1 |
importlib-metadados | 3.10.0 | Ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | Isodato | 0.6.0 |
é perigoso | 1.1.0 | Jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | Joblib | 1.0.1 | Joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-cliente | 6.1.12 | Jupyter-core | 4.7.1 |
Jupyterlab-Pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.8.0 |
Pré-processamento de Keras | 1.1.2 | Kiwisolver | 1.3.1 | coalas | 1.8.2 |
Coreano-Lunar-Calendário | 0.2.1 | códigos de lang | 3.3.0 | libclang | 13.0.0 |
LightGBM | 3.3.2 | llvmlite | 0.38.0 | LunarCalendário | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | faltandonão | 0.5.1 | Mistune | 0.8.4 |
PEAML | 0.18.1 | mlflow-magro | 1.24.0 | multimétodo | 1.8 |
Murmurhash | 1.0.6 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | Ninho-Asyncio | 1.5.1 | redex | 2.5 |
NLTK | 3.6.1 | bloco de notas | 6.3.0 | numba | 0.55.1 |
numpy | 1.20.1 | OAuthlib | 3.1.0 | opt-einsum | 3.3.0 |
embalagem | 21,3 | pandas | 1.2.4 | criação de perfis de pandas | 3.1.0 |
PandocFilters | 1.4.3 | Paramiko | 2.7.2 | Parso | 0.7.0 |
Patia | 0.6.1 | patsy | 0.5.1 | petastorm | 0.11.4 |
pexpect | 4.8.0 | Phik | 0.12.2 | pickleshare | 0.7.5 |
Travesseiro | 8.2.0 | pip | 21.0.1 | enredo | 5.6.0 |
PMDARIMA | 1.8.5 | Preshed | 3.0.6 | Prometheus-cliente | 0.10.1 |
prompt-toolkit | 3.0.17 | profeta | 1.0.1 | protobuf | 3.17.2 |
PSUTIL | 5.8.0 | psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-módulos | 0.2.8 |
Pybind11 | 2.9.2 | pycparser | 2,20 | Pidântico | 1.8.2 |
Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.5.0 | Pyodbc | 4.0.30 | pyparsing | 2.4.7 |
pirsistent | 0.17.3 | Pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 |
python-dateutil | 2.8.1 | python-editor | 1.0.4 | Python-Engineio | 4.3.0 |
python-socketio | 5.4.1 | pytz | 2020.5 | PyWavelets | 1.1.1 |
PyYAML | 5.4.1 | Pyzmq | 20.0.0 | regex | 2021.4.4 |
pedidos | 2.25.1 | pedidos-oauthlib | 1.3.0 | pedidos-unixsocket | 0.2.0 |
RSA | 4.8 | s3transferir | 0.3.7 | sacremoses | 0.0.49 |
scikit-learn | 0.24.1 | scipy | 1.6.2 | seaborn | 0.11.1 |
Enviar2Lixo | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
PASP | 0.40.0 | simplejson | 3.17.2 | seis | 1.15.0 |
segmentação de dados | 0.0.7 | inteligente-aberto | 5.2.1 | smmap | 3.0.5 |
espaçado | 3.2.3 | Spacy-legado | 3.0.9 | spacy-loggers | 1.0.2 |
spark-tensorflow-distributor | 1.0.0 | SQLPARSE | 0.4.1 | SRSLY | 2.4.3 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | tabular | 0.8.7 |
emaranhado em unicode | 0.1.0 | tenacidade | 6.2.0 | TensorBoard | 2.8.0 |
Tensorboard-Data-Server | 0.6.1 | Tensorboard-plugin-profile | 2.5.0 | Tensorboard-plugin-wit | 1.8.1 |
TensorFlow-CPU | 2.8.0 | TensorFlow-Estimador | 2.8.0 | TensorFlow-IO-GCS-FileSystem | 0.24.0 |
Termcolor | 1.1.0 | terminado | 0.9.4 | caminho de teste | 0.4.4 |
TF-Estimador-Noturno | 2.8.0.dev2021122109 | fino | 8.0.15 | ThreadPoolCtl | 2.1.0 |
tokenizadores | 0.12.1 | tocha | 1.10.2+CPU | Torchvision | 0.11.3+CPU |
tornado | 6.1 | TQDM | 4.59.0 | traços | 5.0.5 |
transformadores | 4.17.0 | datilógrafo | 0.4.1 | extensões de digitação | 3.7.4.3 |
Ujson | 4.0.2 | Upgrades autônomos | 0.1 | urllib3 | 1.25.11 |
virtualenv | 20.4.1 | visões | 0.7.4 | Wasabi | 0.9.1 |
largura de wc | 0.2.5 | WebEncodings | 0.5.1 | Websocket-cliente | 0.57.0 |
Werkzeug | 1.0.1 | roda | 0.36.2 | widgetsnbextension | 3.5.1 |
embrulhado | 1.12.1 | xgboost | 1.5.2 | zipp | | 3.4.1 |
Bibliotecas Python em clusters GPU
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
ABSL-PY | 0.11.0 | Antergos Linux | 2015.10 (Laminação ISO) | Appdirs | 1.4.4 |
Argônio2-CFFI | 20.1.0 | Astor | 0.8.1 | Astunparse | 1.6.3 |
gerador assíncrono | 1.10 | ATRs | 20.3.0 | Backcall | 0.2.0 |
Cripta | 3.2.0 | Bidico | 0.21.4 | lixívia | 3.3.0 |
Blis | 0.7.7 | boto3 | 1.16.7 | botocore | 1.19.7 |
Ferramentas de cache | 4.2.4 | catálogo | 2.0.7 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | clicar | 7.1.2 |
Cloudpickle | 1.6.0 | CMDSTANPY | 0.9.68 | ConfigParser | 5.0.1 |
convertdate | 2.4.0 | criptografia | 3.4.7 | cycler | 0.10.0 |
cymem | 2.0.6 | Quisto | 0.29.23 | databricks-automl-runtime | 0.2.7 |
databricks-cli | 0.16.4 | DBL-TEMPO | 0.1.2 | dbus-python | 1.2.16 |
decorador | 5.0.6 | DeUsedXML | 0.7.1 | endro | 0.3.2 |
cache de disco | 5.4.0 | Distlib | 0.3.4 | distro-info | 0,23ubuntu1 |
pontos de entrada | 0.3 | Ephem | 4.1.3 | facetas-visão geral | 1.0.0 |
texto rápido | 0.9.2 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 2.0 | FSspec | 0.9.0 | Futuro | 0.18.2 |
gast | 0.4.0 | GitDB | 4.0.9 | GitPython | 3.1.12 |
Google-Auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-massas | 0.2.0 |
Grpcio | 1.39.0 | Gunicorn | 20.0.4 | GVIZ-API | 1.10.0 |
H5PY | 3.1.0 | Hijri-Conversor | 2.2.3 | feriados | 0,13 |
Horovod | 0.23.0 | htmlmin | 0.1.12 | abraçar-face-hub | 0.5.1 |
idna | 2.10 | ImagemHash | 4.2.1 | aprendizagem desequilibrada | 0.8.1 |
importlib-metadados | 3.10.0 | Ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | Isodato | 0.6.0 |
é perigoso | 1.1.0 | Jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | Joblib | 1.0.1 | Joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-cliente | 6.1.12 | Jupyter-core | 4.7.1 |
Jupyterlab-Pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.8.0 |
Pré-processamento de Keras | 1.1.2 | Kiwisolver | 1.3.1 | coalas | 1.8.2 |
Coreano-Lunar-Calendário | 0.2.1 | códigos de lang | 3.3.0 | libclang | 13.0.0 |
LightGBM | 3.3.2 | llvmlite | 0.38.0 | LunarCalendário | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | faltandonão | 0.5.1 | Mistune | 0.8.4 |
PEAML | 0.18.1 | mlflow-magro | 1.24.0 | multimétodo | 1.8 |
Murmurhash | 1.0.6 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | Ninho-Asyncio | 1.5.1 | redex | 2.5 |
NLTK | 3.6.1 | bloco de notas | 6.3.0 | numba | 0.55.1 |
numpy | 1.20.1 | OAuthlib | 3.1.0 | opt-einsum | 3.3.0 |
embalagem | 21,3 | pandas | 1.2.4 | criação de perfis de pandas | 3.1.0 |
PandocFilters | 1.4.3 | Paramiko | 2.7.2 | Parso | 0.7.0 |
Patia | 0.6.1 | patsy | 0.5.1 | petastorm | 0.11.4 |
pexpect | 4.8.0 | Phik | 0.12.2 | pickleshare | 0.7.5 |
Travesseiro | 8.2.0 | pip | 21.0.1 | enredo | 5.6.0 |
PMDARIMA | 1.8.5 | Preshed | 3.0.6 | prompt-toolkit | 3.0.17 |
profeta | 1.0.1 | protobuf | 3.17.2 | PSUTIL | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-módulos | 0.2.8 | Pybind11 | 2.9.2 |
pycparser | 2,20 | Pidântico | 1.8.2 | Pygments | 2.8.1 |
PyGObject | 3.36.0 | PyMeeus | 0.5.11 | PyNaCl | 1.5.0 |
Pyodbc | 4.0.30 | pyparsing | 2.4.7 | pirsistent | 0.17.3 |
Pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 | python-dateutil | 2.8.1 |
python-editor | 1.0.4 | Python-Engineio | 4.3.0 | python-socketio | 5.4.1 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
Pyzmq | 20.0.0 | regex | 2021.4.4 | pedidos | 2.25.1 |
pedidos-oauthlib | 1.3.0 | pedidos-unixsocket | 0.2.0 | RSA | 4.8 |
s3transferir | 0.3.7 | sacremoses | 0.0.49 | scikit-learn | 0.24.1 |
scipy | 1.6.2 | seaborn | 0.11.1 | Enviar2Lixo | 1.5.0 |
setuptools | 52.0.0 | setuptools-git | 1.2 | PASP | 0.40.0 |
simplejson | 3.17.2 | seis | 1.15.0 | segmentação de dados | 0.0.7 |
inteligente-aberto | 5.2.1 | smmap | 3.0.5 | espaçado | 3.2.3 |
Spacy-legado | 3.0.9 | spacy-loggers | 1.0.2 | spark-tensorflow-distributor | 1.0.0 |
SQLPARSE | 0.4.1 | SRSLY | 2.4.3 | ssh-import-id | 5.10 |
statsmodels | 0.12.2 | tabular | 0.8.7 | emaranhado em unicode | 0.1.0 |
tenacidade | 6.2.0 | TensorBoard | 2.8.0 | Tensorboard-Data-Server | 0.6.1 |
Tensorboard-plugin-profile | 2.5.0 | Tensorboard-plugin-wit | 1.8.1 | TensorFlow | 2.8.0 |
TensorFlow-Estimador | 2.8.0 | TensorFlow-IO-GCS-FileSystem | 0.24.0 | Termcolor | 1.1.0 |
terminado | 0.9.4 | caminho de teste | 0.4.4 | TF-Estimador-Noturno | 2.8.0.dev2021122109 |
fino | 8.0.15 | ThreadPoolCtl | 2.1.0 | tokenizadores | 0.12.1 |
tocha | 1.10.2+CU113 | Torchvision | 0.11.3+CU113 | tornado | 6.1 |
TQDM | 4.59.0 | traços | 5.0.5 | transformadores | 4.17.0 |
datilógrafo | 0.4.1 | extensões de digitação | 3.7.4.3 | Ujson | 4.0.2 |
Upgrades autônomos | 0.1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
visões | 0.7.4 | Wasabi | 0.9.1 | largura de wc | 0.2.5 |
WebEncodings | 0.5.1 | Websocket-cliente | 0.57.0 | Werkzeug | 1.0.1 |
roda | 0.36.2 | widgetsnbextension | 3.5.1 | embrulhado | 1.12.1 |
xgboost | 1.5.2 | zipp | | 3.4.1 |
Pacotes Spark contendo módulos Python
Pacote Spark | Módulo Python | Versão |
---|---|---|
quadros gráficos | quadros gráficos | 0.8.2-DB1-Faísca3.2 |
Bibliotecas R
As bibliotecas R são idênticas às bibliotecas R no Databricks Runtime 10.5.
Bibliotecas Java e Scala (cluster Scala 2.12)
Além das bibliotecas Java e Scala no Databricks Runtime 10.5, o Databricks Runtime 10.5 ML contém os seguintes JARs:
Clusters de CPU
ID do Grupo | ID do Artefacto | Versão |
---|---|---|
com.typesafe.akka | AKKA-actor_2,12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23EB1EF |
ml.dmlc | xgboost4j-spark_2,12 | 1.5.2 |
ml.dmlc | xgboost4j_2.12 | 1.5.2 |
org.graphframes | graphframes_2.12 | 0.8.2-DB1-Faísca3.2 |
org.mlflow | mlflow-cliente | 1.24.0 |
org.mlflow | MLFLOW-Faísca | 1.24.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Clusters GPU
ID do Grupo | ID do Artefacto | Versão |
---|---|---|
com.typesafe.akka | AKKA-actor_2,12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23EB1EF |
ml.dmlc | xgboost4j-spark_2,12 | 1.5.2 |
ml.dmlc | xgboost4j_2.12 | 1.5.2 |
org.graphframes | graphframes_2.12 | 0.8.2-DB1-Faísca3.2 |
org.mlflow | mlflow-cliente | 1.24.0 |
org.mlflow | MLFLOW-Faísca | 1.24.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |