Databricks Runtime 11.1 para Aprendizado de Máquina (EoS)
Nota
O suporte para esta versão do Databricks Runtime terminou. Para obter a data de fim do suporte, consulte Histórico de fim do suporte. Para todas as versões suportadas do Databricks Runtime, consulte Versões e compatibilidade das notas de versão do Databricks Runtime.
O Databricks Runtime 11.1 for Machine Learning fornece um ambiente pronto para uso para aprendizado de máquina e ciência de dados com base no Databricks Runtime 11.1 (EoS). O Databricks Runtime ML contém muitas bibliotecas populares de aprendizado de máquina, incluindo TensorFlow, PyTorch e XGBoost. O Databricks Runtime ML inclui o AutoML, uma ferramenta para treinar automaticamente pipelines de aprendizado de máquina. O Databricks Runtime ML também suporta treinamento distribuído de aprendizado profundo usando o Horovod.
Para obter mais informações, incluindo instruções para criar um cluster de ML do Databricks Runtime, consulte IA e aprendizado de máquina no Databricks.
Novos recursos e melhorias
O Databricks Runtime 11.1 ML é construído sobre o Databricks Runtime 11.1. Para obter informações sobre o que há de novo no Databricks Runtime 11.1, incluindo Apache Spark MLlib e SparkR, consulte as notas de versão do Databricks Runtime 11.1 (EoS ).
Melhorias no AutoML
Os seguintes aprimoramentos foram feitos no AutoML.
- Quando o AutoML deteta que um problema de classificação é binário, ele calcula métricas de classificação binária e infere a classe positiva do problema. Você também pode especificar a classe positiva usando um novo
pos_label
parâmetro. Para obter detalhes, consulte Referência da API do AutoML Python. - Para problemas de previsão, o AutoML agora pode lidar com o cenário em que o horizonte é longo em relação ao período de tempo dos dados de treinamento.
Aprimoramentos no Databricks Feature Store
Os seguintes aprimoramentos foram feitos no Databricks Feature Store.
Agora você pode atualizar manualmente as fontes de dados de uma tabela de recursos usando a API Python do Feature Store.
Agora você pode publicar tabelas de recursos offline no Azure Cosmos DB para pesquisa online de baixa latência. Consulte Publicar recursos em uma loja online e Publicar recursos de séries cronológicas em uma loja online.
Ambiente do sistema
O ambiente do sistema no Databricks Runtime 11.1 ML difere do Databricks Runtime 11.1 da seguinte maneira:
- DBUtils: Databricks Runtime ML não inclui o utilitário Biblioteca (dbutils.library) (legado).
Em vez disso, use
%pip
comandos. Veja Bibliotecas em Python com âmbito de bloco de notas. - Para clusters de GPU, o Databricks Runtime ML inclui as seguintes bibliotecas de GPU NVIDIA:
- CUDA 11,3
- cuDNN 8.0.5.39
- NCCL 2.9.9
- TensorRT 7.2.2
Bibliotecas
As seções a seguir listam as bibliotecas incluídas no Databricks Runtime 11.1 ML que diferem daquelas incluídas no Databricks Runtime 11.1.
Nesta secção:
- Bibliotecas de nível superior
- Bibliotecas Python
- Bibliotecas R
- Bibliotecas Java e Scala (cluster Scala 2.12)
Bibliotecas de nível superior
O Databricks Runtime 11.1 ML inclui as seguintes bibliotecas de camada superior:
- GraphFrames
- Horovod e HorovodRunner
- MLflow
- PyTorch
- conector spark-tensorflow;
- TensorFlow
- TensorBoard
Bibliotecas Python
O Databricks Runtime 11.1 ML usa o Virtualenv para gerenciamento de pacotes Python e inclui muitos pacotes de ML populares.
Além dos pacotes especificados nas seções a seguir, o Databricks Runtime 11.1 ML também inclui os seguintes pacotes:
- hiperopt 0.2.7.db1
- Faísca 2.2.0-DB6
- feature_store 0.5.0
- AutoML 1.11.0 |
Bibliotecas Python em clusters de CPU
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
ABSL-PY | 1.0.0 | Antergos Linux | 2015.10 (Laminação ISO) | Argônio2-CFFI | 20.1.0 |
Astor | 0.8.1 | Astunparse | 1.6.3 | gerador assíncrono | 1.10 |
ATRs | 21.2.0 | azure-core | 1.22.1 | Azure-Cosmos | 4.2.0 |
Backcall | 0.2.0 | backports.pontos de entrada-selecionáveis | 1.1.1 | Cripta | 3.2.2 |
lixívia | 4.0.0 | Blis | 0.7.8 | boto3 | 1.21.18 |
botocore | 1.24.18 | Ferramentas de cache | 5.2.0 | catálogo | 2.0.7 |
certifi | 2021.10.8 | cffi | 1.14.6 | chardet | 4.0.0 |
Normalizador de Charset | 2.0.4 | clicar | 8.0.3 | Cloudpickle | 2.0.0 |
CMDSTANPY | 0.9.68 | ConfigParser | 5.2.0 | convertdate | 2.4.0 |
criptografia | 3.4.8 | cycler | 0.10.0 | cymem | 2.0.6 |
Quisto | 0.29.24 | databricks-automl-runtime | 0.2.9.1 | databricks-cli | 0.16.8 |
DBL-TEMPO | 0.1.12 | dbus-python | 1.2.16 | depuração | 1.4.1 |
decorador | 5.1.0 | DeUsedXML | 0.7.1 | endro | 0.3.4 |
cache de disco | 5.4.0 | Distlib | 0.3.4 | distro-info | 0,23ubuntu1 |
pontos de entrada | 0.3 | Ephem | 4.1.3 | facetas-visão geral | 1.0.0 |
texto rápido | 0.9.2 | filelock | 3.3.1 | Flask | 1.1.2 |
flatbuffers | 1.12 | FSspec | 2021.8.1 | Futuro | 0.18.2 |
gast | 0.4.0 | GitDB | 4.0.9 | GitPython | 3.1.27 |
Google-Auth | 2.6.0 | google-auth-oauthlib | 0.4.6 | google-massas | 0.2.0 |
Grpcio | 1.44.0 | Gunicorn | 20.1.0 | GVIZ-API | 1.10.0 |
H5PY | 3.3.0 | Hijri-Conversor | 2.2.4 | feriados | 0.14.2 |
Horovod | 0.24.3 | htmlmin | 0.1.12 | abraçar-face-hub | 0.8.1 |
idna | 3.2 | ImagemHash | 4.2.1 | aprendizagem desequilibrada | 0.8.1 |
importlib-metadados | 4.8.1 | Ipykernel | 6.12.1 | ipython | 7.32.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.7.0 | Isodato | 0.6.1 |
é perigoso | 2.0.1 | Jedi | 0.18.0 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | Joblib | 1.0.1 | Joblibspark | 0.5.0 |
jsonschema | 3.2.0 | jupyter-cliente | 6.1.12 | Jupyter-core | 4.8.1 |
Jupyterlab-Pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.9.0 |
Pré-processamento de Keras | 1.1.2 | Kiwisolver | 1.3.1 | Coreano-Lunar-Calendário | 0.2.1 |
códigos de lang | 3.3.0 | libclang | 14.0.1 | LightGBM | 3.3.2 |
llvmlite | 0.38.1 | LunarCalendário | 0.0.9 | Mako | 1.2.0 |
Markdown | 3.3.6 | MarkupSafe | 2.0.1 | matplotlib | 3.4.3 |
matplotlib-em linha | 0.1.2 | faltandonão | 0.5.1 | Mistune | 0.8.4 |
PEAML | 0.20.0 | mlflow-magro | 1.27.0 | multimétodo | 1.8 |
Murmurhash | 1.0.7 | nbclient | 0.5.3 | nbconvert | 6.1.0 |
nbformat | 5.1.3 | Ninho-Asyncio | 1.5.1 | redex | 2.6.3 |
NLTK | 3.6.5 | bloco de notas | 6.4.5 | numba | 0.55.2 |
numpy | 1.20.3 | OAuthlib | 3.2.0 | opt-einsum | 3.3.0 |
embalagem | 21.0 | pandas | 1.3.4 | criação de perfis de pandas | 3.1.0 |
PandocFilters | 1.4.3 | Paramiko | 2.9.2 | Parso | 0.8.2 |
Patia | 0.6.2 | patsy | 0.5.2 | petastorm | 0.11.4 |
pexpect | 4.8.0 | Phik | 0.12.2 | pickleshare | 0.7.5 |
Travesseiro | 8.4.0 | pip | 21.2.4 | plataformadirs | 2.5.2 |
enredo | 5.8.2 | PMDARIMA | 1.8.5 | Preshed | 3.0.6 |
Prometheus-cliente | 0.11.0 | prompt-toolkit | 3.0.20 | profeta | 1.0.1 |
protobuf | 3.19.4 | PSUTIL | 5.8.0 | psycopg2 | 2.9.3 |
ptyprocess | 0.7.0 | pyarrow | 7.0.0 | pyasn1 | 0.4.8 |
pyasn1-módulos | 0.2.8 | Pybind11 | 2.9.2 | pycparser | 2,20 |
Pidântico | 1.8.2 | Pygments | 2.10.0 | PyGObject | 3.36.0 |
PyJWT | 2.4.0 | PyMeeus | 0.5.11 | PyNaCl | 1.5.0 |
Pyodbc | 4.0.31 | pyparsing | 3.0.4 | pirsistent | 0.18.0 |
Pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 | python-dateutil | 2.8.2 |
python-editor | 1.0.4 | pytz | 2021.3 | PyWavelets | 1.1.1 |
PyYAML | 6,0 | Pyzmq | 22.2.1 | regex | 2021.8.3 |
pedidos | 2.26.0 | pedidos-oauthlib | 1.3.1 | pedidos-unixsocket | 0.2.0 |
RSA | 4.8 | s3transferir | 0.5.2 | scikit-learn | 0.24.2 |
scipy | 1.7.1 | seaborn | 0.11.2 | Enviar2Lixo | 1.8.0 |
setuptools | 58.0.4 | setuptools-git | 1.2 | PASP | 0.40.0 |
simplejson | 3.17.6 | seis | 1.16.0 | segmentação de dados | 0.0.7 |
inteligente-aberto | 5.2.1 | smmap | 5.0.0 | espaçado | 3.3.1 |
Spacy-legado | 3.0.9 | spacy-loggers | 1.0.2 | spark-tensorflow-distributor | 1.0.0 |
SQLPARSE | 0.4.2 | SRSLY | 2.4.3 | ssh-import-id | 5.10 |
statsmodels | 0.12.2 | tabular | 0.8.9 | emaranhado em unicode | 0.1.0 |
tenacidade | 8.0.1 | TensorBoard | 2.9.1 | Tensorboard-Data-Server | 0.6.1 |
Tensorboard-plugin-profile | 2.8.0 | Tensorboard-plugin-wit | 1.8.1 | TensorFlow-CPU | 2.9.1 |
TensorFlow-Estimador | 2.9.0 | TensorFlow-IO-GCS-FileSystem | 0.26.0 | Termcolor | 1.1.0 |
terminado | 0.9.4 | caminho de teste | 0.5.0 | fino | 8.0.17 |
ThreadPoolCtl | 2.2.0 | tokenizadores | 0.12.1 | tocha | 1.11.0+CPU |
Torchvision | 0.12.0+CPU | tornado | 6.1 | TQDM | 4.62.3 |
traços | 5.1.0 | transformadores | 4.20.0 | datilógrafo | 0.4.2 |
extensões de digitação | 3.10.0.2 | Ujson | 4.0.2 | Upgrades autônomos | 0.1 |
urllib3 | 1.26.7 | virtualenv | 20.8.0 | visões | 0.7.4 |
Wasabi | 0.9.1 | largura de wc | 0.2.5 | WebEncodings | 0.5.1 |
Websocket-cliente | 1.3.1 | Werkzeug | 2.0.2 | roda | 0.37.0 |
widgetsnbextension | 3.6.0 | embrulhado | 1.12.1 | xgboost | 1.5.2 |
zipp | | 3.6.0 |
Bibliotecas Python em clusters GPU
Biblioteca | Versão | Biblioteca | Versão | Biblioteca | Versão |
---|---|---|---|---|---|
ABSL-PY | 1.0.0 | Antergos Linux | 2015.10 (Laminação ISO) | Argônio2-CFFI | 20.1.0 |
Astor | 0.8.1 | Astunparse | 1.6.3 | gerador assíncrono | 1.10 |
ATRs | 21.2.0 | azure-core | 1.22.1 | Azure-Cosmos | 4.2.0 |
Backcall | 0.2.0 | backports.pontos de entrada-selecionáveis | 1.1.1 | Cripta | 3.2.2 |
lixívia | 4.0.0 | Blis | 0.7.8 | boto3 | 1.21.18 |
botocore | 1.24.18 | Ferramentas de cache | 5.2.0 | catálogo | 2.0.7 |
certifi | 2021.10.8 | cffi | 1.14.6 | chardet | 4.0.0 |
Normalizador de Charset | 2.0.4 | clicar | 8.0.3 | Cloudpickle | 2.0.0 |
CMDSTANPY | 0.9.68 | ConfigParser | 5.2.0 | convertdate | 2.4.0 |
criptografia | 3.4.8 | cycler | 0.10.0 | cymem | 2.0.6 |
Quisto | 0.29.24 | databricks-automl-runtime | 0.2.9.1 | databricks-cli | 0.16.8 |
DBL-TEMPO | 0.1.12 | dbus-python | 1.2.16 | depuração | 1.4.1 |
decorador | 5.1.0 | DeUsedXML | 0.7.1 | endro | 0.3.4 |
cache de disco | 5.4.0 | Distlib | 0.3.4 | distro-info | 0,23ubuntu1 |
pontos de entrada | 0.3 | Ephem | 4.1.3 | facetas-visão geral | 1.0.0 |
texto rápido | 0.9.2 | filelock | 3.3.1 | Flask | 1.1.2 |
flatbuffers | 1.12 | FSspec | 2021.8.1 | Futuro | 0.18.2 |
gast | 0.4.0 | GitDB | 4.0.9 | GitPython | 3.1.27 |
Google-Auth | 2.6.0 | google-auth-oauthlib | 0.4.6 | google-massas | 0.2.0 |
Grpcio | 1.44.0 | Gunicorn | 20.1.0 | GVIZ-API | 1.10.0 |
H5PY | 3.3.0 | Hijri-Conversor | 2.2.4 | feriados | 0.14.2 |
Horovod | 0.24.3 | htmlmin | 0.1.12 | abraçar-face-hub | 0.8.1 |
idna | 3.2 | ImagemHash | 4.2.1 | aprendizagem desequilibrada | 0.8.1 |
importlib-metadados | 4.8.1 | Ipykernel | 6.12.1 | ipython | 7.32.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.7.0 | Isodato | 0.6.1 |
é perigoso | 2.0.1 | Jedi | 0.18.0 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | Joblib | 1.0.1 | Joblibspark | 0.5.0 |
jsonschema | 3.2.0 | jupyter-cliente | 6.1.12 | Jupyter-core | 4.8.1 |
Jupyterlab-Pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.9.0 |
Pré-processamento de Keras | 1.1.2 | Kiwisolver | 1.3.1 | Coreano-Lunar-Calendário | 0.2.1 |
códigos de lang | 3.3.0 | libclang | 14.0.1 | LightGBM | 3.3.2 |
llvmlite | 0.38.1 | LunarCalendário | 0.0.9 | Mako | 1.2.0 |
Markdown | 3.3.6 | MarkupSafe | 2.0.1 | matplotlib | 3.4.3 |
matplotlib-em linha | 0.1.2 | faltandonão | 0.5.1 | Mistune | 0.8.4 |
PEAML | 0.20.0 | mlflow-magro | 1.27.0 | multimétodo | 1.8 |
Murmurhash | 1.0.7 | nbclient | 0.5.3 | nbconvert | 6.1.0 |
nbformat | 5.1.3 | Ninho-Asyncio | 1.5.1 | redex | 2.6.3 |
NLTK | 3.6.5 | bloco de notas | 6.4.5 | numba | 0.55.2 |
numpy | 1.20.3 | OAuthlib | 3.2.0 | opt-einsum | 3.3.0 |
embalagem | 21.0 | pandas | 1.3.4 | criação de perfis de pandas | 3.1.0 |
PandocFilters | 1.4.3 | Paramiko | 2.9.2 | Parso | 0.8.2 |
Patia | 0.6.2 | patsy | 0.5.2 | petastorm | 0.11.4 |
pexpect | 4.8.0 | Phik | 0.12.2 | pickleshare | 0.7.5 |
Travesseiro | 8.4.0 | pip | 21.2.4 | plataformadirs | 2.5.2 |
enredo | 5.8.2 | PMDARIMA | 1.8.5 | Preshed | 3.0.6 |
prompt-toolkit | 3.0.20 | profeta | 1.0.1 | protobuf | 3.19.4 |
PSUTIL | 5.8.0 | psycopg2 | 2.9.3 | ptyprocess | 0.7.0 |
pyarrow | 7.0.0 | pyasn1 | 0.4.8 | pyasn1-módulos | 0.2.8 |
Pybind11 | 2.9.2 | pycparser | 2,20 | Pidântico | 1.8.2 |
Pygments | 2.10.0 | PyGObject | 3.36.0 | PyJWT | 2.4.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.5.0 | Pyodbc | 4.0.31 |
pyparsing | 3.0.4 | pirsistent | 0.18.0 | Pystan | 2.19.1.1 |
python-apt | 2.0.0+ubuntu0.20.4.7 | python-dateutil | 2.8.2 | python-editor | 1.0.4 |
pytz | 2021.3 | PyWavelets | 1.1.1 | PyYAML | 6,0 |
Pyzmq | 22.2.1 | regex | 2021.8.3 | pedidos | 2.26.0 |
pedidos-oauthlib | 1.3.1 | pedidos-unixsocket | 0.2.0 | RSA | 4.8 |
s3transferir | 0.5.2 | scikit-learn | 0.24.2 | scipy | 1.7.1 |
seaborn | 0.11.2 | Enviar2Lixo | 1.8.0 | setuptools | 58.0.4 |
setuptools-git | 1.2 | PASP | 0.40.0 | simplejson | 3.17.6 |
seis | 1.16.0 | segmentação de dados | 0.0.7 | inteligente-aberto | 5.2.1 |
smmap | 5.0.0 | espaçado | 3.3.1 | Spacy-legado | 3.0.9 |
spacy-loggers | 1.0.2 | spark-tensorflow-distributor | 1.0.0 | SQLPARSE | 0.4.2 |
SRSLY | 2.4.3 | ssh-import-id | 5.10 | statsmodels | 0.12.2 |
tabular | 0.8.9 | emaranhado em unicode | 0.1.0 | tenacidade | 8.0.1 |
TensorBoard | 2.9.1 | Tensorboard-Data-Server | 0.6.1 | Tensorboard-plugin-profile | 2.8.0 |
Tensorboard-plugin-wit | 1.8.1 | TensorFlow | 2.9.1 | TensorFlow-Estimador | 2.9.0 |
TensorFlow-IO-GCS-FileSystem | 0.26.0 | Termcolor | 1.1.0 | terminado | 0.9.4 |
caminho de teste | 0.5.0 | fino | 8.0.17 | ThreadPoolCtl | 2.2.0 |
tokenizadores | 0.12.1 | tocha | 1.11.0+CU113 | Torchvision | 0.12.0+CU113 |
tornado | 6.1 | TQDM | 4.62.3 | traços | 5.1.0 |
transformadores | 4.20.0 | datilógrafo | 0.4.2 | extensões de digitação | 3.10.0.2 |
Ujson | 4.0.2 | Upgrades autônomos | 0.1 | urllib3 | 1.26.7 |
virtualenv | 20.8.0 | visões | 0.7.4 | Wasabi | 0.9.1 |
largura de wc | 0.2.5 | WebEncodings | 0.5.1 | Websocket-cliente | 1.3.1 |
Werkzeug | 2.0.2 | roda | 0.37.0 | widgetsnbextension | 3.6.0 |
embrulhado | 1.12.1 | xgboost | 1.5.2 | zipp | | 3.6.0 |
Pacotes Spark contendo módulos Python
Pacote Spark | Módulo Python | Versão |
---|---|---|
quadros gráficos | quadros gráficos | 0.8.2-DB1-Faísca3.2 |
Bibliotecas R
As bibliotecas R são idênticas às bibliotecas R no Databricks Runtime 11.1.
Bibliotecas Java e Scala (cluster Scala 2.12)
Além das bibliotecas Java e Scala no Databricks Runtime 11.1, o Databricks Runtime 11.1 ML contém os seguintes JARs:
Clusters de CPU
ID do Grupo | ID do Artefacto | Versão |
---|---|---|
com.typesafe.akka | AKKA-actor_2,12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.20.0-DB1 |
ml.dmlc | xgboost4j-spark_2,12 | 1.5.2 |
ml.dmlc | xgboost4j_2.12 | 1.5.2 |
org.graphframes | graphframes_2.12 | 0.8.2-DB1-Faísca3.2 |
org.mlflow | mlflow-cliente | 1.27.0 |
org.mlflow | MLFLOW-Faísca | 1.27.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Clusters GPU
ID do Grupo | ID do Artefacto | Versão |
---|---|---|
com.typesafe.akka | AKKA-actor_2,12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.20.0-DB1 |
ml.dmlc | xgboost4j-spark_2,12 | 1.5.2 |
ml.dmlc | xgboost4j_2.12 | 1.5.2 |
org.graphframes | graphframes_2.12 | 0.8.2-DB1-Faísca3.2 |
org.mlflow | mlflow-cliente | 1.27.0 |
org.mlflow | MLFLOW-Faísca | 1.27.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |