Condividi tramite


Databricks Runtime 10.2 per ML (Fine del Supporto)

Nota

Il supporto per questa versione di Databricks Runtime è terminato. Per la data di fine del supporto, vedere Cronologia di fine del supporto. Per tutte le versioni supportate di Databricks Runtime, consultare Note della versione e compatibilità di Databricks Runtime.

Databricks ha rilasciato questa versione nel dicembre 2021.

Databricks Runtime ML10.2 per ML è un ambiente immediatamente disponibile ottimizzato per l'esecuzione di processi di apprendimento automatico e data science basato su Databricks Runtime 10.2 (EoS) Databricks Runtime per Machine Learning contiene molte di queste librerie, tra cui TensorFlow, PyTorch, Keras e XGBoost. Databricks Runtime ML include AutoML, uno strumento per eseguire automaticamente il training delle pipeline di Machine Learning. Databricks Runtime ML supporta anche il training di deep learning distribuito utilizzando Horovod.

Per altre informazioni, incluse le istruzioni per la creazione di un cluster di Machine Learning di Databricks Runtime, vedere Intelligenza artificiale e Machine Learning in Databricks.

Miglioramenti e nuove funzionalità

Databricks Runtime 10.2 ML è basato su Databricks Runtime 10.2. Per informazioni sulle novità di Databricks Runtime 10.2, tra cui Apache Spark MLlib e SparkR, vedere le note sulla versione di Databricks Runtime 10.2 (EoS).

Registrazione automatica di Databricks (anteprima pubblica)

Databricks Autologging è ora disponibile in anteprima pubblica in tutte le aree. Databricks Autologging è una soluzione senza codice che fornisce il rilevamento automatico degli esperimenti per le sessioni di training di Machine Learning in Azure Databricks. Con Databricks Autologging, i parametri del modello, le metriche, i file e le informazioni di derivazione vengono acquisiti automaticamente quando si esegue il training dei modelli da una varietà di librerie di machine learning popolari. Le sessioni di allenamento vengono registrate come MLflow Tracking Runs. I file di modello vengono inoltre rilevati in modo da poterli registrare facilmente nel Registro modelli MLflow e implementarli per l'assegnazione dei punteggi in tempo reale con MLflow Model Serving.

Per ulteriori informazioni su Databricks Autologging, vedere Databricks Autologging.

Miglioramenti a AutoML

Sono stati apportati i miglioramenti seguenti a AutoML.

  • AutoML ignora le colonne con un solo valore.
  • Per i problemi di classificazione e regressione, la colonna temporale usata per suddividere il set di dati in set di training, convalida e test in ordine cronologico può ora essere di tipo stringa. In precedenza erano supportati solo timestamp e integer. Per maggiori dettagli, vedere Dividere i dati in training, convalida e set di test

Miglioramenti al Feature Store di Databricks

Sono stati apportati i miglioramenti seguenti al Feature Store di Databricks.

Interfaccia utente semplificata FeatureStoreClient

L'interfaccia FeatureStoreClient è stata semplificata.

  • FeatureStoreClient.create_feature_table() è stato reso obsoleto. Usare invece FeatureStoreClient.create_table().
  • FeatureStoreClient.get_feature_table() è stato reso obsoleto. Usare invece FeatureStoreClient.get_table().
  • Tutti gli argomenti a FeatureStoreClient.publish_table(), ad eccezione di name e online_store, devono essere passati come argomenti per parola chiave.

Pubblicare solo le colonne selezionate nei negozi online

Databricks Feature Store supporta ora la pubblicazione solo di colonne selezionate in un archivio online. Per altre informazioni, vedere Pubblicare le funzionalità selezionate in uno store online.

Modifiche principali all'ambiente ML Python di Databricks Runtime

L'integrazione automatizzata di MLflow Tracking per Apache Spark MLlib, deprecata in Databricks Runtime 10.1 ML, è ora disabilitata per impostazione predefinita in Databricks Runtime 10.2 ML. È stata sostituita dall'integrazione di PySpark ML Autologging di MLflow, che è abilitata per impostazione predefinita con Databricks Autologging. La registrazione automatica acquisisce informazioni aggiuntive oltre a quelle rilevate automaticamente da MLflow per MLlib, inclusi i parametri, le metriche e gli artefatti associati al modello migliore.

Pacchetti Python aggiornati

  • CLI di Databricks 0.14.3 => 0.16.2
  • keras 2.6.0 => 2.7.0
  • lightgbm 3.3.0 => 3.3.1
  • mlflow 1.21.0 => 1.22.0
  • plotly 5.3.0 => 5.3.1
  • shap 0.39.0 => 0.40.0
  • spacy 3.1.3 => 3.2.0
  • tensorboard 2.6.0 => 2.7.0
  • tensorflow 2.6.0 => 2.7.0
  • torch 1.9.1 => 1.10.0
  • torchvision 0.10.1 => 0.11.1
  • trasformatori 4.11.3 => 4.12.3
  • xgboost 1.4.2 => 1.5.0

Ambiente di sistema

L'ambiente di sistema in Databricks Runtime 10.2 ML differisce da Databricks Runtime 10.2 come indicato di seguito:

  • DBUtils: Databricks Runtime ML non include l'utilità della libreria (dbutils.library) (legacy). Utilizzare invece i comandi %pip. Vedere Librerie Python con ambito notebook.
  • Per i cluster GPU, Databricks Runtime ML include le librerie GPU NVIDIA seguenti:
    • CUDA 11.0
    • cuDNN 8.0.5.39
    • NCCL 2.10.3
    • TensorRT 7.2.2

Librerie

Le sezioni seguenti elencano le librerie incluse in Databricks Runtime 10.2 ML che differiscono da quelle incluse in Databricks Runtime 10.2.

Contenuto della sezione:

Librerie di livello superiore

Databricks Runtime 10.2 ML include le librerie di livello superiore seguenti:

Librerie Python

Databricks Runtime 10.2 ML usa Virtualenv per la gestione dei pacchetti Python e include molti pacchetti di Machine Learning più diffusi.

Oltre ai pacchetti specificati nelle sezioni seguenti, Databricks Runtime 10.2 ML include anche i pacchetti seguenti:

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0-db5
  • feature_store 0.3.6
  • automl 1.5.0

Librerie Python nei cluster CPU

Biblioteca Versione Biblioteca Versione Biblioteca Versione
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
generatore asincrono 1.10 att. 20.3.0 richiamata 0.2.0
bcrypt 3.2.0 bidict 0.21.4 bleach 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 catalogo 2.0.6 certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 clic 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 cryptography 3.4.7 ciclatore 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.4
databricks-cli 0.16.2 dbus-python 1.2.16 decoratore 5.0.6
defusedxml 0.7.1 aneto 0.3.2 cache del disco 5.2.1
distlib 0.3.3 informazioni sulla distribuzione 0.23ubuntu1 punti di ingresso 0.3
ephem 4.1.1 panoramica-delle-facce 1.0.0 fasttext 0.9.2
filelock 3.0.12 Flask 1.1.2 flatbuffers 2.0
fsspec 0.9.0 futuro 0.18.2 gast 0.4.0
gitdb 4.0.7 gitpython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-converter 2.2.2 vacanze 0.11.3.1 Horovod 0.23.0
htmlmin 0.1.12 huggingface-hub 0.1.2 idna 2.10
ImageHash 4.2.1 imbalanced-learn 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.7.0 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 koalas 1.8.2 calendario lunare coreano 0.2.1
codici linguistici 3.3.0 libclang 12.0.0 lightgbm 3.3.1
llvmlite 0.37.0 Calendario Lunare 0.0.9 Mako 1.1.3
Markdown 3.3.3 MarkupSafe 2.0.1 matplotlib 3.4.2
missingno 0.5.0 mistune 0.8.4 mleap 0.18.1
mlflow-skinny 1.22.0 multimethod 1.6 mormurhash 1.0.5
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
taccuino 6.3.0 numba 0.54.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 imballaggio 21.3
pandas 1.2.4 pandas-profiling 3.1.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 patia 0.6.0
capro espiatorio 0.5.1 Petastorm 0.11.3 pexpect 4.8.0
phik 0.12.0 pickleshare 0.7.5 cuscino 8.2.0
pip 21.0.1 plotly 5.3.1 Since there's no specific improvement possible due to lack of context, no amended translation is provided. 3.0.5
prometheus-client 0.10.1 prompt-toolkit 3.0.17 profeta 1.0.1
protobuf 3.17.2 psutil 5.8.0 Psycopg2 2.8.5
ptyprocess 0.7.0 pyarrow 4.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.8.1 pycparser 2.20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.4.0 pyodbc 4.0.30
pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
python-engineio 4.3.0 python-socketio 5.4.1 pytz 2020.5
PyWavelets 1.1.1 PyYAML 5.4.1 pyzmq 20.0.0
regex 2021.4.4 richieste 2.25.1 requests-oauthlib 1.3.0
requests-unixsocket 0.2.0 rsa 4.7.2 s3transfer 0.3.7
sacrimoses 0.0.46 scikit-learn 0.24.1 scipy 1.6.2
seaborn 0.11.1 Send2Trash 1.5.0 setuptools 52.0.0
setuptools-git 1.2 shap 0.40.0 simplejson 3.17.2
sei 1.15.0 slicer 0.0.7 Apertura intelligente 5.2.0
smmap 3.0.5 spaCy 3.2.0 spacy-legacy 3.0.8
spacy-loggers 1.0.1 spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1
srsly 2.4.1 ssh-import-id (comando per l'importazione di chiavi SSH) 5.10 statsmodels 0.12.2
tabulare 0.8.7 intrecciato-nel-unicode 0.1.0 tenacia 6.2.0
tensorboard 2.7.0 tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.7.0 tensorflow-estimator 2.7.0
tensorflow-io-gcs-filesystem 0.22.0 termcolor 1.1.0 terminato 0.9.4
percorso di test 0.4.4 thinc 8.0.12 threadpoolctl 2.1.0
tokenizzatori 0.10.3 Torch 1.10.0+CPU torchvision 0.11.1+CPU
tornado 6.1 tqdm 4.59.0 traitlets (una libreria per la configurazione dei parametri nei programmi Python) 5.0.5
Convertitori 4.12.3 Typer 0.3.2 typing-extensions 3.7.4.3
ujson 4.0.2 aggiornamenti automatici non presidiati 0.1 urllib3 1.25.11
virtualenv 20.4.1 Visione 0.7.4 wasabi 0.8.2
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
attrezzo 1.0.1 ruota 0.36.2 widgetsnbextension 3.5.1
avvolto 1.12.1 xgboost 1.5.0 zipp 3.4.1

Librerie Python nei cluster GPU

Biblioteca Versione Biblioteca Versione Biblioteca Versione
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
generatore asincrono 1.10 attrs 20.3.0 richiamata 0.2.0
bcrypt 3.2.0 bidict 0.21.4 bleach 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 catalogo 2.0.6 certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 clic 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 cryptography 3.4.7 ciclatore 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.4
databricks-cli 0.16.2 dbus-python 1.2.16 decoratore 5.0.6
defusedxml 0.7.1 aneto 0.3.2 cache del disco 5.2.1
distlib 0.3.3 distro-info 0.23ubuntu1 punti di ingresso 0.3
ephem 4.1.1 panoramica-sulle-faccette 1.0.0 fasttext 0.9.2
filelock 3.0.12 Flask 1.1.2 flatbuffers 2.0
fsspec 0.9.0 futuro 0.18.2 gast 0.4.0
gitdb 4.0.7 gitpython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-converter 2.2.2 vacanze 0.11.3.1 Horovod 0.23.0
htmlmin 0.1.12 huggingface-hub 0.1.2 idna 2.10
ImageHash 4.2.1 imbalanced-learn 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.7.0 keras-preprocessing 1.1.2
kiwisolver 1.3.1 koalas 1.8.2 calendario lunare coreano 0.2.1
langcodes 3.3.0 libclang 12.0.0 lightgbm 3.3.1
llvmlite 0.37.0 Calendario Lunare 0.0.9 Mako 1.1.3
Markdown 3.3.3 MarkupSafe 2.0.1 matplotlib 3.4.2
missingno 0.5.0 mistune 0.8.4 mleap 0.18.1
mlflow-skinny 1.22.0 multimetodo 1.6 mormurhash 1.0.5
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
notebook 6.3.0 numba 0.54.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 imballaggio 21.3
pandas 1.2.4 pandas-profiling 3.1.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 patia 0.6.0
patsy 0.5.1 Petastorm 0.11.3 pexpect 4.8.0
phik 0.12.0 pickleshare 0.7.5 Cuscino 8.2.0
pip 21.0.1 plotly 5.3.1 preshed 3.0.5
prompt-toolkit 3.0.17 profeta 1.0.1 protobuf 3.17.2
psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
pyarrow 4.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.8.1 pycparser 2.20 pydantic 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.4.0 pyodbc 4.0.30 pyparsing 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6
python-dateutil 2.8.1 python-editor 1.0.4 python-engineio 4.3.0
python-socketio 5.4.1 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 regex 2021.4.4
richieste 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
rsa 4.7.2 s3transfer 0.3.7 sacrimoses 0.0.46
scikit-learn 0.24.1 scipy 1.6.2 nato nel mare 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1.2
shap 0.40.0 simplejson 3.17.2 sei 1.15.0
slicer 0.0.7 Apertura intelligente 5.2.0 smmap 3.0.5
spaCy 3.2.0 spacy-legacy 3.0.8 spacy-loggers 1.0.1
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 srsly 2.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabulare 0.8.7
ingarbugliato-in-unicode 0.1.0 tenacia 6.2.0 tensorboard 2.7.0
tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.0
tensorflow 2.7.0 tensorflow-estimator 2.7.0 tensorflow-io-gcs-filesystem 0.22.0
termcolor 1.1.0 terminato 0.9.4 percorso di test 0.4.4
thinc 8.0.12 threadpoolctl 2.1.0 tokenizzatori 0.10.3
Torch 1.10.0+cu111 torchvision 0.11.1+cu111 tornado 6.1
tqdm 4.59.0 traitlets 5.0.5 Convertitori 4.12.3
Typer 0.3.2 typing-extensions 3.7.4.3 ujson 4.0.2
aggiornamenti non supervisionati 0.1 urllib3 1.25.11 virtualenv 20.4.1
Visione 0.7.4 wasabi 0.8.2 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
ruota 0.36.2 widgetsnbextension 3.5.1 avvolto 1.12.1
xgboost 1.5.0 zipp 3.4.1

Pacchetti Spark contenenti moduli Python

Pacchetto Spark Modulo Python Versione
GraphFrames GraphFrames 0.8.2-db1-spark3.2

Librerie R

Le librerie R sono identiche alle librerie R nel Databricks Runtime 10.2.

Librerie Java e Scala (cluster Scala 2.12)

Oltre alle librerie Java e Scala in Databricks Runtime 10.2, Databricks Runtime 10.2 ML contiene i file JAR seguenti:

Cluster CPU

ID del gruppo ID artefatto Versione
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.1
ml.dmlc xgboost4j_2.12 1.5.1
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.22.0
org.mlflow mlflow-spark 1.22.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Cluster di GPU

ID gruppo ID dell'artefatto Versione
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.1
ml.dmlc xgboost4j_2.12 1.5.1
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.22.0
org.mlflow mlflow-spark 1.22.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0