Databricks Runtime 10.2 per ML (Fine del Supporto)
Nota
Il supporto per questa versione di Databricks Runtime è terminato. Per la data di fine del supporto, vedere Cronologia di fine del supporto. Per tutte le versioni supportate di Databricks Runtime, consultare Note della versione e compatibilità di Databricks Runtime.
Databricks ha rilasciato questa versione nel dicembre 2021.
Databricks Runtime ML10.2 per ML è un ambiente immediatamente disponibile ottimizzato per l'esecuzione di processi di apprendimento automatico e data science basato su Databricks Runtime 10.2 (EoS) Databricks Runtime per Machine Learning contiene molte di queste librerie, tra cui TensorFlow, PyTorch, Keras e XGBoost. Databricks Runtime ML include AutoML, uno strumento per eseguire automaticamente il training delle pipeline di Machine Learning. Databricks Runtime ML supporta anche il training di deep learning distribuito utilizzando Horovod.
Per altre informazioni, incluse le istruzioni per la creazione di un cluster di Machine Learning di Databricks Runtime, vedere Intelligenza artificiale e Machine Learning in Databricks.
Miglioramenti e nuove funzionalità
Databricks Runtime 10.2 ML è basato su Databricks Runtime 10.2. Per informazioni sulle novità di Databricks Runtime 10.2, tra cui Apache Spark MLlib e SparkR, vedere le note sulla versione di Databricks Runtime 10.2 (EoS).
Registrazione automatica di Databricks (anteprima pubblica)
Databricks Autologging è ora disponibile in anteprima pubblica in tutte le aree. Databricks Autologging è una soluzione senza codice che fornisce il rilevamento automatico degli esperimenti per le sessioni di training di Machine Learning in Azure Databricks. Con Databricks Autologging, i parametri del modello, le metriche, i file e le informazioni di derivazione vengono acquisiti automaticamente quando si esegue il training dei modelli da una varietà di librerie di machine learning popolari. Le sessioni di allenamento vengono registrate come MLflow Tracking Runs. I file di modello vengono inoltre rilevati in modo da poterli registrare facilmente nel Registro modelli MLflow e implementarli per l'assegnazione dei punteggi in tempo reale con MLflow Model Serving.
Per ulteriori informazioni su Databricks Autologging, vedere Databricks Autologging.
Miglioramenti a AutoML
Sono stati apportati i miglioramenti seguenti a AutoML.
- AutoML ignora le colonne con un solo valore.
- Per i problemi di classificazione e regressione, la colonna temporale usata per suddividere il set di dati in set di training, convalida e test in ordine cronologico può ora essere di tipo stringa. In precedenza erano supportati solo timestamp e integer. Per maggiori dettagli, vedere Dividere i dati in training, convalida e set di test
Miglioramenti al Feature Store di Databricks
Sono stati apportati i miglioramenti seguenti al Feature Store di Databricks.
Interfaccia utente semplificata FeatureStoreClient
L'interfaccia FeatureStoreClient è stata semplificata.
-
FeatureStoreClient.create_feature_table()
è stato reso obsoleto. Usare inveceFeatureStoreClient.create_table()
. -
FeatureStoreClient.get_feature_table()
è stato reso obsoleto. Usare inveceFeatureStoreClient.get_table()
. - Tutti gli argomenti a
FeatureStoreClient.publish_table()
, ad eccezione diname
eonline_store
, devono essere passati come argomenti per parola chiave.
Pubblicare solo le colonne selezionate nei negozi online
Databricks Feature Store supporta ora la pubblicazione solo di colonne selezionate in un archivio online. Per altre informazioni, vedere Pubblicare le funzionalità selezionate in uno store online.
Modifiche principali all'ambiente ML Python di Databricks Runtime
L'integrazione automatizzata di MLflow Tracking per Apache Spark MLlib, deprecata in Databricks Runtime 10.1 ML, è ora disabilitata per impostazione predefinita in Databricks Runtime 10.2 ML. È stata sostituita dall'integrazione di PySpark ML Autologging di MLflow, che è abilitata per impostazione predefinita con Databricks Autologging. La registrazione automatica acquisisce informazioni aggiuntive oltre a quelle rilevate automaticamente da MLflow per MLlib, inclusi i parametri, le metriche e gli artefatti associati al modello migliore.
Pacchetti Python aggiornati
- CLI di Databricks 0.14.3 => 0.16.2
- keras 2.6.0 => 2.7.0
- lightgbm 3.3.0 => 3.3.1
- mlflow 1.21.0 => 1.22.0
- plotly 5.3.0 => 5.3.1
- shap 0.39.0 => 0.40.0
- spacy 3.1.3 => 3.2.0
- tensorboard 2.6.0 => 2.7.0
- tensorflow 2.6.0 => 2.7.0
- torch 1.9.1 => 1.10.0
- torchvision 0.10.1 => 0.11.1
- trasformatori 4.11.3 => 4.12.3
- xgboost 1.4.2 => 1.5.0
Ambiente di sistema
L'ambiente di sistema in Databricks Runtime 10.2 ML differisce da Databricks Runtime 10.2 come indicato di seguito:
-
DBUtils: Databricks Runtime ML non include l'utilità della libreria (dbutils.library) (legacy).
Utilizzare invece i comandi
%pip
. Vedere Librerie Python con ambito notebook. - Per i cluster GPU, Databricks Runtime ML include le librerie GPU NVIDIA seguenti:
- CUDA 11.0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
Librerie
Le sezioni seguenti elencano le librerie incluse in Databricks Runtime 10.2 ML che differiscono da quelle incluse in Databricks Runtime 10.2.
Contenuto della sezione:
Librerie di livello superiore
Databricks Runtime 10.2 ML include le librerie di livello superiore seguenti:
- GraphFrames
- Horovod e HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Librerie Python
Databricks Runtime 10.2 ML usa Virtualenv per la gestione dei pacchetti Python e include molti pacchetti di Machine Learning più diffusi.
Oltre ai pacchetti specificati nelle sezioni seguenti, Databricks Runtime 10.2 ML include anche i pacchetti seguenti:
- hyperopt 0.2.7.db1
- sparkdl 2.2.0-db5
- feature_store 0.3.6
- automl 1.5.0
Librerie Python nei cluster CPU
Biblioteca | Versione | Biblioteca | Versione | Biblioteca | Versione |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
generatore asincrono | 1.10 | att. | 20.3.0 | richiamata | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | bleach | 3.3.0 |
blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | catalogo | 2.0.6 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | clic | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | cryptography | 3.4.7 | ciclatore | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.4 |
databricks-cli | 0.16.2 | dbus-python | 1.2.16 | decoratore | 5.0.6 |
defusedxml | 0.7.1 | aneto | 0.3.2 | cache del disco | 5.2.1 |
distlib | 0.3.3 | informazioni sulla distribuzione | 0.23ubuntu1 | punti di ingresso | 0.3 |
ephem | 4.1.1 | panoramica-delle-facce | 1.0.0 | fasttext | 0.9.2 |
filelock | 3.0.12 | Flask | 1.1.2 | flatbuffers | 2.0 |
fsspec | 0.9.0 | futuro | 0.18.2 | gast | 0.4.0 |
gitdb | 4.0.7 | gitpython | 3.1.12 | google-auth | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grpcio | 1.39.0 |
gunicorn | 20.0.4 | gviz-api | 1.10.0 | h5py | 3.1.0 |
hijri-converter | 2.2.2 | vacanze | 0.11.3.1 | Horovod | 0.23.0 |
htmlmin | 0.1.12 | huggingface-hub | 0.1.2 | idna | 2.10 |
ImageHash | 4.2.1 | imbalanced-learn | 0.8.1 | importlib-metadata | 3.10.0 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodate | 0.6.0 | itsdangerous | 1.1.0 |
jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.7.0 | Keras-Preprocessing | 1.1.2 |
kiwisolver | 1.3.1 | koalas | 1.8.2 | calendario lunare coreano | 0.2.1 |
codici linguistici | 3.3.0 | libclang | 12.0.0 | lightgbm | 3.3.1 |
llvmlite | 0.37.0 | Calendario Lunare | 0.0.9 | Mako | 1.1.3 |
Markdown | 3.3.3 | MarkupSafe | 2.0.1 | matplotlib | 3.4.2 |
missingno | 0.5.0 | mistune | 0.8.4 | mleap | 0.18.1 |
mlflow-skinny | 1.22.0 | multimethod | 1.6 | mormurhash | 1.0.5 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2.5 | nltk | 3.6.1 |
taccuino | 6.3.0 | numba | 0.54.1 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | imballaggio | 21.3 |
pandas | 1.2.4 | pandas-profiling | 3.1.0 | pandocfilters | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | patia | 0.6.0 |
capro espiatorio | 0.5.1 | Petastorm | 0.11.3 | pexpect | 4.8.0 |
phik | 0.12.0 | pickleshare | 0.7.5 | cuscino | 8.2.0 |
pip | 21.0.1 | plotly | 5.3.1 | Since there's no specific improvement possible due to lack of context, no amended translation is provided. | 3.0.5 |
prometheus-client | 0.10.1 | prompt-toolkit | 3.0.17 | profeta | 1.0.1 |
protobuf | 3.17.2 | psutil | 5.8.0 | Psycopg2 | 2.8.5 |
ptyprocess | 0.7.0 | pyarrow | 4.0.0 | pyasn1 | 0.4.8 |
pyasn1-modules | 0.2.8 | pybind11 | 2.8.1 | pycparser | 2.20 |
pydantic | 1.8.2 | Pygments | 2.8.1 | PyGObject | 3.36.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.4.0 | pyodbc | 4.0.30 |
pyparsing | 2.4.7 | pyrsistent | 0.17.3 | pystan | 2.19.1.1 |
python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 | python-editor | 1.0.4 |
python-engineio | 4.3.0 | python-socketio | 5.4.1 | pytz | 2020.5 |
PyWavelets | 1.1.1 | PyYAML | 5.4.1 | pyzmq | 20.0.0 |
regex | 2021.4.4 | richieste | 2.25.1 | requests-oauthlib | 1.3.0 |
requests-unixsocket | 0.2.0 | rsa | 4.7.2 | s3transfer | 0.3.7 |
sacrimoses | 0.0.46 | scikit-learn | 0.24.1 | scipy | 1.6.2 |
seaborn | 0.11.1 | Send2Trash | 1.5.0 | setuptools | 52.0.0 |
setuptools-git | 1.2 | shap | 0.40.0 | simplejson | 3.17.2 |
sei | 1.15.0 | slicer | 0.0.7 | Apertura intelligente | 5.2.0 |
smmap | 3.0.5 | spaCy | 3.2.0 | spacy-legacy | 3.0.8 |
spacy-loggers | 1.0.1 | spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 |
srsly | 2.4.1 | ssh-import-id (comando per l'importazione di chiavi SSH) | 5.10 | statsmodels | 0.12.2 |
tabulare | 0.8.7 | intrecciato-nel-unicode | 0.1.0 | tenacia | 6.2.0 |
tensorboard | 2.7.0 | tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.5.0 |
tensorboard-plugin-wit | 1.8.0 | tensorflow-cpu | 2.7.0 | tensorflow-estimator | 2.7.0 |
tensorflow-io-gcs-filesystem | 0.22.0 | termcolor | 1.1.0 | terminato | 0.9.4 |
percorso di test | 0.4.4 | thinc | 8.0.12 | threadpoolctl | 2.1.0 |
tokenizzatori | 0.10.3 | Torch | 1.10.0+CPU | torchvision | 0.11.1+CPU |
tornado | 6.1 | tqdm | 4.59.0 | traitlets (una libreria per la configurazione dei parametri nei programmi Python) | 5.0.5 |
Convertitori | 4.12.3 | Typer | 0.3.2 | typing-extensions | 3.7.4.3 |
ujson | 4.0.2 | aggiornamenti automatici non presidiati | 0.1 | urllib3 | 1.25.11 |
virtualenv | 20.4.1 | Visione | 0.7.4 | wasabi | 0.8.2 |
wcwidth | 0.2.5 | webencodings | 0.5.1 | websocket-client | 0.57.0 |
attrezzo | 1.0.1 | ruota | 0.36.2 | widgetsnbextension | 3.5.1 |
avvolto | 1.12.1 | xgboost | 1.5.0 | zipp | 3.4.1 |
Librerie Python nei cluster GPU
Biblioteca | Versione | Biblioteca | Versione | Biblioteca | Versione |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
generatore asincrono | 1.10 | attrs | 20.3.0 | richiamata | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | bleach | 3.3.0 |
blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | catalogo | 2.0.6 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | clic | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | cryptography | 3.4.7 | ciclatore | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.4 |
databricks-cli | 0.16.2 | dbus-python | 1.2.16 | decoratore | 5.0.6 |
defusedxml | 0.7.1 | aneto | 0.3.2 | cache del disco | 5.2.1 |
distlib | 0.3.3 | distro-info | 0.23ubuntu1 | punti di ingresso | 0.3 |
ephem | 4.1.1 | panoramica-sulle-faccette | 1.0.0 | fasttext | 0.9.2 |
filelock | 3.0.12 | Flask | 1.1.2 | flatbuffers | 2.0 |
fsspec | 0.9.0 | futuro | 0.18.2 | gast | 0.4.0 |
gitdb | 4.0.7 | gitpython | 3.1.12 | google-auth | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grpcio | 1.39.0 |
gunicorn | 20.0.4 | gviz-api | 1.10.0 | h5py | 3.1.0 |
hijri-converter | 2.2.2 | vacanze | 0.11.3.1 | Horovod | 0.23.0 |
htmlmin | 0.1.12 | huggingface-hub | 0.1.2 | idna | 2.10 |
ImageHash | 4.2.1 | imbalanced-learn | 0.8.1 | importlib-metadata | 3.10.0 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodate | 0.6.0 | itsdangerous | 1.1.0 |
jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.7.0 | keras-preprocessing | 1.1.2 |
kiwisolver | 1.3.1 | koalas | 1.8.2 | calendario lunare coreano | 0.2.1 |
langcodes | 3.3.0 | libclang | 12.0.0 | lightgbm | 3.3.1 |
llvmlite | 0.37.0 | Calendario Lunare | 0.0.9 | Mako | 1.1.3 |
Markdown | 3.3.3 | MarkupSafe | 2.0.1 | matplotlib | 3.4.2 |
missingno | 0.5.0 | mistune | 0.8.4 | mleap | 0.18.1 |
mlflow-skinny | 1.22.0 | multimetodo | 1.6 | mormurhash | 1.0.5 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2.5 | nltk | 3.6.1 |
notebook | 6.3.0 | numba | 0.54.1 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | imballaggio | 21.3 |
pandas | 1.2.4 | pandas-profiling | 3.1.0 | pandocfilters | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | patia | 0.6.0 |
patsy | 0.5.1 | Petastorm | 0.11.3 | pexpect | 4.8.0 |
phik | 0.12.0 | pickleshare | 0.7.5 | Cuscino | 8.2.0 |
pip | 21.0.1 | plotly | 5.3.1 | preshed | 3.0.5 |
prompt-toolkit | 3.0.17 | profeta | 1.0.1 | protobuf | 3.17.2 |
psutil | 5.8.0 | psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
pybind11 | 2.8.1 | pycparser | 2.20 | pydantic | 1.8.2 |
Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.4.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
pyrsistent | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.6 |
python-dateutil | 2.8.1 | python-editor | 1.0.4 | python-engineio | 4.3.0 |
python-socketio | 5.4.1 | pytz | 2020.5 | PyWavelets | 1.1.1 |
PyYAML | 5.4.1 | pyzmq | 20.0.0 | regex | 2021.4.4 |
richieste | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
rsa | 4.7.2 | s3transfer | 0.3.7 | sacrimoses | 0.0.46 |
scikit-learn | 0.24.1 | scipy | 1.6.2 | nato nel mare | 0.11.1 |
Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
shap | 0.40.0 | simplejson | 3.17.2 | sei | 1.15.0 |
slicer | 0.0.7 | Apertura intelligente | 5.2.0 | smmap | 3.0.5 |
spaCy | 3.2.0 | spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | srsly | 2.4.1 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | tabulare | 0.8.7 |
ingarbugliato-in-unicode | 0.1.0 | tenacia | 6.2.0 | tensorboard | 2.7.0 |
tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.0 |
tensorflow | 2.7.0 | tensorflow-estimator | 2.7.0 | tensorflow-io-gcs-filesystem | 0.22.0 |
termcolor | 1.1.0 | terminato | 0.9.4 | percorso di test | 0.4.4 |
thinc | 8.0.12 | threadpoolctl | 2.1.0 | tokenizzatori | 0.10.3 |
Torch | 1.10.0+cu111 | torchvision | 0.11.1+cu111 | tornado | 6.1 |
tqdm | 4.59.0 | traitlets | 5.0.5 | Convertitori | 4.12.3 |
Typer | 0.3.2 | typing-extensions | 3.7.4.3 | ujson | 4.0.2 |
aggiornamenti non supervisionati | 0.1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
Visione | 0.7.4 | wasabi | 0.8.2 | wcwidth | 0.2.5 |
webencodings | 0.5.1 | websocket-client | 0.57.0 | Werkzeug | 1.0.1 |
ruota | 0.36.2 | widgetsnbextension | 3.5.1 | avvolto | 1.12.1 |
xgboost | 1.5.0 | zipp | 3.4.1 |
Pacchetti Spark contenenti moduli Python
Pacchetto Spark | Modulo Python | Versione |
---|---|---|
GraphFrames | GraphFrames | 0.8.2-db1-spark3.2 |
Librerie R
Le librerie R sono identiche alle librerie R nel Databricks Runtime 10.2.
Librerie Java e Scala (cluster Scala 2.12)
Oltre alle librerie Java e Scala in Databricks Runtime 10.2, Databricks Runtime 10.2 ML contiene i file JAR seguenti:
Cluster CPU
ID del gruppo | ID artefatto | Versione |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.1 |
ml.dmlc | xgboost4j_2.12 | 1.5.1 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.22.0 |
org.mlflow | mlflow-spark | 1.22.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Cluster di GPU
ID gruppo | ID dell'artefatto | Versione |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.1 |
ml.dmlc | xgboost4j_2.12 | 1.5.1 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.22.0 |
org.mlflow | mlflow-spark | 1.22.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |