Databricks Runtime 10.3 per ML (EoS)
Nota
Il supporto per questa versione di Databricks Runtime è terminato. Per la data di fine del supporto, vedere Cronologia di fine del supporto. Per tutte le versioni supportate di Databricks Runtime, vedere Versioni e compatibilità delle note di rilascio di Databricks Runtime.
Databricks Runtime 10.3 per Machine Learning è un ambiente pronto all’uso ottimizzato per l'esecuzione di processi di apprendimento automatico e data science basato su Databricks Runtime 10.3 (EoS). Databricks Runtime ML contiene molte di queste popolari librerie per l’apprendimento automatico, tra cui TensorFlow, PyTorch e XGBoost. Databricks Runtime ML include AutoML, uno strumento per eseguire automaticamente il training delle pipeline di Machine Learning. Databricks Runtime ML supporta anche l'addestramento distribuito di deep learning utilizzando Horovod.
Per altre informazioni, incluse le istruzioni per la creazione di un cluster di Machine Learning di Databricks Runtime, vedere Intelligenza artificiale e Machine Learning in Databricks.
Miglioramenti e nuove funzionalità
Databricks Runtime 10.3 ML è basato su Databricks Runtime 10.3. Per informazioni sulle novità di Databricks Runtime 10.3, tra cui Apache Spark MLlib e SparkR, vedere le note sulla versione di Databricks Runtime 10.3 (EoS).
Miglioramenti a AutoML
Sono stati apportati i miglioramenti seguenti a AutoML.
AutoML supporta ora il modello ARIMA per la previsione
Oltre a Prophet, AutoML ora crea e valuta i modelli ARIMA per la previsione dei problemi.
Escludere colonne dal set di dati
Quando si usa l'API AutoML, è possibile specificare colonne che AutoML deve ignorare durante i calcoli. Questo è disponibile solo per problemi di classificazione e regressione. Per informazioni dettagliate, vedere Informazioni di riferimento sull'API Python di AutoML.
Escludere framework di algoritmi da un'esecuzione AutoML
È possibile specificare framework di algoritmi, ad esempio scikit-learn, che AutoML non deve considerare durante lo sviluppo di modelli. Per informazioni dettagliate, vedere Configurazioni avanzate e Informazioni di riferimento sull'API Python di AutoML.
max_trials
deprecato (sconsigliato)
Il parametro max_trials
è deprecato e verrà rimosso nella prossima versione principale di Databricks Runtime ML. Usare timeout_minutes
per controllare la durata di un'esecuzione autoML. Inoltre, in Databricks Runtime 10.1 ML e versioni successive, AutoML incorpora l'arresto anticipato; interromperà il training e l'ottimizzazione dei modelli se la metrica di convalida non è più migliorata.
Miglioramenti a Databricks Feature Store
È ora possibile applicare ricerche temporizzate alle tabelle delle caratteristiche delle serie temporali. Per informazioni dettagliate, vedere Supporto temporizzato utilizzando le tabelle delle caratteristiche delle serie temporali.
Autologging automatico di Databricks (disponibilità generale)
Databricks Autologging è ora generalmente disponibile nel Databricks Runtime 10.3 ML. Databricks Autologging è una soluzione senza codice che fornisce il rilevamento automatico degli esperimenti per le sessioni di training di Machine Learning in Azure Databricks. Con Databricks Autologging, i parametri del modello, le metriche, i file e le informazioni di derivazione vengono acquisiti automaticamente quando si esegue il training dei modelli da una varietà di librerie di machine learning popolari. Le sessioni di training vengono registrate come esecuzioni di rilevamento MLflow. I file di modello vengono inoltre rilevati in modo da poterli registrare facilmente nel Registro modelli MLflow e distribuirli per l'assegnazione dei punteggi in tempo reale con MLflow Model Serving.
Per altre informazioni, vedere Databricks Autologging.
Ambiente di sistema
L'ambiente di sistema in Databricks Runtime 10.3 ML differisce da Databricks Runtime 10.3 come indicato di seguito:
-
DBUtils: Databricks Runtime ML non comprende l'utilità delle librerie (dbutils.library) (legacy).
Usare invece i comandi
%pip
. Consultare Librerie Python con ambito nel notebook. - Per i cluster GPU, Databricks Runtime ML include le librerie GPU NVIDIA seguenti:
- CUDA 11.0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
Librerie
Le sezioni seguenti elencano le librerie incluse in Databricks Runtime 10.3 ML che differiscono da quelle incluse in Databricks Runtime 10.3.
Contenuto della sezione:
Librerie di livello superiore
Databricks Runtime 10.3 ML include le librerie di livello superiore seguenti:
- GraphFrames
- Horovod e HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Librerie Python
Databricks Runtime 10.3 ML usa Virtualenv per la gestione dei pacchetti Python e include molti dei pacchetti ML più diffusi.
Oltre ai pacchetti specificati nelle sezioni seguenti, Databricks Runtime 10.3 ML include anche i pacchetti seguenti:
- hyperopt 0.2.7.db1
- sparkdl 2.2.0-db5
- feature_store 0.3.7
- automl 1.6.0
Librerie Python nei cluster CPU
Biblioteca | Versione | Biblioteca | Versione | Biblioteca | Versione |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
generatore asincrono | 1.10 | attrs | 20.3.0 | richiamata | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | bleach | 3.3.0 |
blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | catalogo | 2.0.6 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | clic | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | cryptography | 3.4.7 | cycler | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.5 |
databricks-cli | 0.16.2 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
decoratore | 5.0.6 | defusedxml | 0.7.1 | aneto | 0.3.2 |
cache del disco | 5.2.1 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
punti di accesso | 0.3 | ephem | 4.1.3 | panoramica-sulle-facce | 1.0.0 |
fasttext | 0.9.2 | blocco di file | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 2.0 | fsspec | 0.9.0 | futuro | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.7 | gitpython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | hijri-converter | 2.2.2 | vacanze | 0.12 |
horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
idna | 2.10 | ImageHash | 4.2.1 | sbilanciato-apprendimento | 0.8.1 |
importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
itsdangerous | 1.1.0 | jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.7.0 |
keras-preprocessing | 1.1.2 | kiwisolver | 1.3.1 | koalas | 1.8.2 |
calendario lunare coreano | 0.2.1 | langcodes | 3.3.0 | libclang | 12.0.0 |
lightgbm | 3.3.1 | llvmlite | 0.38.0 | Calendario Lunare | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | mistune | 0.8.4 |
mleap | 0.18.1 | mlflow-skinny | 1.23.0 | multimetodo | 1.6 |
mormurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2.5 |
nltk | 3.6.1 | notebook | 6.3.0 | numba | 0.55.0 |
numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
imballaggio | 21.3 | pandas | 1.2.4 | pandas-profiling | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
patia | 0.6.0 | capro espiatorio | 0.5.1 | Petastorm | 0.11.3 |
pexpect | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
Cuscino | 8.2.0 | pip | 21.0.1 | plotly | 5.5.0 |
pmdarima | 1.8.4 | [No translation possible without additional context or clarification.] | 3.0.5 | prometheus-client | 0.10.1 |
prompt-toolkit | 3.0.17 | profeta | 1.0.1 | protobuf | 3.17.2 |
psutil | 5.8.0 | psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
pybind11 | 2.9.0 | pycparser | 2.20 | pydantic | 1.8.2 |
Pygments | 2.8.1 | pygobject | 3.36.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.4.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
pyrsistent | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.6 |
python-dateutil | 2.8.1 | editor di Python | 1.0.4 | python-engineio | 4.3.0 |
python-socketio | 5.4.1 | pytz | 2020.5 | PyWavelets | 1.1.1 |
PyYAML | 5.4.1 | pyzmq | 20.0.0 | regex | 2021.4.4 |
richieste | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
rsa | 4.7.2 | s3transfer | 0.3.7 | sacrimoses | 0.0.46 |
scikit-learn | 0.24.1 | scipy | 1.6.2 | seaborn | 0.11.1 |
Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
shap | 0.40.0 | simplejson | 3.17.2 | sei | 1.15.0 |
slicer | 0.0.7 | apertura intelligente | 5.2.0 | smmap | 3.0.5 |
spazioso | 3.2.1 | spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | davvero | 2.4.1 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | tabulare | 0.8.7 |
impigliato-in-unicode | 0.1.0 | tenacia | 6.2.0 | tensorboard | 2.7.0 |
tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.1 |
tensorflow-cpu | 2.7.0 | tensorflow-estimator | 2.7.0 | tensorflow-io-gcs-filesystem | 0.23.1 |
termcolor | 1.1.0 | terminato | 0.9.4 | percorso di prova | 0.4.4 |
thinc | 8.0.12 | threadpoolctl | 2.1.0 | suddivisori di token | 0.10.3 |
torch | 1.10.1+cpu | torchvision | 0.11.2+cpu | tornado | 6.1 |
tqdm | 4.59.0 | traitlets | 5.0.5 | trasformatori | 4.15.0 |
typer | 0.3.2 | typing-extensions | 3.7.4.3 | ujson | 4.0.2 |
aggiornamenti non presidiati | 0.1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
Visione | 0.7.4 | wasabi | 0.8.2 | wcwidth | 0.2.5 |
codifiche web | 0.5.1 | websocket-client | 0.57.0 | Werkzeug | 1.0.1 |
ruota | 0.36.2 | widgetsnbextension | 3.5.1 | avvolto | 1.12.1 |
xgboost | 1.5.1 | zipp | 3.4.1 |
Librerie Python nei cluster GPU
Biblioteca | Versione | Biblioteca | Versione | Biblioteca | Versione |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
generatore asincrono | 1.10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | bleach | 3.3.0 |
blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | catalogo | 2.0.6 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | clic | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | cryptography | 3.4.7 | ciclatore | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.5 |
databricks-cli | 0.16.2 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
decoratore | 5.0.6 | defusedxml | 0.7.1 | aneto | 0.3.2 |
cache del disco | 5.2.1 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
punti di ingresso | 0.3 | ephem | 4.1.3 | panoramica-delle-facciate | 1.0.0 |
fasttext | 0.9.2 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 2.0 | fsspec | 0.9.0 | futuro | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.7 | gitpython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | hijri-converter | 2.2.2 | vacanze | 0.12 |
horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
idna | 2.10 | ImageHash | 4.2.1 | imbalanced-learn | 0.8.1 |
importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
itsdangerous | 1.1.0 | jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.7.0 |
Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | koalas | 1.8.2 |
calendario lunare coreano | 0.2.1 | codici delle lingue | 3.3.0 | libclang | 12.0.0 |
lightgbm | 3.3.1 | llvmlite | 0.38.0 | Calendario Lunare | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | mistune | 0.8.4 |
mleap | 0.18.1 | mlflow-skinny | 1.23.0 | multimetodo | 1.6 |
mormurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2,5 |
nltk | 3.6.1 | taccuino | 6.3.0 | numba | 0.55.0 |
numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
imballaggio | 21.3 | pandas | 1.2.4 | pandas-profiling (analisi profili con Pandas) | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
patia | 0.6.0 | capro espiatorio | 0.5.1 | Petastorm | 0.11.3 |
pexpect | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
Cuscino | 8.2.0 | pip | 21.0.1 | plotly | 5.5.0 |
pmdarima | 1.8.4 | preshed | 3.0.5 | prompt-toolkit | 3.0.17 |
profeta | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
Psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pybind11 | 2.9.0 |
pycparser | 2.20 | pydantic | 1.8.2 | Pygments | 2.8.1 |
PyGObject | 3.36.0 | PyMeeus | 0.5.11 | PyNaCl | 1.4.0 |
pyodbc | 4.0.30 | pyparsing | 2.4.7 | pyrsistent | 0.17.3 |
pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 |
python-editor | 1.0.4 | python-engineio | 4.3.0 | python-socketio | 5.4.1 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | regex | 2021.4.4 | richieste | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | rsa | 4.7.2 |
s3transfer | 0.3.7 | sacrimoses | 0.0.46 | scikit-learn | 0.24.1 |
scipy | 1.6.2 | seaborn | 0.11.1 | Send2Trash | 1.5.0 |
setuptools | 52.0.0 | setuptools-git | 1.2 | shap | 0.40.0 |
simplejson | 3.17.2 | sei | 1.15.0 | slicer | 0.0.7 |
Apertura intelligente | 5.2.0 | smmap | 3.0.5 | svagato | 3.2.1 |
spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 | spark-tensorflow-distributor | 1.0.0 |
sqlparse | 0.4.1 | srsl | 2.4.1 | ssh-import-id | 5.10 |
statsmodels | 0.12.2 | tabulare | 0.8.7 | tangled-up-in-unicode | 0.1.0 |
tenacia | 6.2.0 | tensorboard | 2.7.0 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.1 | tensorflow | 2.7.0 |
tensorflow-estimator | 2.7.0 | tensorflow-io-gcs-filesystem | 0.23.1 | termcolor | 1.1.0 |
terminato | 0.9.4 | percorso di test | 0.4.4 | thinc | 8.0.12 |
threadpoolctl | 2.1.0 | tokenizzatori | 0.10.3 | torch | 1.10.1+cu111 |
torchvision | 0.11.2+cu111 | tornado | 6.1 | tqdm | 4.59.0 |
traitlets | 5.0.5 | trasformatori | 4.15.0 | typer | 0.3.2 |
typing-extensions | 3.7.4.3 | ujson | 4.0.2 | aggiornamenti non sorvegliati | 0.1 |
urllib3 | 1.25.11 | virtualenv | 20.4.1 | Visione | 0.7.4 |
wasabi | 0.8.2 | wcwidth | 0.2.5 | webencodings | 0.5.1 |
websocket-client | 0.57.0 | attrezzo | 1.0.1 | ruota | 0.36.2 |
widgetsnbextension | 3.5.1 | avvolto | 1.12.1 | xgboost | 1.5.1 |
zipp | 3.4.1 |
Pacchetti Spark contenenti moduli Python
Pacchetto Spark | Modulo Python | Versione |
---|---|---|
GraphFrames | GraphFrames | 0.8.2-db1-spark3.2 |
Librerie R
Le librerie R sono identiche alle librerie R in Databricks Runtime 10.3.
Librerie Java e Scala (cluster Scala 2.12)
Oltre alle librerie Java e Scala in Databricks Runtime 10.3, Databricks Runtime 10.3 ML contiene i file JAR seguenti:
Cluster CPU
ID del gruppo | ID artefatto | Versione |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.1 |
ml.dmlc | xgboost4j_2.12 | 1.5.1 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.23.0 |
org.mlflow | mlflow-spark | 1.23.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Cluster GPU
ID gruppo | ID di artefatto | Versione |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.1 |
ml.dmlc | xgboost4j_2.12 | 1.5.1 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.23.0 |
org.mlflow | mlflow-spark | 1.23.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |