Databricks Runtime 10.4 LTS per Machine Learning
Databricks Runtime 10.4 LTS per Machine Learning offre un ambiente pronto per apprendimento automatico e data science basato su Databricks Runtime 10.4 LTS. Databricks Runtime ML contiene molte di queste popolari librerie per l’apprendimento automatico, tra cui TensorFlow, PyTorch e XGBoost. Databricks Runtime ML include AutoML, uno strumento per eseguire automaticamente il training delle pipeline di Machine Learning. Databricks Runtime ML supporta inoltre il training di Deep Learning distribuito tramite Horovod.
Nota
LTS indica che questa versione è supportata a lungo termine. Vedere Ciclo di vita della versione LTS di Databricks Runtime.
Per altre informazioni, incluse le istruzioni per la creazione di un cluster Databricks Runtime ML, vedere IA e Machine Learning in Azure Databricks.
Suggerimento
Per visualizzare le note sulla versione per le versioni di Databricks Runtime che hanno raggiunto la fine del supporto (EoS), vedere Note sulla versione della fine del supporto di Databricks Runtime. Le versioni EoS di Databricks Runtime sono state ritirate e potrebbero non essere aggiornate.
Miglioramenti e nuove funzionalità
Databricks Runtime 10.4 LTS ML è basato su Databricks Runtime 10.4 LTS. Per informazioni sulle novità di Databricks Runtime 10.4 LTS, tra cui Apache Spark MLlib e SparkR, vedere le note sulla versione di Databricks Runtime 10.4 LTS.
Miglioramenti a AutoML
Sono stati apportati i miglioramenti seguenti a AutoML.
AutoML è disponibile a livello generale
A partire da Databricks Runtime 10.4 LTS ML, AutoML è disponibile a livello generale.
Attribuzione di valori mancanti
È ora possibile specificare la modalità di attribuzione dei valori null. Per impostazione predefinita, AutoML seleziona un metodo di attribuzione in base al tipo di colonna e al contenuto. Per informazioni dettagliate, vedere Attribuire i valori mancanti.
Selezione di colonne dall'interfaccia utente
Per problemi di classificazione e regressione, è ora possibile usare l'interfaccia utente oltre all'API per specificare le colonne che AutoML deve ignorare durante i calcoli. Vedere Selezione di colonne.
Nuovo tipo di dati
AutoML supporta ora i tipi di matrice numerica.
Percorso personalizzato dei notebook generati e dell'esperimento
È ora possibile specificare un percorso nell'area di lavoro in cui AutoML deve salvare i notebook e gli esperimenti generati. Usare il parametro experiment_dir
. Vedere Informazioni di riferimento sulle API Python di AutoML.
Miglioramenti all'archivio funzionalità di Databricks
Sono stati apportati i miglioramenti seguenti a Databricks Feature Store.
- È ora possibile registrare una tabella Delta esistente come tabella delle funzionalità.
Ambiente di sistema
L'ambiente di sistema in Databricks Runtime 10.4 LTS ML differisce da Databricks Runtime 10.4 LTS come indicato di seguito:
- DBUtils: Databricks Runtime ML non include l'utilità libreria (dbutils.library) (legacy).
Usare
%pip
invece i comandi. Vedere Librerie Python con ambito notebook. - Per i cluster GPU, Databricks Runtime ML include le librerie GPU NVIDIA seguenti:
- CUDA 11.0
- CUDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
Librerie
Le sezioni seguenti elencano le librerie incluse in Databricks Runtime 10.4 LTS ML che differiscono da quelle incluse in Databricks Runtime 10.4 LTS.
Contenuto della sezione:
Librerie di livello superiore
Databricks Runtime 10.4 LTS ML include le librerie di livello superiore seguenti:
- GraphFrames
- Horovod e HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Librerie Python
Databricks Runtime 10.4 LTS ML usa Virtualenv per la gestione dei pacchetti Python e include molti dei pacchetti ML più diffusi.
Oltre ai pacchetti specificati nelle sezioni seguenti, Databricks Runtime 10.4 LTS ML include anche i pacchetti seguenti:
- hyperopt 0.2.7.db1
- sparkdl 2.2.0-db5
- feature_store 0.3.8
- automl 1.7.2
Librerie Python nei cluster CPU
Per riprodurre l'ambiente Python di Databricks Runtime ML nell'ambiente virtuale Python locale, scaricare il file requirements-10.4.txt ed eseguire pip install -r requirements-10.4.txt
. Questo comando installa tutte le librerie open source usate da Databricks Runtime ML, ma non installa librerie sviluppate da Azure Databricks, ad esempio databricks-automl
, databricks-feature-store
o il fork di Databricks di hyperopt
.
Library | Versione | Library | Versione | Library | Versione |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1.10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | bleach | 3.3.0 |
blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | servizio | 2.0.6 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | click | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | cryptography | 3.4.7 | cycler | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.6 |
databricks-cli | 0.16.3 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
decorator | 5.0.6 | defusedxml | 0.7.1 | dill | 0.3.2 |
diskcache | 5.2.1 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
entrypoints | 0.3 | ephem | 4.1.3 | facet-overview | 1.0.0 |
fasttext | 0.9.2 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 2.0 | fsspec | 0.9.0 | future | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.7 | gitpython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | hijri-converter | 2.2.3 | holidays | 0.12 |
horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
idna | 2.10 | ImageHash | 4.2.1 | sbilanciato-learn | 0.8.1 |
importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
itsdangerous | 1.1.0 | jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.8.0 |
Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | koalas | 1.8.2 |
coreano-lunare-calendario | 0.2.1 | langcodes | 3.3.0 | libclang | 13.0.0 |
lightgbm | 3.3.2 | llvmlite | 0.38.0 | LunarCalendar | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno | 0.5.1 | mistune | 0.8.4 |
mleap | 0.18.1 | mlflow-skinny | 1.24.0 | multimethod | 1.7 |
murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2.5 |
nltk | 3.6.1 | notebook | 6.3.0 | numba | 0.55.1 |
numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
packaging | 21.3 | pandas | 1.2.4 | pandas-profiling | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
patia | 0.6.0 | patsy | 0.5.1 | petastorm | 0.11.4 |
pexpect | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
Pillow | 8.2.0 | pip | 21.0.1 | plotly | 5.5.0 |
pmdarima | 1.8.4 | preshed | 3.0.5 | prometheus-client | 0.10.1 |
prompt-toolkit | 3.0.17 | prophet | 1.0.1 | protobuf | 3.17.2 |
psutil | 5.8.0 | Psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
pybind11 | 2.9.1 | pycparser | 2.20 | pydantic | 1.8.2 |
Pygments | 2.8.1 | pygobject | 3.36.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.4.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
pirsistente | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 |
python-dateutil | 2.8.1 | python-editor | 1.0.4 | python-engineio | 4.3.0 |
python-socketio | 5.4.1 | pytz | 2020.5 | PyWavelets | 1.1.1 |
PyYAML | 5.4.1 | pyzmq | 20.0.0 | regex | 2021.4.4 |
requests | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
rsa | 4.7.2 | s3transfer | 0.3.7 | sacrimoses | 0.0.46 |
scikit-learn | 0.24.1 | scipy | 1.6.2 | seaborn | 0.11.1 |
Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
shap | 0.40.0 | simplejson | 3.17.2 | six | 1.15.0 |
slicer | 0.0.7 | Ritaglio intelligente | 5.2.0 | smmap | 3.0.5 |
spacy | 3.2.1 | spacy-legacy | 3.0.8 | spacy-logger | 1.0.1 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | srsly | 2.4.1 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | tabulate | 0.8.7 |
tangled-up-in-unicode | 0.1.0 | tenacity | 6.2.0 | tensorboard | 2.8.0 |
tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.1 |
tensorflow-cpu | 2.8.0 | tensorflow-estimator | 2.8.0 | tensorflow-io-gcs-filesystem | 0.24.0 |
termcolor | 1.1.0 | terminado | 0.9.4 | testpath | 0.4.4 |
tf-estimator-nightly | 2.8.0.dev2021122109 | thinc | 8.0.12 | threadpoolctl | 2.1.0 |
tokenizers | (0.10.3) | torch | 1.10.2+cpu | torchvision | 0.11.3+cpu |
tornado | 6.1 | tqdm | 4.59.0 | traitlets | 5.0.5 |
transformers | 4.16.2 | typer | 0.3.2 | typing-extensions | 3.7.4.3 |
ujson | 4.0.2 | aggiornamenti automatici | 0.1 | urllib3 | 1.25.11 |
virtualenv | 20.4.1 | Visione | 0.7.4 | wasabi | 0.8.2 |
wcwidth | 0.2.5 | webencodings | 0.5.1 | websocket-client | 0.57.0 |
Werkzeug | 1.0.1 | wheel | 0.36.2 | widgetsnbextension | 3.5.1 |
wrapt | 1.12.1 | xgboost | 1.5.2 | zipp | 3.4.1 |
Librerie Python nei cluster GPU
Library | Versione | Library | Versione | Library | Versione |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1.10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | bleach | 3.3.0 |
blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | servizio | 2.0.6 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | click | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | cryptography | 3.4.7 | cycler | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.6 |
databricks-cli | 0.16.3 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
decorator | 5.0.6 | defusedxml | 0.7.1 | dill | 0.3.2 |
diskcache | 5.2.1 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
entrypoints | 0.3 | ephem | 4.1.3 | facet-overview | 1.0.0 |
fasttext | 0.9.2 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 2.0 | fsspec | 0.9.0 | future | 0.18.2 |
gast | 0.4.0 | gitdb | 4.0.7 | gitpython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | hijri-converter | 2.2.3 | holidays | 0.12 |
horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
idna | 2.10 | ImageHash | 4.2.1 | sbilanciato-learn | 0.8.1 |
importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
itsdangerous | 1.1.0 | jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.8.0 |
Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | koalas | 1.8.2 |
coreano-lunare-calendario | 0.2.1 | langcodes | 3.3.0 | libclang | 13.0.0 |
lightgbm | 3.3.2 | llvmlite | 0.38.0 | LunarCalendar | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno | 0.5.1 | mistune | 0.8.4 |
mleap | 0.18.1 | mlflow-skinny | 1.24.0 | multimethod | 1.7 |
murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2.5 |
nltk | 3.6.1 | notebook | 6.3.0 | numba | 0.55.1 |
numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
packaging | 21.3 | pandas | 1.2.4 | pandas-profiling | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
patia | 0.6.0 | patsy | 0.5.1 | petastorm | 0.11.4 |
pexpect | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
Pillow | 8.2.0 | pip | 21.0.1 | plotly | 5.5.0 |
pmdarima | 1.8.4 | preshed | 3.0.5 | prompt-toolkit | 3.0.17 |
prophet | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
Psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pybind11 | 2.9.1 |
pycparser | 2.20 | pydantic | 1.8.2 | Pygments | 2.8.1 |
pygobject | 3.36.0 | PyMeeus | 0.5.11 | PyNaCl | 1.4.0 |
pyodbc | 4.0.30 | pyparsing | 2.4.7 | pirsistente | 0.17.3 |
pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 | python-dateutil | 2.8.1 |
python-editor | 1.0.4 | python-engineio | 4.3.0 | python-socketio | 5.4.1 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | regex | 2021.4.4 | requests | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | rsa | 4.7.2 |
s3transfer | 0.3.7 | sacrimoses | 0.0.46 | scikit-learn | 0.24.1 |
scipy | 1.6.2 | seaborn | 0.11.1 | Send2Trash | 1.5.0 |
setuptools | 52.0.0 | setuptools-git | 1.2 | shap | 0.40.0 |
simplejson | 3.17.2 | six | 1.15.0 | slicer | 0.0.7 |
Ritaglio intelligente | 5.2.0 | smmap | 3.0.5 | spacy | 3.2.1 |
spacy-legacy | 3.0.8 | spacy-logger | 1.0.1 | spark-tensorflow-distributor | 1.0.0 |
sqlparse | 0.4.1 | srsly | 2.4.1 | ssh-import-id | 5.10 |
statsmodels | 0.12.2 | tabulate | 0.8.7 | tangled-up-in-unicode | 0.1.0 |
tenacity | 6.2.0 | tensorboard | 2.8.0 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.1 | tensorflow | 2.8.0 |
tensorflow-estimator | 2.8.0 | tensorflow-io-gcs-filesystem | 0.24.0 | termcolor | 1.1.0 |
terminado | 0.9.4 | testpath | 0.4.4 | tf-estimator-nightly | 2.8.0.dev2021122109 |
thinc | 8.0.12 | threadpoolctl | 2.1.0 | tokenizers | (0.10.3) |
torch | 1.10.2+cu111 | torchvision | 0.11.3+cu111 | tornado | 6.1 |
tqdm | 4.59.0 | traitlets | 5.0.5 | transformers | 4.16.2 |
typer | 0.3.2 | typing-extensions | 3.7.4.3 | ujson | 4.0.2 |
aggiornamenti automatici | 0.1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
Visione | 0.7.4 | wasabi | 0.8.2 | wcwidth | 0.2.5 |
webencodings | 0.5.1 | websocket-client | 0.57.0 | Werkzeug | 1.0.1 |
wheel | 0.36.2 | widgetsnbextension | 3.5.1 | wrapt | 1.12.1 |
xgboost | 1.5.2 | zipp | 3.4.1 |
Pacchetti Spark contenenti moduli Python
Pacchetti Spark | Modulo Python | Versione |
---|---|---|
GraphFrames | GraphFrames | 0.8.2-db1-spark3.2 |
Librerie R
Le librerie R sono identiche alle librerie R in Databricks Runtime 10.4 LTS.
Librerie Java e Scala (cluster Scala 2.12)
Oltre alle librerie Java e Scala in Databricks Runtime 10.4 LTS, Databricks Runtime 10.4 LTS ML contiene i file JAR seguenti:
Cluster CPU
ID gruppo | ID artefatto | Versione |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
ml.dmlc | xgboost4j_2.12 | 1.5.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.24.0 |
org.mlflow | mlflow-spark | 1.24.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Cluster GPU
ID gruppo | ID artefatto | Versione |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
ml.dmlc | xgboost4j_2.12 | 1.5.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.24.0 |
org.mlflow | mlflow-spark | 1.24.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |