Databricks Runtime 9.0 pro ML (EoS)
Poznámka:
Podpora této verze Databricks Runtime skončila. Datum ukončení podpory najdete v tématu Historie ukončení podpory. Všechny podporované verze databricks Runtime najdete v poznámkách k verzi Databricks Runtime a kompatibilitu.
Databricks vydala tuto verzi v srpnu 2021.
Databricks Runtime 9.0 pro Machine Learning poskytuje připravené prostředí pro strojové učení a datové vědy založené na databricks Runtime 9.0 (EoS). Databricks Runtime ML obsahuje mnoho oblíbených knihoven strojového učení, včetně TensorFlow, PyTorch a XGBoost. Podporuje také distribuované trénování hlubokého učení pomocí Horovodu.
Další informace, včetně pokynů k vytvoření clusteru Databricks Runtime ML, najdete v tématu AI a strojové učení v Databricks.
Oprava
Předchozí verze těchto poznámek k verzi uvádí, že podpora monitorování metrik GPU clusteru s Ganglia byla v Databricks Runtime 9.0 ML GPU zakázaná. To platí pro Databricks Runtime 9.0 ML Beta, ale problém byl opravený s modulem GA Databricks Runtime 9.0 ML. Příkaz byl odebrán.
Nové funkce a vylepšení
Databricks Runtime 9.0 ML je postaven na Databricks Runtime 9.0. Informace o novinkách v Databricks Runtime 9.0, včetně Apache Spark MLlib a SparkR, najdete ve zprávě k vydání verze Databricks Runtime 9.0 (EoS ).
Automatickélogování Databricks (Public Preview)
Automatické protokolování Databricks je teď dostupné pro Databricks Runtime 9.0 pro Machine Learning ve vybraných oblastech. Autologování Databricks je řešení bez kódu, které poskytuje automatické sledování experimentů pro trénovací relace strojového učení v Azure Databricks. Díky automatickému protokolování Datbricks, parametrům modelu, metrikám, souborům a informacím rodokmenu se automaticky zaznamenávají při trénování modelů z různých oblíbených knihoven strojového učení. Trénovací relace se zaznamenávají jako běhy sledování MLflow. Soubory modelů jsou také sledovány, takže je můžete snadno protokolovat do registru modelů MLflow a nasadit je pro bodování v reálném čase pomocí MLflow Model Serving.
Další informace o automatickémlogování Databricks najdete v tématu Automatickélogování Databricks.
Vylepšení úložiště funkcí Databricks
Výkon při vytváření trénovací sady byl vylepšen minimalizací počtu spojení napříč tabulkami zdrojových funkcí.
Integrace XGBoost s PySpark teď podporuje distribuované trénování a clustery GPU.
Podrobnosti najdete v tématu Použití XGBoost v Azure Databricks.
Hlavní změny prostředí Databricks Runtime ML v Pythonu
Prostředí Conda spolu s příkazem %conda se odeberou. Databricks Runtime 9.0 ML je sestaven pomocí pip
a virtualenv
.
Vlastní image využívající prostředí založená na Conda se službou Databricks Container Services se budou dál podporovat, ale nebudou mít funkce knihovny v oboru poznámkových bloků. Databricks doporučuje používat prostředí založená na virtuálních sítích se službou Databricks Container Services a %pip
pro všechny knihovny v oboru poznámkových bloků.
Hlavní změny prostředí Pythonu databricks Runtime 9.0 (EoS) najdete v databricks Runtime. Úplný seznam nainstalovaných balíčků Pythonu a jejich verzí najdete v knihovnách Pythonu.
Upgradované balíčky Pythonu
- mlflow 1.18.0 -> 1.19.0
- nltk 3.5 -> 3.6.1
Přidané balíčky Pythonu
- prorok 1.0.1
Odebrané balíčky Pythonu
- MKL
- Azure-Core
- azure-storage-blob
- msrest
- docker
- querystring-parser
- intel-openmp
Vyřazení a nepodporované funkce
- V Databricks Runtime 9.0 ML HorovodRunner nepodporuje nastavení
np=0
, kdenp
je počet paralelních procesů, které se mají použít pro úlohu Horovod. - Databricks Runtime 9.0 ML zahrnuje r-base 4.1.0 s grafickým modulem R verze 14. RStudio Server verze 1.2.x to nepodporuje.
nvprof
se odebere v Gpu Databricks Runtime 9.0 ML.
Prostředí systému
Systémové prostředí v Databricks Runtime 9.0 ML se liší od Databricks Runtime 9.0 následujícím způsobem:
- DBUtils: Databricks Runtime ML nezahrnuje nástroj knihovny (dbutils.library) (starší verze).
Místo toho použijte
%pip
příkazy. Další informace najdete v tématu Knihovny Pythonu v rámci poznámkových bloků - Pro clustery GPU zahrnuje Databricks Runtime ML následující knihovny NVIDIA GPU:
- CUDA 11.0
- cuDNN 8.1.0.77
- NCCL 2.10.3
- TensorRT 7.2.2
Knihovny
Následující části obsahují seznam knihoven zahrnutých v Databricks Runtime 9.0 ML, které se liší od knihoven zahrnutých v Databricks Runtime 9.0.
V této části:
- Knihovny nejvyšší úrovně
- Knihovny Pythonu
- Knihovny jazyka R
- Knihovny Java a Scala (cluster Scala 2.12)
Knihovny nejvyšší úrovně
Databricks Runtime 9.0 ML obsahuje následující knihovny nejvyšší úrovně:
- GraphFrames
- Horovod a HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Knihovny Pythonu
Databricks Runtime 9.0 ML používá Virtualenv pro správu balíčků Pythonu a obsahuje mnoho oblíbených balíčků ML.
Kromě balíčků uvedených v následujících částech obsahuje Databricks Runtime 9.0 ML také následující balíčky:
- hyperopt 0.2.5.db2
- sparkdl 2.2.0_db1
- feature_store 0.3.3
- automl 1.1.1
Knihovny Pythonu v clusterech procesorů
Knihovna | Verze | Knihovna | Verze | Knihovna | Verze |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1,10 | attrs | 20.3.0 | backcall | 0.2.0 |
šifra | 3.2.0 | bělit | 3.3.0 | boto3 | 1.16.7 |
botocore | 1.19.7 | Slabina | 1.3.2 | cachetools | 4.2.2 |
certifi | 2020.12.5 | cffi | 1.14.5 | chardet | 4.0.0 |
kliknutí | 7.1.2 | cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 |
configparser | 5.0.1 | convertdate | 2.3.2 | kryptografie | 3.4.7 |
cyklista | 0.10.0 | Cython | 0.29.23 | Databricks-cli | 0.14.3 |
dbus-python | 1.2.16 | dekoratér | 5.0.6 | defusedxml | 0.7.1 |
kopr | 0.3.2 | diskcache | 5.2.1 | distlib | 0.3.2 |
informace o distribuci | 0.23ubuntu1 | vstupní body | 0.3 | ephem | 4.0.0.2 |
přehled omezujících vlastností | 1.0.0 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 1.12 | fsspec | 0.9.0 | budoucnost | 0.18.2 |
Gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grpcio | 1.34.1 | gunicorn | 20.0.4 | h5py | 3.1.0 |
hijri-converter | 2.1.3 | prázdniny | 0.10.5.2 | horovod | 0.22.1 |
htmlmin | 0.1.12 | idna | 2.10 | ImageHash | 4.2.1 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.4 | isodate | 0.6.0 | jehodangerous | 1.1.0 |
Jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgety | 1.0.1 | keras -noční | 2.5.0.dev2021032900 | Předběžné zpracování Kerasu | 1.1.2 |
verizonsolver | 1.3.1 | Koaly | 1.8.1 | korejský lunární kalendář | 0.2.1 |
lightgbm | 3.1.1 | llvmlite | 0.36.0 | LunárníCalendar | 0.0.9 |
Druh žraloka | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 1.1.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | špatně zamyšlení | 0.8.4 |
mleap | 0.17.0 | mlflow-hubená | 1.19.0 | multimethod | 1.4 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2.5 | nltk | 3.6.1 |
poznámkový blok | 6.3.0 | numba | 0.53.1 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | balení | 20.9 |
pandas | 1.2.4 | profilace pandas | 3.0.0 | pandocfilters | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | bábovka | 0.5.1 |
petastorm | 0.11.1 | pexpect | 4.8.0 | Phik | 0.12.0 |
pickleshare | 0.7.5 | Polštář | 8.2.0 | jádro | 21.0.1 |
plotly | 4.14.3 | prometheus-client | 0.10.1 | prompt-toolkit | 3.0.17 |
prorok | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pycparser | 2,20 |
pydantic | 1.8.2 | Pygments | 2.8.1 | PyGObject | 3.36.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.3.0 | pyodbc | 4.0.30 |
pyparsing | 2.4.7 | pyrsistent | 0.17.3 | pystan | 2.19.1.1 |
python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 | python-editor | 1.0.4 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | regex | 2021.4.4 | žádosti | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | Opakování... | 1.3.3 |
rsa | 4.7.2 | s3transfer | 0.3.7 | scikit-learn | 0.24.1 |
scipy | 1.6.2 | seaborn | 0.11.1 | Send2Trash | 1.5.0 |
setuptools | 52.0.0 | setuptools-git | 1.2 | Shap | 0.39.0 |
simplejson | 3.17.2 | Šest | 1.15.0 | kráječ | 0.0.7 |
smmap | 3.0.5 | spark-tensorflow-distributor | 0.1.0 | sqlparse | 0.4.1 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | sestavit v tabulku | 0.8.7 |
tangled-up-in-unicode | 0.1.0 | tensorboard | 2.5.0 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-wit | 1.8.0 | tensorflow-cpu | 2.5.0 | tensorflow-estimator | 2.5.0 |
termcolor | 1.1.0 | terminado | 0.9.4 | testpath | 0.4.4 |
threadpoolctl | 2.1.0 | pochodeň | 1.9.0+cpu | torchvision | 0.10.0+cpu |
tornádo | 6.1 | tqdm | 4.59.0 | vlastnosti | 5.0.5 |
typing-extensions | 3.7.4.3 | ujson | 4.0.2 | bezobslužné upgrady | 0,1 |
urllib3 | 1.25.11 | virtualenv | 20.4.1 | vize | 0.7.1 |
wcwidth | 0.2.5 | webencodings | 0.5.1 | websocket-client | 0.57.0 |
Werkzeug | 1.0.1 | kolo | 0.36.2 | widgetsnbextension | 3.5.1 |
wrapt | 1.12.1 | xgboost | 1.4.2 |
Knihovny Pythonu v clusterech GPU
Knihovna | Verze | Knihovna | Verze | Knihovna | Verze |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1,10 | attrs | 20.3.0 | backcall | 0.2.0 |
šifra | 3.2.0 | bělit | 3.3.0 | boto3 | 1.16.7 |
botocore | 1.19.7 | Slabina | 1.3.2 | cachetools | 4.2.2 |
certifi | 2020.12.5 | cffi | 1.14.5 | chardet | 4.0.0 |
kliknutí | 7.1.2 | cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 |
configparser | 5.0.1 | convertdate | 2.3.2 | kryptografie | 3.4.7 |
cyklista | 0.10.0 | Cython | 0.29.23 | Databricks-cli | 0.14.3 |
dbus-python | 1.2.16 | dekoratér | 5.0.6 | defusedxml | 0.7.1 |
kopr | 0.3.2 | diskcache | 5.2.1 | distlib | 0.3.2 |
informace o distribuci | 0.23ubuntu1 | vstupní body | 0.3 | ephem | 4.0.0.2 |
přehled omezujících vlastností | 1.0.0 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 1.12 | fsspec | 0.9.0 | budoucnost | 0.18.2 |
Gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grpcio | 1.34.1 | gunicorn | 20.0.4 | h5py | 3.1.0 |
hijri-converter | 2.1.3 | prázdniny | 0.10.5.2 | horovod | 0.22.1 |
htmlmin | 0.1.12 | idna | 2.10 | ImageHash | 4.2.1 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.4 | isodate | 0.6.0 | jehodangerous | 1.1.0 |
Jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgety | 1.0.1 | keras -noční | 2.5.0.dev2021032900 | Předběžné zpracování Kerasu | 1.1.2 |
verizonsolver | 1.3.1 | Koaly | 1.8.1 | korejský lunární kalendář | 0.2.1 |
lightgbm | 3.1.1 | llvmlite | 0.36.0 | LunárníCalendar | 0.0.9 |
Druh žraloka | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 1.1.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | špatně zamyšlení | 0.8.4 |
mleap | 0.17.0 | mlflow-hubená | 1.19.0 | multimethod | 1.4 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2.5 | nltk | 3.6.1 |
poznámkový blok | 6.3.0 | numba | 0.53.1 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | balení | 20.9 |
pandas | 1.2.4 | profilace pandas | 3.0.0 | pandocfilters | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | bábovka | 0.5.1 |
petastorm | 0.11.1 | pexpect | 4.8.0 | Phik | 0.12.0 |
pickleshare | 0.7.5 | Polštář | 8.2.0 | jádro | 21.0.1 |
plotly | 4.14.3 | prometheus-client | 0.11.0 | prompt-toolkit | 3.0.17 |
prorok | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pycparser | 2,20 |
pydantic | 1.8.2 | Pygments | 2.8.1 | PyGObject | 3.36.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.3.0 | pyodbc | 4.0.30 |
pyparsing | 2.4.7 | pyrsistent | 0.17.3 | pystan | 2.19.1.1 |
python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 | python-editor | 1.0.4 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | regex | 2021.4.4 | žádosti | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | Opakování... | 1.3.3 |
rsa | 4.7.2 | s3transfer | 0.3.7 | scikit-learn | 0.24.1 |
scipy | 1.6.2 | seaborn | 0.11.1 | Send2Trash | 1.5.0 |
setuptools | 52.0.0 | setuptools-git | 1.2 | Shap | 0.39.0 |
simplejson | 3.17.2 | Šest | 1.15.0 | kráječ | 0.0.7 |
smmap | 3.0.5 | spark-tensorflow-distributor | 0.1.0 | sqlparse | 0.4.1 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | sestavit v tabulku | 0.8.7 |
tangled-up-in-unicode | 0.1.0 | tensorboard | 2.5.0 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-wit | 1.8.0 | tensorflow | 2.5.0 | tensorflow-estimator | 2.5.0 |
termcolor | 1.1.0 | terminado | 0.9.4 | testpath | 0.4.4 |
threadpoolctl | 2.1.0 | pochodeň | 1.9.0+cu111 | torchvision | 0.10.0+cu111 |
tornádo | 6.1 | tqdm | 4.59.0 | vlastnosti | 5.0.5 |
typing-extensions | 3.7.4.3 | ujson | 4.0.2 | bezobslužné upgrady | 0,1 |
urllib3 | 1.25.11 | virtualenv | 20.4.1 | vize | 0.7.1 |
wcwidth | 0.2.5 | webencodings | 0.5.1 | websocket-client | 0.57.0 |
Werkzeug | 1.0.1 | kolo | 0.36.2 | widgetsnbextension | 3.5.1 |
wrapt | 1.12.1 | xgboost | 1.4.2 |
Balíčky Spark obsahující moduly Pythonu
Balíček Spark | Modul Pythonu | Verze |
---|---|---|
graphframes | graphframes | 0.8.1-db3-spark3.1 |
Knihovny jazyka R
Knihovny jazyka R jsou identické s knihovnami jazyka R v Databricks Runtime 9.0.
Knihovny Java a Scala (cluster Scala 2.12)
Kromě knihoven Java a Scala v Databricks Runtime 9.0 obsahuje Databricks Runtime 9.0 ML následující jary:
Clustery procesoru
ID skupiny | ID artefaktu | Verze |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.17.0-4882dc3 |
ml.dmlc | xgboost4j-spark_2.12 | 1.4.1 |
ml.dmlc | xgboost4j_2.12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-spark3.1 |
org.mlflow | mlflow-client | 1.19.0 |
org.mlflow | mlflow-spark | 1.19.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Clustery GPU
ID skupiny | ID artefaktu | Verze |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.17.0-4882dc3 |
ml.dmlc | xgboost4j-gpu_2.12 | 1.4.1 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-spark3.1 |
org.mlflow | mlflow-client | 1.19.0 |
org.mlflow | mlflow-spark | 1.19.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |