Sdílet prostřednictvím


Databricks Runtime 9.0 pro ML (EoS)

Poznámka:

Podpora této verze Databricks Runtime skončila. Datum ukončení podpory najdete v tématu Historie ukončení podpory. Všechny podporované verze databricks Runtime najdete v poznámkách k verzi Databricks Runtime a kompatibilitu.

Databricks vydala tuto verzi v srpnu 2021.

Databricks Runtime 9.0 pro Machine Learning poskytuje připravené prostředí pro strojové učení a datové vědy založené na databricks Runtime 9.0 (EoS). Databricks Runtime ML obsahuje mnoho oblíbených knihoven strojového učení, včetně TensorFlow, PyTorch a XGBoost. Podporuje také distribuované trénování hlubokého učení pomocí Horovodu.

Další informace, včetně pokynů k vytvoření clusteru Databricks Runtime ML, najdete v tématu AI a strojové učení v Databricks.

Oprava

Předchozí verze těchto poznámek k verzi uvádí, že podpora monitorování metrik GPU clusteru s Ganglia byla v Databricks Runtime 9.0 ML GPU zakázaná. To platí pro Databricks Runtime 9.0 ML Beta, ale problém byl opravený s modulem GA Databricks Runtime 9.0 ML. Příkaz byl odebrán.

Nové funkce a vylepšení

Databricks Runtime 9.0 ML je postaven na Databricks Runtime 9.0. Informace o novinkách v Databricks Runtime 9.0, včetně Apache Spark MLlib a SparkR, najdete ve zprávě k vydání verze Databricks Runtime 9.0 (EoS ).

Automatickélogování Databricks (Public Preview)

Automatické protokolování Databricks je teď dostupné pro Databricks Runtime 9.0 pro Machine Learning ve vybraných oblastech. Autologování Databricks je řešení bez kódu, které poskytuje automatické sledování experimentů pro trénovací relace strojového učení v Azure Databricks. Díky automatickému protokolování Datbricks, parametrům modelu, metrikám, souborům a informacím rodokmenu se automaticky zaznamenávají při trénování modelů z různých oblíbených knihoven strojového učení. Trénovací relace se zaznamenávají jako běhy sledování MLflow. Soubory modelů jsou také sledovány, takže je můžete snadno protokolovat do registru modelů MLflow a nasadit je pro bodování v reálném čase pomocí MLflow Model Serving.

Další informace o automatickémlogování Databricks najdete v tématu Automatickélogování Databricks.

Vylepšení úložiště funkcí Databricks

Výkon při vytváření trénovací sady byl vylepšen minimalizací počtu spojení napříč tabulkami zdrojových funkcí.

Integrace XGBoost s PySpark teď podporuje distribuované trénování a clustery GPU.

Podrobnosti najdete v tématu Použití XGBoost v Azure Databricks.

Hlavní změny prostředí Databricks Runtime ML v Pythonu

Prostředí Conda spolu s příkazem %conda se odeberou. Databricks Runtime 9.0 ML je sestaven pomocí pip a virtualenv. Vlastní image využívající prostředí založená na Conda se službou Databricks Container Services se budou dál podporovat, ale nebudou mít funkce knihovny v oboru poznámkových bloků. Databricks doporučuje používat prostředí založená na virtuálních sítích se službou Databricks Container Services a %pip pro všechny knihovny v oboru poznámkových bloků.

Hlavní změny prostředí Pythonu databricks Runtime 9.0 (EoS) najdete v databricks Runtime. Úplný seznam nainstalovaných balíčků Pythonu a jejich verzí najdete v knihovnách Pythonu.

Upgradované balíčky Pythonu

  • mlflow 1.18.0 -> 1.19.0
  • nltk 3.5 -> 3.6.1

Přidané balíčky Pythonu

  • prorok 1.0.1

Odebrané balíčky Pythonu

  • MKL
  • Azure-Core
  • azure-storage-blob
  • msrest
  • docker
  • querystring-parser
  • intel-openmp

Vyřazení a nepodporované funkce

  • V Databricks Runtime 9.0 ML HorovodRunner nepodporuje nastavení np=0, kde np je počet paralelních procesů, které se mají použít pro úlohu Horovod.
  • Databricks Runtime 9.0 ML zahrnuje r-base 4.1.0 s grafickým modulem R verze 14. RStudio Server verze 1.2.x to nepodporuje.
  • nvprof se odebere v Gpu Databricks Runtime 9.0 ML.

Prostředí systému

Systémové prostředí v Databricks Runtime 9.0 ML se liší od Databricks Runtime 9.0 následujícím způsobem:

Knihovny

Následující části obsahují seznam knihoven zahrnutých v Databricks Runtime 9.0 ML, které se liší od knihoven zahrnutých v Databricks Runtime 9.0.

V této části:

Knihovny nejvyšší úrovně

Databricks Runtime 9.0 ML obsahuje následující knihovny nejvyšší úrovně:

Knihovny Pythonu

Databricks Runtime 9.0 ML používá Virtualenv pro správu balíčků Pythonu a obsahuje mnoho oblíbených balíčků ML.

Kromě balíčků uvedených v následujících částech obsahuje Databricks Runtime 9.0 ML také následující balíčky:

  • hyperopt 0.2.5.db2
  • sparkdl 2.2.0_db1
  • feature_store 0.3.3
  • automl 1.1.1

Knihovny Pythonu v clusterech procesorů

Knihovna Verze Knihovna Verze Knihovna Verze
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
šifra 3.2.0 bělit 3.3.0 boto3 1.16.7
botocore 1.19.7 Slabina 1.3.2 cachetools 4.2.2
certifi 2020.12.5 cffi 1.14.5 chardet 4.0.0
kliknutí 7.1.2 cloudpickle 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 convertdate 2.3.2 kryptografie 3.4.7
cyklista 0.10.0 Cython 0.29.23 Databricks-cli 0.14.3
dbus-python 1.2.16 dekoratér 5.0.6 defusedxml 0.7.1
kopr 0.3.2 diskcache 5.2.1 distlib 0.3.2
informace o distribuci 0.23ubuntu1 vstupní body 0.3 ephem 4.0.0.2
přehled omezujících vlastností 1.0.0 filelock 3.0.12 Flask 1.1.2
flatbuffers 1.12 fsspec 0.9.0 budoucnost 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.34.1 gunicorn 20.0.4 h5py 3.1.0
hijri-converter 2.1.3 prázdniny 0.10.5.2 horovod 0.22.1
htmlmin 0.1.12 idna 2.10 ImageHash 4.2.1
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 isodate 0.6.0 jehodangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgety 1.0.1 keras -noční 2.5.0.dev2021032900 Předběžné zpracování Kerasu 1.1.2
verizonsolver 1.3.1 Koaly 1.8.1 korejský lunární kalendář 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 LunárníCalendar 0.0.9
Druh žraloka 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 špatně zamyšlení 0.8.4
mleap 0.17.0 mlflow-hubená 1.19.0 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
poznámkový blok 6.3.0 numba 0.53.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 balení 20.9
pandas 1.2.4 profilace pandas 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 bábovka 0.5.1
petastorm 0.11.1 pexpect 4.8.0 Phik 0.12.0
pickleshare 0.7.5 Polštář 8.2.0 jádro 21.0.1
plotly 4.14.3 prometheus-client 0.10.1 prompt-toolkit 3.0.17
prorok 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2,20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 žádosti 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Opakování... 1.3.3
rsa 4.7.2 s3transfer 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 Shap 0.39.0
simplejson 3.17.2 Šest 1.15.0 kráječ 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 sqlparse 0.4.1
ssh-import-id 5.10 statsmodels 0.12.2 sestavit v tabulku 0.8.7
tangled-up-in-unicode 0.1.0 tensorboard 2.5.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.5.0 tensorflow-estimator 2.5.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
threadpoolctl 2.1.0 pochodeň 1.9.0+cpu torchvision 0.10.0+cpu
tornádo 6.1 tqdm 4.59.0 vlastnosti 5.0.5
typing-extensions 3.7.4.3 ujson 4.0.2 bezobslužné upgrady 0,1
urllib3 1.25.11 virtualenv 20.4.1 vize 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 kolo 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2

Knihovny Pythonu v clusterech GPU

Knihovna Verze Knihovna Verze Knihovna Verze
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
šifra 3.2.0 bělit 3.3.0 boto3 1.16.7
botocore 1.19.7 Slabina 1.3.2 cachetools 4.2.2
certifi 2020.12.5 cffi 1.14.5 chardet 4.0.0
kliknutí 7.1.2 cloudpickle 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 convertdate 2.3.2 kryptografie 3.4.7
cyklista 0.10.0 Cython 0.29.23 Databricks-cli 0.14.3
dbus-python 1.2.16 dekoratér 5.0.6 defusedxml 0.7.1
kopr 0.3.2 diskcache 5.2.1 distlib 0.3.2
informace o distribuci 0.23ubuntu1 vstupní body 0.3 ephem 4.0.0.2
přehled omezujících vlastností 1.0.0 filelock 3.0.12 Flask 1.1.2
flatbuffers 1.12 fsspec 0.9.0 budoucnost 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.34.1 gunicorn 20.0.4 h5py 3.1.0
hijri-converter 2.1.3 prázdniny 0.10.5.2 horovod 0.22.1
htmlmin 0.1.12 idna 2.10 ImageHash 4.2.1
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 isodate 0.6.0 jehodangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgety 1.0.1 keras -noční 2.5.0.dev2021032900 Předběžné zpracování Kerasu 1.1.2
verizonsolver 1.3.1 Koaly 1.8.1 korejský lunární kalendář 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 LunárníCalendar 0.0.9
Druh žraloka 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 špatně zamyšlení 0.8.4
mleap 0.17.0 mlflow-hubená 1.19.0 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
poznámkový blok 6.3.0 numba 0.53.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 balení 20.9
pandas 1.2.4 profilace pandas 3.0.0 pandocfilters 1.4.3
paramiko 2.7.2 parso 0.7.0 bábovka 0.5.1
petastorm 0.11.1 pexpect 4.8.0 Phik 0.12.0
pickleshare 0.7.5 Polštář 8.2.0 jádro 21.0.1
plotly 4.14.3 prometheus-client 0.11.0 prompt-toolkit 3.0.17
prorok 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2,20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 žádosti 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Opakování... 1.3.3
rsa 4.7.2 s3transfer 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 Shap 0.39.0
simplejson 3.17.2 Šest 1.15.0 kráječ 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 sqlparse 0.4.1
ssh-import-id 5.10 statsmodels 0.12.2 sestavit v tabulku 0.8.7
tangled-up-in-unicode 0.1.0 tensorboard 2.5.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow 2.5.0 tensorflow-estimator 2.5.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
threadpoolctl 2.1.0 pochodeň 1.9.0+cu111 torchvision 0.10.0+cu111
tornádo 6.1 tqdm 4.59.0 vlastnosti 5.0.5
typing-extensions 3.7.4.3 ujson 4.0.2 bezobslužné upgrady 0,1
urllib3 1.25.11 virtualenv 20.4.1 vize 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 kolo 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2

Balíčky Spark obsahující moduly Pythonu

Balíček Spark Modul Pythonu Verze
graphframes graphframes 0.8.1-db3-spark3.1

Knihovny jazyka R

Knihovny jazyka R jsou identické s knihovnami jazyka R v Databricks Runtime 9.0.

Knihovny Java a Scala (cluster Scala 2.12)

Kromě knihoven Java a Scala v Databricks Runtime 9.0 obsahuje Databricks Runtime 9.0 ML následující jary:

Clustery procesoru

ID skupiny ID artefaktu Verze
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Clustery GPU

ID skupiny ID artefaktu Verze
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0