Dela via


Databricks Runtime 9.0 för ML (EoS)

Kommentar

Stödet för den här Databricks Runtime-versionen har upphört. Information om slutdatumet för support finns i Historik över supportens slut. Alla Databricks Runtime-versioner som stöds finns i Databricks Runtime-versionsanteckningar och kompatibilitet.

Databricks släppte den här versionen i augusti 2021.

Databricks Runtime 9.0 för Machine Learning ger en färdig miljö för maskininlärning och datavetenskap baserat på Databricks Runtime 9.0 (EoS). Databricks Runtime ML innehåller många populära maskininlärningsbibliotek, inklusive TensorFlow, PyTorch och XGBoost. Den stöder även distribuerad djupinlärningsträning med Horovod.

Mer information, inklusive instruktioner för att skapa ett Databricks Runtime ML-kluster, finns i AI och maskininlärning på Databricks.

Korrigering

I en tidigare version av dessa viktig information angavs att stöd för övervakning av klustrets GPU-mått med Ganglia inaktiverades i Databricks Runtime 9.0 ML GPU. Det var sant för Databricks Runtime 9.0 ML Beta, men problemet åtgärdades med Databricks Runtime 9.0 ML GA. -instruktionen har tagits bort.

Nya funktioner och förbättringar

Databricks Runtime 9.0 ML bygger på Databricks Runtime 9.0. Information om nyheter i Databricks Runtime 9.0, inklusive Apache Spark MLlib och SparkR, finns i viktig information om Databricks Runtime 9.0 (EoS).

Automatisk loggning av Databricks (offentlig förhandsversion)

Databricks Autologging är nu tillgängligt för Databricks Runtime 9.0 för Machine Learning i utvalda regioner. Databricks Autologging är en lösning utan kod som tillhandahåller automatisk experimentspårning för maskininlärningsträningssessioner i Azure Databricks. Med Databricks Autologging registreras modellparametrar, mått, filer och härkomstinformation automatiskt när du tränar modeller från en mängd populära maskininlärningsbibliotek. Utbildningssessioner registreras som MLflow Tracking Runs. Modellfiler spåras också så att du enkelt kan logga dem till MLflow Model Registry och distribuera dem för realtidsbedömning med MLflow Model Serving.

Mer information om Automatisk loggning av Databricks finns i Automatisk loggning av Databricks.

Förbättringar av Databricks-funktionsarkivet

Prestanda när du skapar en träningsuppsättning har förbättrats genom att minimera antalet kopplingar mellan källfunktionstabeller.

XGBoost-integrering med PySpark stöder nu distribuerade tränings- och GPU-kluster

Mer information finns i Använda XGBoost på Azure Databricks.

Större ändringar i Databricks Runtime ML Python-miljön

Conda-miljöer, tillsammans med kommandot %conda, tas bort. Databricks Runtime 9.0 ML skapas med pip och virtualenv. Anpassade avbildningar som använder Conda-baserade miljöer med Databricks Container Services stöds fortfarande, men har inte biblioteksfunktioner med notebook-omfattning. Databricks rekommenderar att du använder virtualenv-baserade miljöer med Databricks Container Services och %pip för alla bibliotek med notebook-omfång.

Se Databricks Runtime 9.0 (EoS) för större ändringar i Databricks Runtime Python-miljön. En fullständig lista över installerade Python-paket och deras versioner finns i Python-bibliotek.

Uppgraderade Python-paket

  • mlflow 1.18.0 -> 1.19.0
  • nltk 3.5 -> 3.6.1

Python-paket har lagts till

  • profeten 1.0.1

Python-paket har tagits bort

  • MKL
  • azure-core
  • azure-storage-blob
  • msrest
  • docker
  • querystring-parser
  • intel-openmp

Utfasningar och funktioner som inte stöds

  • I Databricks Runtime 9.0 ML stöder HorovodRunner inte inställningen np=0, där np är antalet parallella processer som ska användas för Horovod-jobbet.
  • Databricks Runtime 9.0 ML innehåller r-base 4.1.0 med R-grafikmotor version 14. Detta stöds inte av RStudio Server version 1.2.x.
  • nvprof tas bort i Databricks Runtime 9.0 ML GPU.

Systemmiljö

Systemmiljön i Databricks Runtime 9.0 ML skiljer sig från Databricks Runtime 9.0 på följande sätt:

Bibliotek

I följande avsnitt visas de bibliotek som ingår i Databricks Runtime 9.0 ML som skiljer sig från de som ingår i Databricks Runtime 9.0.

I detta avsnitt:

Bibliotek på den översta nivån

Databricks Runtime 9.0 ML innehåller följande bibliotek på den översta nivån:

Python-bibliotek

Databricks Runtime 9.0 ML använder Virtualenv för Python-pakethantering och innehåller många populära ML-paket.

Förutom de paket som anges i följande avsnitt innehåller Databricks Runtime 9.0 ML även följande paket:

  • hyperopt 0.2.5.db2
  • sparkdl 2.2.0_db1
  • feature_store 0.3.3
  • automl 1.1.1

Python-bibliotek i CPU-kluster

Bibliotek Version Bibliotek Version Bibliotek Version
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rullande) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 blekmedel 3.3.0 boto3 1.16.7
botocore 1.19.7 Flaskhals 1.3.2 cachetools 4.2.2
certifi 2020.12.5 cffi 1.14.5 chardet 4.0.0
klicka 7.1.2 cloudpickle 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 konvertera 2.3.2 kryptografi 3.4.7
cyklist 0.10.0 Cython 0.29.23 databricks-cli 0.14.3
dbus-python 1.2.16 dekoratör 5.0.6 defusedxml 0.7.1
dill 0.3.2 diskcache 5.2.1 distlib 0.3.2
distro-info 0.23ubuntu1 entrypoints 0,3 efem 4.0.0.2
facets-overview 1.0.0 filelock 3.0.12 Flask 1.1.2
flatbuffers 1.12 fsspec 0.9.0 framtid 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.34.1 gunicorn 20.0.4 h5py 3.1.0
hijri-converter 2.1.3 ferier 0.10.5.2 horovod 0.22.1
htmlmin 0.1.12 idna 2.10 ImageHash 4.2.1
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.1 keras-nightly 2.5.0.dev2021032900 Keras-förbearbetning 1.1.2
kiwisolver 1.3.1 Koalas 1.8.1 korean-lunar-calendar 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.19.0 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
notebook-fil 6.3.0 numba 0.53.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 emballage 20.9
Pandas 1.2.4 pandas-profilering 3.0.0 pandocfilter 1.4.3
paramiko 2.7.2 parso 0.7.0 Patsy 0.5.1
petastorm 0.11.1 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Kudde 8.2.0 pip 21.0.1
plotly 4.14.3 prometheus-client 0.10.1 prompt-toolkit 3.0.17
profet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2,20
pydantisk 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 begäranden 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Försöker igen... 1.3.3
RSA 4.7.2 s3transfer 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 Shap 0.39.0
simplejson 3.17.2 sex 1.15.0 Slicer 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 sqlparse 0.4.1
ssh-import-id 5,10 statsmodels 0.12.2 Tabellform 0.8.7
trasslig upp-i-unicode 0.1.0 tensorboard 2.5.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.5.0 tensorflow-estimator 2.5.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
threadpoolctl 2.1.0 fackla 1.9.0+cpu torchvision 0.10.0+cpu
tromb 6.1 tqdm 4.59.0 traitlets 5.0.5
skriva tillägg 3.7.4.3 ujson 4.0.2 obevakade uppgraderingar 0,1
urllib3 1.25.11 virtualenv 20.4.1 Visioner 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 hjul 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2

Python-bibliotek i GPU-kluster

Bibliotek Version Bibliotek Version Bibliotek Version
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rullande) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 blekmedel 3.3.0 boto3 1.16.7
botocore 1.19.7 Flaskhals 1.3.2 cachetools 4.2.2
certifi 2020.12.5 cffi 1.14.5 chardet 4.0.0
klicka 7.1.2 cloudpickle 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 konvertera 2.3.2 kryptografi 3.4.7
cyklist 0.10.0 Cython 0.29.23 databricks-cli 0.14.3
dbus-python 1.2.16 dekoratör 5.0.6 defusedxml 0.7.1
dill 0.3.2 diskcache 5.2.1 distlib 0.3.2
distro-info 0.23ubuntu1 entrypoints 0,3 efem 4.0.0.2
facets-overview 1.0.0 filelock 3.0.12 Flask 1.1.2
flatbuffers 1.12 fsspec 0.9.0 framtid 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.34.1 gunicorn 20.0.4 h5py 3.1.0
hijri-converter 2.1.3 ferier 0.10.5.2 horovod 0.22.1
htmlmin 0.1.12 idna 2.10 ImageHash 4.2.1
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 isodate 0.6.0 itsdangerous 1.1.0
jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.1 keras-nightly 2.5.0.dev2021032900 Keras-förbearbetning 1.1.2
kiwisolver 1.3.1 Koalas 1.8.1 korean-lunar-calendar 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 LunarCalendar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 missingno 0.5.0 mistune 0.8.4
mleap 0.17.0 mlflow-skinny 1.19.0 multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2.5 nltk 3.6.1
notebook-fil 6.3.0 numba 0.53.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 emballage 20.9
Pandas 1.2.4 pandas-profilering 3.0.0 pandocfilter 1.4.3
paramiko 2.7.2 parso 0.7.0 Patsy 0.5.1
petastorm 0.11.1 pexpect 4.8.0 phik 0.12.0
pickleshare 0.7.5 Kudde 8.2.0 pip 21.0.1
plotly 4.14.3 prometheus-client 0.11.0 prompt-toolkit 3.0.17
profet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pycparser 2,20
pydantisk 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 begäranden 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Försöker igen... 1.3.3
RSA 4.7.2 s3transfer 0.3.7 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 Shap 0.39.0
simplejson 3.17.2 sex 1.15.0 Slicer 0.0.7
smmap 3.0.5 spark-tensorflow-distributor 0.1.0 sqlparse 0.4.1
ssh-import-id 5,10 statsmodels 0.12.2 Tabellform 0.8.7
trasslig upp-i-unicode 0.1.0 tensorboard 2.5.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow 2.5.0 tensorflow-estimator 2.5.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
threadpoolctl 2.1.0 fackla 1.9.0+cu111 torchvision 0.10.0+cu111
tromb 6.1 tqdm 4.59.0 traitlets 5.0.5
skriva tillägg 3.7.4.3 ujson 4.0.2 obevakade uppgraderingar 0,1
urllib3 1.25.11 virtualenv 20.4.1 Visioner 0.7.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 hjul 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2

Spark-paket som innehåller Python-moduler

Spark-paket Python-modul Version
graphframes graphframes 0.8.1-db3-spark3.1

R-bibliotek

R-biblioteken är identiska med R-biblioteken i Databricks Runtime 9.0.

Java- och Scala-bibliotek (Scala 2.12-kluster)

Förutom Java- och Scala-bibliotek i Databricks Runtime 9.0 innehåller Databricks Runtime 9.0 ML följande JAR:er:

CPU-kluster

Grupp-ID Artefakt-ID Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU-kluster

Grupp-ID Artefakt-ID Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0