Databricks Runtime 9.0 for ML (EoS)
Uwaga
Obsługa tej wersji środowiska Databricks Runtime została zakończona. Aby uzyskać datę zakończenia pomocy technicznej, zobacz Historia zakończenia pomocy technicznej. Wszystkie obsługiwane wersje środowiska Databricks Runtime znajdziesz w informacjach o wersji i zgodności Databricks Runtime.
Usługa Databricks wydała tę wersję w sierpniu 2021 r.
Środowisko Databricks Runtime 9.0 for Machine Learning zapewnia gotowe do użycia środowisko do uczenia maszynowego i nauki o danych oparte na środowisku Databricks Runtime 9.0 (EoS). Środowisko Databricks Runtime ML zawiera wiele popularnych bibliotek uczenia maszynowego, w tym TensorFlow, PyTorch i XGBoost. Obsługuje również trenowanie rozproszonego uczenia głębokiego przy użyciu Horovod.
Aby uzyskać więcej informacji, w tym instrukcje dotyczące tworzenia klastra uczenia maszynowego usługi Databricks Runtime, zobacz Sztuczna inteligencja i uczenie maszynowe w usłudze Databricks.
Korekta
Poprzednia wersja tych informacji o wersji stwierdzała, że wsparcie dla monitorowania metryk GPU klastra za pomocą Ganglia zostało wyłączone w Databricks Runtime 9.0 ML GPU. Dotyczyło to środowiska Databricks Runtime 9.0 ML w wersji beta, ale problem został rozwiązany w wersji GA Databricks Runtime 9.0 ML. Oświadczenie zostało usunięte.
Nowe funkcje i ulepszenia
Środowisko Databricks Runtime 9.0 ML jest oparte na środowisku Databricks Runtime 9.0. Aby uzyskać informacje o nowościach w środowisku Databricks Runtime 9.0, w tym Apache Spark MLlib i SparkR, zobacz informacje o wersji środowiska Databricks Runtime 9.0 (EoS).
Automatyczne rejestrowanie (Databricks Autologging) (publiczna wersja zapoznawcza)
Automatyczne rejestrowanie w Databricks jest teraz dostępne w Databricks Runtime 9.0 do uczenia maszynowego w wybranych regionach. Automatyczne rejestrowanie usługi Databricks to rozwiązanie bez kodu, które zapewnia automatyczne śledzenie eksperymentów na potrzeby sesji uczenia maszynowego w usłudze Azure Databricks. Dzięki funkcji automatycznego rejestrowania usługi Databricks parametry modelu, metryki, pliki i informacje o pochodzeniu są automatycznie przechwytywane podczas trenowania modeli z różnych popularnych bibliotek uczenia maszynowego. Sesje szkoleniowe są rejestrowane jako MLflow Tracking Runs. Pliki modelu są również śledzone, dzięki czemu można je łatwo rejestrować w rejestrze modeli MLflow i wdrażać je na potrzeby oceniania w czasie rzeczywistym za pomocą usługi MLflow Model Serving.
Aby uzyskać więcej informacji na temat automatycznego rejestrowania w usłudze Databricks, zobacz Automatyczne rejestrowanie w usłudze Databricks.
Ulepszenia w Databricks Feature Store
Wydajność tworzenia zestawu szkoleniowego została ulepszona przez zminimalizowanie liczby sprzężeń w tabelach funkcji źródłowych.
Integracja biblioteki XGBoost z rozwiązaniem PySpark obsługuje teraz rozproszone trenowanie i klastry procesora GPU
Aby uzyskać szczegółowe informacje, zobacz Use XGBoost on Azure Databricks (Używanie biblioteki XGBoost w usłudze Azure Databricks).
Istotne zmiany w środowisku Python w Databricks Runtime ML
Środowiska Conda wraz z poleceniem %conda są usuwane. Środowisko Databricks Runtime 9.0 ML jest kompilowane za pomocą poleceń pip
i virtualenv
.
Niestandardowe obrazy korzystające ze środowisk opartych na Conda z Usługami Kontenerów Databricks będą nadal obsługiwane, ale nie będą miały funkcji bibliotek z zakresem notesu. Usługa Databricks rekomenduje używanie środowisk opartych na virtualenv z Usługami Kontenerowymi Databricks i %pip
dla wszystkich bibliotek powiązanych z notebookami.
Zobacz Databricks Runtime 9.0 (EoS) w celu zapoznania się z głównymi zmianami w środowisku Python dla Databricks Runtime. Aby uzyskać pełną listę zainstalowanych pakietów języka Python i ich wersji, zobacz Biblioteki języka Python.
Uaktualnione pakiety języka Python
- mlflow 1.18.0 -> 1.19.0
- nltk 3.5 -> 3.6.1
Dodane pakiety języka Python
- proroka 1.0.1
Usunięte pakiety języka Python
- MKL
- azure-core
- azure-storage-blob
- msrest
- docker
- querystring-parser
- intel-openmp
Przestarzałe i nieobsługiwane funkcje
- W środowisku Databricks Runtime 9.0 ML narzędzie HorovodRunner nie obsługuje ustawienia
np=0
, gdzienp
jest liczbą procesów równoległych do użycia dla zadania Horovod. - Środowisko Databricks Runtime 9.0 ML zawiera r-base 4.1.0 z silnikiem graficznym R w wersji 14. Nie jest to obsługiwane przez program RStudio Server w wersji 1.2.x.
-
nvprof
zostaje usunięty w środowisku Databricks Runtime 9.0 ML GPU.
Środowisko systemu
Środowisko systemowe w środowisku Databricks Runtime 9.0 ML różni się od środowiska Databricks Runtime 9.0 w następujący sposób:
-
DBUtils: Środowisko uruchomieniowe Databricks Runtime ML nie zawiera narzędzia biblioteki (dbutils.library) (wersja przestarzała).
Użyj zamiast tego poleceń
%pip
. Zobacz biblioteki Pythona przeznaczone dla notebooków. - W przypadku klastrów gpu środowisko Databricks Runtime ML obejmuje następujące biblioteki procesora GPU FIRMY NVIDIA:
- CUDA 11.0
- cuDNN 8.1.0.77
- NCCL 2.10.3
- TensorRT 7.2.2
Biblioteki
W poniższych sekcjach wymieniono biblioteki zawarte w środowisku Databricks Runtime 9.0 ML, które różnią się od bibliotek zawartych w środowisku Databricks Runtime 9.0.
W tej sekcji:
- Biblioteki najwyższego poziomu
- Biblioteki języka Python
- Biblioteki języka R
- Biblioteki Java i Scala (klaster Scala 2.12)
Biblioteki najwyższego poziomu
Środowisko Databricks Runtime 9.0 ML obejmuje następujące biblioteki najwyższego poziomu:
- GraphFrames
- Horovod i HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Biblioteki języka Python
Środowisko Databricks Runtime 9.0 ML używa usługi Virtualenv do zarządzania pakietami języka Python i zawiera wiele popularnych pakietów uczenia maszynowego.
Oprócz pakietów określonych w poniższych sekcjach środowisko Databricks Runtime 9.0 ML zawiera również następujące pakiety:
- hyperopt 0.2.5.db2
- sparkdl 2.2.0_db1
- feature_store 0.3.3
- automl 1.1.1
Biblioteki języka Python w klastrach procesora CPU
Biblioteka | Wersja | Biblioteka | Wersja | Biblioteka | Wersja |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
asynchroniczny generator | 1.10 | attrs | 20.3.0 | powrót wywołania | 0.2.0 |
bcrypt | 3.2.0 | wybielacz | 3.3.0 | boto3 | 1.16.7 |
botocore | 1.19.7 | Wąskie gardło | 1.3.2 | cachetools | 4.2.2 |
certifi | 2020.12.5 | cffi | 1.14.5 | chardet | 4.0.0 |
kliknij | 7.1.2 | cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 |
configparser | 5.0.1 | konwertuj datę | 2.3.2 | kryptografia | 3.4.7 |
rowerzysta | 0.10.0 | Cython | 0.29.23 | databricks-cli | 0.14.3 |
dbus-python | 1.2.16 | projektant wnętrz / aranżator | 5.0.6 | defusedxml | 0.7.1 |
koper | 0.3.2 | diskcache | 5.2.1 | distlib | 0.3.2 |
informacje o dystrybucji | 0.23ubuntu1 | punkty wejścia | 0,3 | efem | 4.0.0.2 |
aspekty — omówienie | 1.0.0 | blokada plików | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 1.12 | fsspec | 0.9.0 | przyszłość | 0.18.2 |
Gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
uwierzytelnianie Google | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grpcio | 1.34.1 | gunicorn | 20.0.4 | h5py | 3.1.0 |
konwerter hidżri | 2.1.3 | wakacje | 0.10.5.2 | korowód | 0.22.1 |
htmlmin | 0.1.12 | idna | 2.10 | ImageHash | 4.2.1 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.4 | isodate | 0.6.0 | jegodangerous | 1.1.0 |
jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.1 | keras-nightly | 2.5.0.dev2021032900 | Przetwarzanie wstępne Keras | 1.1.2 |
kiwisolver | 1.3.1 | Koale | 1.8.1 | koreański kalendarz księżycowy | 0.2.1 |
lightgbm | 3.1.1 | llvmlite | 0.36.0 | Kalendarz Księżycowy | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 1.1.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | rozstroić | 0.8.4 |
mleap | 0.17.0 | mlflow-skinny | 1.19.0 | multimethod | 1.4 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2,5 | nltk | 3.6.1 |
notatnik | 6.3.0 | numba | 0.53.1 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | opakowanie | 20.9 |
Pandas | 1.2.4 | Pandas-profiling | 3.0.0 | pandocfilters | 1.4.3 |
paramiko - biblioteka do protokołu SSH2 dla języka Python | 2.7.2 | parso | 0.7.0 | Patsy | 0.5.1 |
petastorm | 0.11.1 | pexpect | 4.8.0 | phik | 0.12.0 |
pickleshare | 0.7.5 | Poduszka | 8.2.0 | pip | 21.0.1 |
kreślenie | 4.14.3 | prometheus-client | 0.10.1 | prompt-toolkit | 3.0.17 |
prorok | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pycparser | 2,20 |
pydantic | 1.8.2 | Pygments | 2.8.1 | PyGObject | 3.36.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.3.0 | pyodbc | 4.0.30 |
pyparsing | 2.4.7 | pyrsistent | 0.17.3 | pystan | 2.19.1.1 |
python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 | Python-editor | 1.0.4 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | regex | 2021.4.4 | żądania | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | Ponawianie... | 1.3.3 |
rsa | 4.7.2 | s3transfer | 0.3.7 | scikit-learn | 0.24.1 |
scipy | 1.6.2 | seaborn | 0.11.1 | Send2Trash | 1.5.0 |
setuptools | 52.0.0 | setuptools-git | 1.2 | shap | 0.39.0 |
simplejson | 3.17.2 | Sześć | 1.15.0 | krajalnica | 0.0.7 |
smmap | 3.0.5 | spark-tensorflow-distributor | 0.1.0 | sqlparse | 0.4.1 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | tabelować | 0.8.7 |
splątane-w-unicode | 0.1.0 | TensorBoard | 2.5.0 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-wit | 1.8.0 | tensorflow-cpu | 2.5.0 | tensorflow-estimator | 2.5.0 |
termcolor | 1.1.0 | zakończony | 0.9.4 | ścieżka testowa | 0.4.4 |
threadpoolctl | 2.1.0 | pochodnia | 1.9.0+ procesor | torchvision | 0.10.0+procesor |
tornado | 6.1 | tqdm | 4.59.0 | Traitlets | 5.0.5 |
wpisywanie rozszerzeń | 3.7.4.3 | ujson | 4.0.2 | nienadzorowane uaktualnienia | 0.1 |
urllib3 | 1.25.11 | virtualenv | 20.4.1 | Wizje | 0.7.1 |
wcwidth | 0.2.5 | kodowania sieciowe | 0.5.1 | klient websocket | 0.57.0 |
Werkzeug | 1.0.1 | koło | 0.36.2 | widgetsnbextension | 3.5.1 |
zawijanie | 1.12.1 | xgboost | 1.4.2 |
Biblioteki języka Python w klastrach gpu
Biblioteka | Wersja | Biblioteka | Wersja | Biblioteka | Wersja |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
asynchroniczny generator | 1.10 | attrs | 20.3.0 | brak odpowiednika w języku polskim, może oznaczać specyficzny termin techniczny lub zwrot wymagający kontekstu | 0.2.0 |
bcrypt | 3.2.0 | wybielacz | 3.3.0 | boto3 | 1.16.7 |
botocore | 1.19.7 | Wąskie gardło | 1.3.2 | cachetools | 4.2.2 |
certifi | 2020.12.5 | cffi | 1.14.5 | chardet | 4.0.0 |
kliknij | 7.1.2 | cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 |
configparser | 5.0.1 | konwertujDatę | 2.3.2 | kryptografia | 3.4.7 |
rowerzysta | 0.10.0 | Cython | 0.29.23 | databricks-cli | 0.14.3 |
dbus-python | 1.2.16 | dekorator | 5.0.6 | defusedxml | 0.7.1 |
koper | 0.3.2 | diskcache | 5.2.1 | distlib | 0.3.2 |
informacja o dystrybucji | 0.23ubuntu1 | punkty wejścia | 0.3 | efem | 4.0.0.2 |
aspekty — omówienie | 1.0.0 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 1.12 | fsspec | 0.9.0 | przyszłość | 0.18.2 |
Gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | makaron Google | 0.2.0 |
grpcio | 1.34.1 | gunicorn | 20.0.4 | h5py | 3.1.0 |
konwerter hidżri | 2.1.3 | wakacje | 0.10.5.2 | horovod | 0.22.1 |
htmlmin | 0.1.12 | idna | 2.10 | ImageHash | 4.2.1 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.4 | isodate | 0.6.0 | jegodangerous | 1.1.0 |
jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
klient Jupyter | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.1 | keras-nightly | 2.5.0.dev2021032900 | Keras-Preprocessing | 1.1.2 |
kiwisolver | 1.3.1 | Koale | 1.8.1 | koreański kalendarz księżycowy | 0.2.1 |
lightgbm | 3.1.1 | llvmlite | 0.36.0 | Księżycowy Kalendarz | 0.0.9 |
Mako | 1.1.3 | Znaczniki języka Markdown | 3.3.3 | MarkupSafe | 1.1.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | źle dostroić | 0.8.4 |
mleap | 0.17.0 | mlflow-skinny | 1.19.0 | wielometoda | 1.4 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2,5 | nltk | 3.6.1 |
notatnik | 6.3.0 | numba | 0.53.1 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | opakowanie | 20.9 |
Pandas | 1.2.4 | pandas-profiling | 3.0.0 | pandocfilters | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | frajer | 0.5.1 |
petastorm | 0.11.1 | pexpect | 4.8.0 | phik | 0.12.0 |
pickleshare | 0.7.5 | Poduszka | 8.2.0 | pip | 21.0.1 |
kreślenie | 4.14.3 | prometheus-client | 0.11.0 | prompt-toolkit | 3.0.17 |
prorok | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pycparser | 2,20 |
pydantic | 1.8.2 | Pygments | 2.8.1 | PyGObject | 3.36.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.3.0 | pyodbc | 4.0.30 |
pyparsing | 2.4.7 | pyrsistent | 0.17.3 | PyStan | 2.19.1.1 |
python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 | Python-editor | 1.0.4 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | regex | 2021.4.4 | żądania | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | Ponawianie... | 1.3.3 |
rsa | 4.7.2 | s3transfer | 0.3.7 | scikit-learn | 0.24.1 |
scipy | 1.6.2 | seaborn | 0.11.1 | Send2Trash | 1.5.0 |
setuptools | 52.0.0 | setuptools-git | 1.2 | Shap | 0.39.0 |
simplejson | 3.17.2 | Sześć | 1.15.0 | krajalnica | 0.0.7 |
smmap | 3.0.5 | spark-tensorflow-distributor | 0.1.0 | sqlparse | 0.4.1 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | tabelować | 0.8.7 |
splątane-w-unicode | 0.1.0 | tablica tensorboard | 2.5.0 | Serwer danych TensorBoard | 0.6.1 |
tensorboard-plugin-wit | 1.8.0 | tensorflow | 2.5.0 | tensorflow-estimator (oszacowujący tensorflow) | 2.5.0 |
termcolor | 1.1.0 | ukończony | 0.9.4 | ścieżka testowa | 0.4.4 |
threadpoolctl | 2.1.0 | pochodnia | 1.9.0+cu111 | torchvision | 0.10.0+cu111 |
tornado | 6.1 | tqdm | 4.59.0 | traitlets | 5.0.5 |
rozszerzenia typowania | 3.7.4.3 | ujson | 4.0.2 | nienadzorowane uaktualnienia | 0.1 |
urllib3 | 1.25.11 | virtualenv | 20.4.1 | Wizje | 0.7.1 |
wcwidth | 0.2.5 | webencodings | 0.5.1 | websocket-client | 0.57.0 |
Werkzeug | 1.0.1 | koło | 0.36.2 | widgetsnbextension | 3.5.1 |
zawinięty | 1.12.1 | xgboost | 1.4.2 |
Pakiety platformy Spark zawierające moduły języka Python
Pakiet Spark | Moduł języka Python | Wersja |
---|---|---|
graphframes | graphframes | 0.8.1-db3-spark3.1 |
Biblioteki R
Biblioteki języka R są identyczne z bibliotekami języka R w środowisku Databricks Runtime 9.0.
Biblioteki Java i Scala (klaster Scala 2.12)
Oprócz bibliotek Java i Scala w środowisku Databricks Runtime 9.0 środowisko Databricks Runtime 9.0 ML zawiera następujące jednostki JAR:
Klastry procesora CPU
Identyfikator grupy | Identyfikator artefaktu | Wersja |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.17.0-4882dc3 |
ml.dmlc | xgboost4j-spark_2.12 | 1.4.1 |
ml.dmlc | xgboost4j_2.12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-spark3.1 |
org.mlflow | mlflow-client | 1.19.0 |
org.mlflow | mlflow-spark | 1.19.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Klastry procesora GPU
Identyfikator grupy | Identyfikator artefaktu | Wersja |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.17.0-4882dc3 |
ml.dmlc | xgboost4j-gpu_2.12 | 1.4.1 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-spark3.1 |
org.mlflow | mlflow-client | 1.19.0 |
org.mlflow | mlflow-spark | 1.19.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |