Udostępnij za pośrednictwem


Databricks Runtime 10.4 LTS for Machine Learning

Środowisko Databricks Runtime 10.4 LTS for Machine Learning zapewnia gotowe do użycia środowisko do uczenia maszynowego i nauki o danych oparte na środowisku Databricks Runtime 10.4 LTS. Środowisko Databricks Runtime ML zawiera wiele popularnych bibliotek uczenia maszynowego, w tym TensorFlow, PyTorch i XGBoost. Środowisko Databricks Runtime ML obejmuje rozwiązanie AutoML— narzędzie do automatycznego trenowania potoków uczenia maszynowego. Środowisko Databricks Runtime ML obsługuje również trenowanie rozproszonego uczenia głębokiego przy użyciu struktury Horovod.

Uwaga

LTS oznacza, że ta wersja jest objęta długoterminową pomocą techniczną. Zobacz Cykl życia wersji LTS środowiska Databricks Runtime.

Aby uzyskać więcej informacji, w tym instrukcje dotyczące tworzenia klastra uczenia maszynowego usługi Databricks Runtime, zobacz Sztuczna inteligencja i uczenie maszynowe w usłudze Databricks.

Napiwek

Aby wyświetlić informacje o wersji środowiska Databricks Runtime, które osiągnęły koniec wsparcia technicznego (EoS), zobacz End-of-support Databricks Runtime release notes (Informacje o wersji środowiska Databricks Runtime). Wersje środowiska Uruchomieniowego usługi EoS Databricks zostały wycofane i mogą nie zostać zaktualizowane.

Nowe funkcje i ulepszenia

Środowisko Databricks Runtime 10.4 LTS ML jest oparte na środowisku Databricks Runtime 10.4 LTS. Aby uzyskać informacje na temat nowości w środowisku Databricks Runtime 10.4 LTS, w tym apache Spark MLlib i SparkR, zobacz informacje o wersji środowiska Databricks Runtime 10.4 LTS .

Ulepszenia rozwiązania AutoML

Następujące ulepszenia zostały wprowadzone do rozwiązania AutoML.

Rozwiązanie AutoML jest ogólnie dostępne

Począwszy od środowiska Databricks Runtime 10.4 LTS ML, rozwiązanie AutoML jest ogólnie dostępne.

Imputacja brakujących wartości

Teraz możesz określić, w jaki sposób wartości null są przypisywane. Domyślnie rozwiązanie AutoML wybiera metodę imputacji na podstawie typu kolumny i zawartości. Aby uzyskać szczegółowe informacje, zobacz Impute missing values (Impute missing values ).

Wybór kolumny z interfejsu użytkownika

W przypadku problemów klasyfikacji i regresji można teraz używać interfejsu użytkownika oprócz interfejsu API do określania kolumn, które mają być ignorowane przez rozwiązanie AutoML podczas wykonywania obliczeń. Zobacz Wybór kolumny.

Nowy typ danych

Rozwiązanie AutoML obsługuje teraz typy tablic liczbowych.

Niestandardowa lokalizacja wygenerowanych notesów i eksperymentów

Teraz możesz określić lokalizację w obszarze roboczym, w którym rozwiązanie AutoML powinno zapisywać wygenerowane notesy i eksperymenty. Użyj parametru experiment_dir . Zobacz Dokumentację interfejsu API języka Python rozwiązania AutoML.

Ulepszenia magazynu funkcji usługi Databricks

Następujące ulepszenia zostały wprowadzone w usłudze Databricks Feature Store.

  • Teraz możesz zarejestrować istniejącą tabelę delty jako tabelę funkcji.

Środowisko systemu

Środowisko systemowe w środowisku Databricks Runtime 10.4 LTS ML różni się od środowiska Databricks Runtime 10.4 LTS w następujący sposób:

Biblioteki

W poniższych sekcjach wymieniono biblioteki zawarte w środowisku Databricks Runtime 10.4 LTS ML, które różnią się od bibliotek zawartych w środowisku Databricks Runtime 10.4 LTS.

W tej sekcji:

Biblioteki najwyższego poziomu

Środowisko Databricks Runtime 10.4 LTS ML obejmuje następujące biblioteki najwyższego poziomu:

Biblioteki języka Python

Środowisko Databricks Runtime 10.4 LTS ML używa usługi Virtualenv do zarządzania pakietami języka Python i zawiera wiele popularnych pakietów uczenia maszynowego.

Oprócz pakietów określonych w poniższych sekcjach środowisko Databricks Runtime 10.4 LTS ML zawiera również następujące pakiety:

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0-db5
  • feature_store 0.3.8
  • automl 1.7.2

Biblioteki języka Python w klastrach procesora CPU

Aby odtworzyć środowisko Języka Python środowiska Databricks Runtime ML w lokalnym środowisku wirtualnym języka Python, pobierz plik requirements-10.4.txt i uruchom polecenie pip install -r requirements-10.4.txt. To polecenie instaluje wszystkie biblioteki typu open source używane przez usługę Databricks Runtime ML, ale nie instaluje bibliotek opracowanych przez usługę Azure Databricks, takich jak databricks-automl, databricks-feature-storelub rozwidlenie usługi Databricks .hyperopt

Biblioteka Wersja Biblioteka Wersja Biblioteka Wersja
absl-py 0.11.0 Antergos Linux 2015.10 (rolling ISO) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 bidict 0.21.4 wybielacz 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 katalog 2.0.6 certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 kliknięcie 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
konwertuj 2.3.2 kryptografia 3.4.7 rowerzysta 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.6
databricks-cli 0.16.3 dbl-tempo 0.1.2 dbus-python 1.2.16
dekorator 5.0.6 defusedxml 0.7.1 koper 0.3.2
diskcache 5.2.1 distlib 0.3.4 dystrybucja informacji 0.23ubuntu1
punkty wejścia 0.3 efem 4.1.3 aspekty — omówienie 1.0.0
fasttext 0.9.2 filelock 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 przyszłość 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 makaron google 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 konwerter hidżri 2.2.3 wakacje 0,12
horovod 0.23.0 htmlmin 0.1.12 przytulanieface-hub 0.1.2
idna 2.10 ImageHash 4.2.1 niezrównoważona nauka 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
jegodangerous 1.1.0 jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.8.0
Przetwarzanie wstępne protokołu Keras 1.1.2 kiwisolver 1.3.1 Koale 1.8.2
koreański kalendarz księżycowy 0.2.1 langcodes 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 KsiężycowyCalendar 0.0.9
Mako 1.1.3 Znaczniki języka Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.1 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.24.0 multimethod 1,7
szmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2,5
nltk 3.6.1 notes 6.3.0 numba 0.55.1
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
opakowanie 21,3 Pandas 1.2.4 Profilowanie biblioteki pandas 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 Patsy 0.5.1 petastorm 0.11.4
pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Poduszka 8.2.0 21.0.1 kreślenie 5.5.0
pmdarima 1.8.4 preshed 3.0.5 prometheus-client 0.10.1
prompt-toolkit 3.0.17 prorok 1.0.1 protobuf 3.17.2
psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
pyarrow 4.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.9.1 pycparser 2,20 pydantic 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.4.0 pyodbc 4.0.30 pyparsing 2.4.7
pirstent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7
python-dateutil 2.8.1 Python-editor 1.0.4 python-engineio 4.3.0
python-socketio 5.4.1 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 regex 2021.4.4
żądania 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 scipy 1.6.2 seaborn 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1.2
Shap 0.40.0 simplejson 3.17.2 Sześć 1.15.0
krajalnica 0.0.7 smart-open 5.2.0 smmap 3.0.5
spacy 3.2.1 spacy-legacy 3.0.8 spacy-loggers 1.0.1
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 srsly 2.4.1
ssh-import-id 5.10 statsmodels 0.12.2 tabulacji 0.8.7
splątane-up-in-unicode 0.1.0 Wytrzymałość 6.2.0 tablica tensorboard 2.8.0
tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1
tensorflow-cpu 2.8.0 tensorflow-estimator 2.8.0 tensorflow-io-gcs-filesystem 0.24.0
termcolor 1.1.0 terminado 0.9.4 ścieżka testowa 0.4.4
tf-estimator-nightly 2.8.0.dev2021212109 cienki 8.0.12 threadpoolctl 2.1.0
tokenizatory 0.10.3 pochodnia 1.10.2+procesor torchvision 0.11.3+procesor
tornado 6.1 tqdm 4.59.0 traitlety 5.0.5
Transformatory 4.16.2 typer 0.3.2 wpisywanie rozszerzeń 3.7.4.3
ujson 4.0.2 nienadzorowane uaktualnienia 0.1 urllib3 1.25.11
virtualenv 20.4.1 Wizje 0.7.4 wasabi 0.8.2
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 koło 0.36.2 widgetsnbextension 3.5.1
zawijanie 1.12.1 xgboost 1.5.2 zipp 3.4.1

Biblioteki języka Python w klastrach gpu

Biblioteka Wersja Biblioteka Wersja Biblioteka Wersja
absl-py 0.11.0 Antergos Linux 2015.10 (rolling ISO) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1.10 attrs 20.3.0 backcall 0.2.0
bcrypt 3.2.0 bidict 0.21.4 wybielacz 3.3.0
blis 0.7.4 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 katalog 2.0.6 certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 kliknięcie 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
konwertuj 2.3.2 kryptografia 3.4.7 rowerzysta 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.6
databricks-cli 0.16.3 dbl-tempo 0.1.2 dbus-python 1.2.16
dekorator 5.0.6 defusedxml 0.7.1 koper 0.3.2
diskcache 5.2.1 distlib 0.3.4 dystrybucja informacji 0.23ubuntu1
punkty wejścia 0.3 efem 4.1.3 aspekty — omówienie 1.0.0
fasttext 0.9.2 filelock 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 przyszłość 0.18.2
Gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 makaron google 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 konwerter hidżri 2.2.3 wakacje 0,12
horovod 0.23.0 htmlmin 0.1.12 przytulanieface-hub 0.1.2
idna 2.10 ImageHash 4.2.1 niezrównoważona nauka 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
jegodangerous 1.1.0 jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.8.0
Przetwarzanie wstępne protokołu Keras 1.1.2 kiwisolver 1.3.1 Koale 1.8.2
koreański kalendarz księżycowy 0.2.1 langcodes 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 KsiężycowyCalendar 0.0.9
Mako 1.1.3 Znaczniki języka Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.1 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.24.0 multimethod 1,7
szmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2,5
nltk 3.6.1 notes 6.3.0 numba 0.55.1
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
opakowanie 21,3 Pandas 1.2.4 Profilowanie biblioteki pandas 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 Patsy 0.5.1 petastorm 0.11.4
pexpect 4.8.0 phik 0.12.0 pickleshare 0.7.5
Poduszka 8.2.0 21.0.1 kreślenie 5.5.0
pmdarima 1.8.4 preshed 3.0.5 prompt-toolkit 3.0.17
prorok 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.9.1
pycparser 2,20 pydantic 1.8.2 Pygments 2.8.1
PyGObject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 pyparsing 2.4.7 pirstent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7 python-dateutil 2.8.1
Python-editor 1.0.4 python-engineio 4.3.0 python-socketio 5.4.1
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 żądania 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 rsa 4.7.2
s3transfer 0.3.7 sacremoses 0.0.46 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 Shap 0.40.0
simplejson 3.17.2 Sześć 1.15.0 krajalnica 0.0.7
smart-open 5.2.0 smmap 3.0.5 spacy 3.2.1
spacy-legacy 3.0.8 spacy-loggers 1.0.1 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 srsly 2.4.1 ssh-import-id 5.10
statsmodels 0.12.2 tabulacji 0.8.7 splątane-up-in-unicode 0.1.0
Wytrzymałość 6.2.0 tablica tensorboard 2.8.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.1 tensorflow 2.8.0
tensorflow-estimator 2.8.0 tensorflow-io-gcs-filesystem 0.24.0 termcolor 1.1.0
terminado 0.9.4 ścieżka testowa 0.4.4 tf-estimator-nightly 2.8.0.dev2021212109
cienki 8.0.12 threadpoolctl 2.1.0 tokenizatory 0.10.3
pochodnia 1.10.2+cu111 torchvision 0.11.3+cu111 tornado 6.1
tqdm 4.59.0 traitlety 5.0.5 Transformatory 4.16.2
typer 0.3.2 wpisywanie rozszerzeń 3.7.4.3 ujson 4.0.2
nienadzorowane uaktualnienia 0.1 urllib3 1.25.11 virtualenv 20.4.1
Wizje 0.7.4 wasabi 0.8.2 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
koło 0.36.2 widgetsnbextension 3.5.1 zawijanie 1.12.1
xgboost 1.5.2 zipp 3.4.1

Pakiety platformy Spark zawierające moduły języka Python

Pakiet Platformy Spark Moduł języka Python Wersja
ramki grafu ramki grafu 0.8.2-db1-spark3.2

Biblioteki R

Biblioteki języka R są identyczne z bibliotekami języka R w środowisku Databricks Runtime 10.4 LTS.

Biblioteki Java i Scala (klaster Scala 2.12)

Oprócz bibliotek Java i Scala w środowisku Databricks Runtime 10.4 LTS środowisko Databricks Runtime 10.4 LTS ML zawiera następujące elementy JAR:

Klastry procesora CPU

Identyfikator grupy Identyfikator artefaktu Wersja
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Klastry procesora GPU

Identyfikator grupy Identyfikator artefaktu Wersja
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0