Sdílet prostřednictvím


Databricks Runtime 10.1 pro ML (EoS)

Poznámka:

Podpora této verze Databricks Runtime skončila. Datum ukončení podpory najdete v tématu Historie ukončení podpory. Všechny podporované verze databricks Runtime najdete v poznámkách k verzi Databricks Runtime a kompatibilitu.

Databricks Runtime 10.1 pro Machine Learning poskytuje připravené prostředí pro strojové učení a datové vědy založené na databricks Runtime 10.1 (EoS). Databricks Runtime ML obsahuje mnoho oblíbených knihoven strojového učení, včetně TensorFlow, PyTorch a XGBoost. Podporuje také distribuované trénování hlubokého učení pomocí Horovodu.

Další informace, včetně pokynů k vytvoření clusteru Databricks Runtime ML, najdete v tématu AI a strojové učení v Databricks.

Nové funkce a vylepšení

Databricks Runtime 10.1 ML je postaven na Databricks Runtime 10.1. Informace o novinkách v Databricks Runtime 10.1, včetně Apache Spark MLlib a SparkR, najdete ve zprávě k vydání verze Databricks Runtime 10.1 (EoS).

Vylepšení autoML

AutoML zahrnuje ve službě Databricks Runtime 10.1 vylepšenou sémantickou detekci typu, nová upozornění na potenciální problémy s daty během trénování, nové funkce, které brání přeurčení modelů a možnost rozdělit vstupní datovou sadu na trénovací, ověřovací a testovací sady chronologicky.

Další sémantické detekce typů

AutoML teď podporuje další sémantickou detekci typu:

  • Číselné sloupce, které obsahují popisky kategorií, se považují za kategorický typ.
  • Řetězcové sloupce, které obsahují anglický text, se považují za textovou funkci.

Teď můžete také přidat poznámky k zadání datového typu sloupce. Podrobnosti najdete v tématu Detekce sémantických typů.

Upozornění během trénování pro potenciální problémy s daty

AutoML teď detekuje a generuje výstrahy pro potenciální problémy s datovou sadou. Mezi ukázkové výstrahy patří nepodporované typy sloupců a sloupce s vysokou kardinalitou. Tato upozornění se zobrazí na stránce experimentu pod novou kartou Výstrahy . Do poznámkového bloku pro zkoumání dat jsou zahrnuty další informace o výstrahách. Další informace najdete v tématu Spuštění experimentu a monitorování výsledků.

Zmenšené přeurčení modelu

Dvě nové funkce snižují riziko přeurčení modelu při použití AutoML:

  • AutoML teď hlásí testovací metriky navíc k metrikám ověřování a trénování.
  • AutoML teď používá předčasné zastavení. Pokud se metrika ověřování už nelepší, zastaví trénování a ladění modelů.

Rozdělení datové sady do trénovacích/ověřovacích/testovacích sad chronologicky

U problémů s klasifikací a regresí můžete datovou sadu rozdělit na trénovací, ověřovací a testovací sady chronologicky. Podrobnosti najdete v tématu Rozdělení dat do trénovacích, ověřovacích a testovacích sad .

Vylepšení úložiště funkcí Databricks

Úložiště funkcí Databricks teď podporuje další datové typy pro tabulky funkcí: BinaryType, DecimalTypea MapType.

Mlflow

Od mlflow verze 1.21.0 jsou k dispozici následující vylepšení, která jsou součástí Databricks Runtime 10.1 ML.

  • [Modely] Upgradujte variantu fastai modelu tak, aby podporovala fastai v2 (2.4.1 a vyšší).
  • [Modely] Představujeme příchuť modelu mlflow.prorok pro modely časových řad Proroka.
  • [Bodování] Oprava chyby vynucení schématu, která nesprávně přetypovává řetězce typu datum na objekty datetime.

Hyperopt

SparkTrials nyní podporuje early_stopping_fn parametr pro fmin. Pomocí počáteční zastavovací funkce můžete určit podmínky, kdy má Hyperopt zastavit ladění hyperparametrů před dosažením maximálního počtu vyhodnocení. Tento parametr můžete například použít k ukončení ladění, pokud už cílová funkce neklesne. Podrobnosti najdete v tématu fmin().

Hlavní změny prostředí Databricks Runtime ML v Pythonu

Upgradované balíčky Pythonu

  • automl 1.3.1 => 1.4.1
  • feature_store 0.3.4 => 0,3.5
  • svátky 0.11.2 => 0.11.3.1
  • horovod 0.22.1 => 0,23.0
  • hyperopt 0.2.5.db2 => 0.2.5.db4
  • nevyvážené učení 0.8.0 => 0.8.1
  • lightgbm 3.1.1 => 3.3.0
  • mlflow 1.20.2 => 1.21.0
  • petastorm 0.11.2 => 0,11.3
  • plotly 5.1.0 => 5.3.0
  • pytorch 1.9.0 => 1,9.1
  • spacy 3.1.2 => 3.1.3
  • sparkdl 2.2.0_db3 => 2.2.0_db4
  • torchvision 0.10.0 => 0.10.1
  • transformátory 4.9.2 => 4.11.3

Přidané balíčky Pythonu

  • fasttext => 0,9.2
  • tensorboard-plugin-profile => 2.5.0

Zastaralé

Automatizované sledování MLflow MLlib je zastaralé v clusterech, na kterých běží Databricks Runtime 10.1 ML a novější. Místo toho použijte automatickélogování MLflow PySpark ML voláním mlflow.pyspark.ml.autolog(). Automatické přihlašování je ve výchozím nastavení povolené pomocí automatickéhologování Databricks.

Prostředí systému

Systémové prostředí v Databricks Runtime 10.1 ML se liší od Databricks Runtime 10.1 následujícím způsobem:

Knihovny

Následující části obsahují seznam knihoven zahrnutých v Databricks Runtime 10.1 ML, které se liší od knihoven zahrnutých v Databricks Runtime 10.1.

V této části:

Knihovny nejvyšší úrovně

Databricks Runtime 10.1 ML obsahuje následující knihovny nejvyšší úrovně:

Knihovny Pythonu

Databricks Runtime 10.1 ML používá Virtualenv ke správě balíčků Pythonu a obsahuje mnoho oblíbených balíčků ML.

Kromě balíčků uvedených v následujících částech obsahuje Databricks Runtime 10.1 ML také následující balíčky:

  • hyperopt 0.2.5.db4
  • sparkdl 2.2.0-db4
  • feature_store 0.3.5
  • automl 1.4.0

Poznámka:

Databricks Runtime 10.1 ML obsahuje scikit-learn verze 0.24 místo verze 1.0 kvůli problémům s nekompatibilitou. Balíček scikit-learn komunikuje s mnoha dalšími balíčky v Databricks Runtime 10.1 ML.

Můžete upgradovat na scikit-learn verze 1.0; Databricks ale tuto verzi nepodporuje.

Pokud chcete upgradovat, použijte knihovny s vymezeným poznámkovým blokem. Z poznámkového bloku spusťte %pip install --upgrade "scikit-learn>=1.0,<1.1"příkaz .

Alternativou je použít tento inicializační skript clusteru:

#!/bin/bash

set -e

pip install --upgrade "scikit-learn>=1.0,<1.1"

Knihovny Pythonu v clusterech procesorů

Knihovna Verze Knihovna Verze Knihovna Verze
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
šifra 3.2.0 bělit 3.3.0 blis 0.7.4
boto3 1.16.7 botocore 1.19.7 cachetools 4.2.4
katalog 2.0.6 certifi 2020.12.5 cffi 1.14.5
chardet 4.0.0 znít 5,0 kliknutí 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 kryptografie 3.4.7 cyklista 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.3
Databricks-cli 0.14.3 dbus-python 1.2.16 dekoratér 5.0.6
defusedxml 0.7.1 kopr 0.3.2 diskcache 5.2.1
distlib 0.3.3 informace o distribuci 0.23ubuntu1 vstupní body 0.3
ephem 4.1 přehled omezujících vlastností 1.0.0 fasttext 0.9.2
filelock 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 budoucnost 0.18.2 Gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-converter 2.2.2 prázdniny 0.11.3.1 horovod 0.23.0
htmlmin 0.1.12 huggingface-hub 0.0.19 idna 2.10
ImageHash 4.2.1 nevyvážené učení 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 jehodangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgety 1.0.0 keras 2.6.0 Předběžné zpracování Kerasu 1.1.2
verizonsolver 1.3.1 Koaly 1.8.2 korejský lunární kalendář 0.2.1
lightgbm 3.3.0 llvmlite 0.37.0 LunárníCalendar 0.0.9
Druh žraloka 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 špatně zamyšlení 0.8.4
mleap 0.18.1 mlflow-hubená 1.21.0 multimethod 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 poznámkový blok 6.3.0 numba 0.54.1
numpy 1.19.2 oauthlib 3.1.0 opt-einsum 3.3.0
balení 20.9 pandas 1.2.4 profilace pandas 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 bábovka 0.5.1 petastorm 0.11.3
pexpect 4.8.0 Phik 0.12.0 pickleshare 0.7.5
Polštář 8.2.0 jádro 21.0.1 plotly 5.3.0
předběžně připravený 3.0.5 prometheus-client 0.10.1 prompt-toolkit 3.0.17
prorok 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.8.0
pycparser 2,20 pydantic 1.8.2 Pygments 2.8.1
PyGObject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc 4.0.30 pyparsing 2.4.7 pyrsistent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1
python-editor 1.0.4 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 regex 2021.4.4
žádosti 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
rsa 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn 0.24.1 scipy 1.6.2 seaborn 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1.2
Shap 0.39.0 simplejson 3.17.2 Šest 1.15.0
kráječ 0.0.7 inteligentní otevření 5.2.0 smmap 3.0.5
spacy 3.1.3 spacy-legacy 3.0.8 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 srsly 2.4.1 ssh-import-id 5.10
statsmodels 0.12.2 sestavit v tabulku 0.8.7 tangled-up-in-unicode 0.1.0
houževnatost 6.2.0 tensorboard 2.6.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.5.0 tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.6.0
tensorflow-estimator 2.6.0 termcolor 1.1.0 terminado 0.9.4
testpath 0.4.4 tenká 8.0.9 threadpoolctl 2.1.0
tokenizátory 0.10.3 pochodeň 1.9.1+cpu torchvision 0.10.1+cpu
tornádo 6.1 tqdm 4.59.0 vlastnosti 5.0.5
Transformátory 4.11.3 Typer 0.3.2 typing-extensions 3.7.4.3
ujson 4.0.2 bezobslužné upgrady 0,1 urllib3 1.25.11
virtualenv 20.4.1 vize 0.7.4 wasabi 0.8.2
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.57.0
Werkzeug 1.0.1 kolo 0.36.2 widgetsnbextension 3.5.1
wrapt 1.12.1 xgboost 1.4.2 zipp 3.4.1

Knihovny Pythonu v clusterech GPU

Knihovna Verze Knihovna Verze Knihovna Verze
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 astunparse 1.6.3
async-generator 1,10 attrs 20.3.0 backcall 0.2.0
šifra 3.2.0 bělit 3.3.0 blis 0.7.4
boto3 1.16.7 botocore 1.19.7 cachetools 4.2.4
katalog 2.0.6 certifi 2020.12.5 cffi 1.14.5
chardet 4.0.0 znít 5,0 kliknutí 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertdate 2.3.2 kryptografie 3.4.7 cyklista 0.10.0
cymem 2.0.5 Cython 0.29.23 databricks-automl-runtime 0.2.3
Databricks-cli 0.14.3 dbus-python 1.2.16 dekoratér 5.0.6
defusedxml 0.7.1 kopr 0.3.2 diskcache 5.2.1
distlib 0.3.3 informace o distribuci 0.23ubuntu1 vstupní body 0.3
ephem 4.1 přehled omezujících vlastností 1.0.0 fasttext 0.9.2
filelock 3.0.12 Flask 1.1.2 flatbuffers 1.12
fsspec 0.9.0 budoucnost 0.18.2 Gast 0.4.0
gitdb 4.0.7 GitPython 3.1.12 google-auth 1.22.1
google-auth-oauthlib 0.4.2 google-pasta 0.2.0 grpcio 1.39.0
gunicorn 20.0.4 gviz-api 1.10.0 h5py 3.1.0
hijri-converter 2.2.2 prázdniny 0.11.3.1 horovod 0.23.0
htmlmin 0.1.12 huggingface-hub 0.0.19 idna 2.10
ImageHash 4.2.1 nevyvážené učení 0.8.1 importlib-metadata 3.10.0
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.3 isodate 0.6.0 jehodangerous 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
jupyter-client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgety 1.0.0 keras 2.6.0 Předběžné zpracování Kerasu 1.1.2
verizonsolver 1.3.1 Koaly 1.8.2 korejský lunární kalendář 0.2.1
lightgbm 3.3.0 llvmlite 0.37.0 LunárníCalendar 0.0.9
Druh žraloka 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.0 špatně zamyšlení 0.8.4
mleap 0.18.1 mlflow-hubená 1.21.0 multimethod 1.6
murmurhash 1.0.5 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2.5
nltk 3.6.1 poznámkový blok 6.3.0 numba 0.54.1
numpy 1.19.2 oauthlib 3.1.0 opt-einsum 3.3.0
balení 20.9 pandas 1.2.4 profilace pandas 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
pathy 0.6.0 bábovka 0.5.1 petastorm 0.11.3
pexpect 4.8.0 Phik 0.12.0 pickleshare 0.7.5
Polštář 8.2.0 jádro 21.0.1 plotly 5.3.0
předběžně připravený 3.0.5 prompt-toolkit 3.0.17 prorok 1.0.1
protobuf 3.17.2 psutil 5.8.0 psycopg2 2.8.5
ptyprocess 0.7.0 pyarrow 4.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.8.1 pycparser 2,20
pydantic 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.4.0 pyodbc 4.0.30
pyparsing 2.4.7 pyrsistent 0.17.3 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 python-dateutil 2.8.1 python-editor 1.0.4
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 žádosti 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 rsa 4.7.2
s3transfer 0.3.7 sacremoses 0.0.46 scikit-learn 0.24.1
scipy 1.6.2 seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 Shap 0.39.0
simplejson 3.17.2 Šest 1.15.0 kráječ 0.0.7
inteligentní otevření 5.2.0 smmap 3.0.5 spacy 3.1.3
spacy-legacy 3.0.8 spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1
srsly 2.4.1 ssh-import-id 5.10 statsmodels 0.12.2
sestavit v tabulku 0.8.7 tangled-up-in-unicode 0.1.0 houževnatost 6.2.0
tensorboard 2.6.0 tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.5.0
tensorboard-plugin-wit 1.8.0 tensorflow 2.6.0 tensorflow-estimator 2.6.0
termcolor 1.1.0 terminado 0.9.4 testpath 0.4.4
tenká 8.0.9 threadpoolctl 2.1.0 tokenizátory 0.10.3
pochodeň 1.9.1+cu111 torchvision 0.10.1+cu111 tornádo 6.1
tqdm 4.59.0 vlastnosti 5.0.5 Transformátory 4.11.3
Typer 0.3.2 typing-extensions 3.7.4.3 ujson 4.0.2
bezobslužné upgrady 0,1 urllib3 1.25.11 virtualenv 20.4.1
vize 0.7.4 wasabi 0.8.2 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.57.0 Werkzeug 1.0.1
kolo 0.36.2 widgetsnbextension 3.5.1 wrapt 1.12.1
xgboost 1.4.2 zipp 3.4.1

Balíčky Spark obsahující moduly Pythonu

Balíček Spark Modul Pythonu Verze
graphframes graphframes 0.8.2-db1-spark3.2

Knihovny jazyka R

Knihovny jazyka R jsou identické s knihovnami jazyka R v Databricks Runtime 10.1.

Knihovny Java a Scala (cluster Scala 2.12)

Kromě knihoven Java a Scala v Databricks Runtime 10.1 obsahuje Databricks Runtime 10.1 ML následující žádosti o přijetí změn:

Clustery procesoru

ID skupiny ID artefaktu Verze
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db6-spark3.2
org.mlflow mlflow-client 1.20.2
org.mlflow mlflow-spark 1.20.2
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Clustery GPU

ID skupiny ID artefaktu Verze
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1-spark3.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.21.0
org.mlflow mlflow-spark 1.21.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0