Databricks Runtime 10.2 pro ML (EoS)
Poznámka:
Podpora této verze Databricks Runtime skončila. Datum ukončení podpory najdete v tématu Historie ukončení podpory. Všechny podporované verze databricks Runtime najdete v poznámkách k verzi Databricks Runtime a kompatibilitu.
Databricks vydala tuto verzi v prosinci 2021.
Databricks Runtime 10.2 pro Machine Learning poskytuje připravené prostředí pro strojové učení a datové vědy založené na databricks Runtime 10.2 (EoS). Databricks Runtime ML obsahuje mnoho oblíbených knihoven strojového učení, včetně TensorFlow, PyTorch a XGBoost. Databricks Runtime ML zahrnuje AutoML, nástroj pro automatické trénování kanálů strojového učení. Databricks Runtime ML také podporuje distribuované trénování hlubokého učení pomocí Horovodu.
Další informace, včetně pokynů k vytvoření clusteru Databricks Runtime ML, najdete v tématu AI a strojové učení v Databricks.
Nové funkce a vylepšení
Databricks Runtime 10.2 ML je postaven na Databricks Runtime 10.2. Informace o novinkách v Databricks Runtime 10.2, včetně Apache Spark MLlib a SparkR, najdete ve zprávě k vydání verze Databricks Runtime 10.2 (EoS ).
Automatickélogování Databricks (Public Preview)
Automatické protokolování Databricks je teď ve verzi Public Preview ve všech oblastech. Autologování Databricks je řešení bez kódu, které poskytuje automatické sledování experimentů pro trénovací relace strojového učení v Azure Databricks. Díky automatickému protokolování Datbricks, parametrům modelu, metrikám, souborům a informacím rodokmenu se automaticky zaznamenávají při trénování modelů z různých oblíbených knihoven strojového učení. Trénovací relace se zaznamenávají jako běhy sledování MLflow. Soubory modelů jsou také sledovány, takže je můžete snadno protokolovat do registru modelů MLflow a nasadit je pro bodování v reálném čase pomocí MLflow Model Serving.
Další informace o automatickémlogování Databricks najdete v tématu Automatickélogování Databricks.
Vylepšení autoML
V AutoML jsme provedli následující vylepšení.
- AutoML ignoruje sloupce, které mají pouze jednu hodnotu.
- U problémů s klasifikací a regresí teď může být sloupec času použitý k rozdělení datové sady na trénovací, ověřovací a testovací sady chronologicky typ řetězce. Dříve se podporovalo pouze časové razítko a celé číslo. Podrobnosti najdete v tématu Rozdělení dat do trénovacích, ověřovacích a testovacích sad .
Vylepšení úložiště funkcí Databricks
V úložišti funkcí Databricks jsme provedli následující vylepšení.
Zjednodušené FeatureStoreClient
rozhraní
Zjednodušili jsme rozhraní FeatureStoreClient.
FeatureStoreClient.create_feature_table()
už je zastaralý. Místo toho použijteFeatureStoreClient.create_table()
.FeatureStoreClient.get_feature_table()
už je zastaralý. Místo toho použijteFeatureStoreClient.get_table()
.- Všechny argumenty jiné
FeatureStoreClient.publish_table()
nežname
aonline_store
musí být předány jako argumenty klíčového slova.
Publikování jenom vybraných sloupců do online obchodů
Úložiště funkcí Databricks teď podporuje publikování jenom vybraných sloupců do online obchodu. Další informace najdete v tématu Publikování vybraných funkcí do online obchodu.
Hlavní změny prostředí Databricks Runtime ML v Pythonu
Automatická integrace sledování MLflow pro Apache Spark MLlib, která byla v Databricks Runtime 10.1 ML zastaralá, je teď ve výchozím nastavení v Databricks Runtime 10.2 ML zakázaná. Nahradila ji integrace automatickéhologování PySpark ML MLflow, která je ve výchozím nastavení povolená automatickýmlogováním Databricks. Automatické zaznamenávání dalších informací nad rámec toho, co automatizované sledování MLflow pro MLlib zachytilo, včetně parametrů, metrik a artefaktů přidružených k nejlepšímu modelu.
Upgradované balíčky Pythonu
- databricks-cli 0.14.3 => 0.16.2
- keras 2.6.0 => 2.7.0
- lightgbm 3.3.0 => 3.3.1
- mlflow 1.21.0 => 1,22.0
- plotly 5.3.0 => 5.3.1
- shap 0.39.0 => 0.40.0
- spacy 3.1.3 => 3.2.0
- tensorboard 2.6.0 => 2.7.0
- tensorflow 2.6.0 => 2.7.0
- torch 1.9.1 => 1.10.0
- torchvision 0.10.1 => 0.11.1
- transformátory 4.11.3 => 4,12.3
- xgboost 1,4.2 => 1,5.0
Prostředí systému
Systémové prostředí v Databricks Runtime 10.2 ML se liší od Databricks Runtime 10.2 následujícím způsobem:
- DBUtils: Databricks Runtime ML nezahrnuje nástroj knihovny (dbutils.library) (starší verze).
Místo toho použijte
%pip
příkazy. Další informace najdete v tématu Knihovny Pythonu v rámci poznámkových bloků - Pro clustery GPU zahrnuje Databricks Runtime ML následující knihovny NVIDIA GPU:
- CUDA 11.0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
Knihovny
Následující části obsahují seznam knihoven zahrnutých v Databricks Runtime 10.2 ML, které se liší od knihoven zahrnutých v Databricks Runtime 10.2.
V této části:
- Knihovny nejvyšší úrovně
- Knihovny Pythonu
- Knihovny jazyka R
- Knihovny Java a Scala (cluster Scala 2.12)
Knihovny nejvyšší úrovně
Databricks Runtime 10.2 ML obsahuje následující knihovny nejvyšší úrovně:
- GraphFrames
- Horovod a HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Knihovny Pythonu
Databricks Runtime 10.2 ML používá Virtualenv pro správu balíčků Pythonu a obsahuje mnoho oblíbených balíčků ML.
Kromě balíčků uvedených v následujících částech obsahuje Databricks Runtime 10.2 ML také následující balíčky:
- hyperopt 0.2.7.db1
- sparkdl 2.2.0-db5
- feature_store 0.3.6
- automl 1.5.0
Knihovny Pythonu v clusterech procesorů
Knihovna | Verze | Knihovna | Verze | Knihovna | Verze |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1,10 | attrs | 20.3.0 | backcall | 0.2.0 |
šifra | 3.2.0 | bidict | 0.21.4 | bělit | 3.3.0 |
blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | katalog | 2.0.6 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | kliknutí | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | kryptografie | 3.4.7 | cyklista | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.4 |
Databricks-cli | 0.16.2 | dbus-python | 1.2.16 | dekoratér | 5.0.6 |
defusedxml | 0.7.1 | kopr | 0.3.2 | diskcache | 5.2.1 |
distlib | 0.3.3 | informace o distribuci | 0.23ubuntu1 | vstupní body | 0.3 |
ephem | 4.1.1 | přehled omezujících vlastností | 1.0.0 | fasttext | 0.9.2 |
filelock | 3.0.12 | Flask | 1.1.2 | flatbuffers | 2.0 |
fsspec | 0.9.0 | budoucnost | 0.18.2 | Gast | 0.4.0 |
gitdb | 4.0.7 | GitPython | 3.1.12 | google-auth | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grpcio | 1.39.0 |
gunicorn | 20.0.4 | gviz-api | 1.10.0 | h5py | 3.1.0 |
hijri-converter | 2.2.2 | prázdniny | 0.11.3.1 | horovod | 0.23.0 |
htmlmin | 0.1.12 | huggingface-hub | 0.1.2 | idna | 2.10 |
ImageHash | 4.2.1 | nevyvážené učení | 0.8.1 | importlib-metadata | 3.10.0 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodate | 0.6.0 | jehodangerous | 1.1.0 |
Jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgety | 1.0.0 | keras | 2.7.0 | Předběžné zpracování Kerasu | 1.1.2 |
verizonsolver | 1.3.1 | Koaly | 1.8.2 | korejský lunární kalendář | 0.2.1 |
langcodes | 3.3.0 | libclang | 12.0.0 | lightgbm | 3.3.1 |
llvmlite | 0.37.0 | LunárníCalendar | 0.0.9 | Druh žraloka | 1.1.3 |
Markdown | 3.3.3 | MarkupSafe | 2.0.1 | matplotlib | 3.4.2 |
missingno | 0.5.0 | špatně zamyšlení | 0.8.4 | mleap | 0.18.1 |
mlflow-hubená | 1.22.0 | multimethod | 1.6 | murmurhash | 1.0.5 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2.5 | nltk | 3.6.1 |
poznámkový blok | 6.3.0 | numba | 0.54.1 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | balení | 21.3 |
pandas | 1.2.4 | profilace pandas | 3.1.0 | pandocfilters | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | pathy | 0.6.0 |
bábovka | 0.5.1 | petastorm | 0.11.3 | pexpect | 4.8.0 |
Phik | 0.12.0 | pickleshare | 0.7.5 | Polštář | 8.2.0 |
jádro | 21.0.1 | plotly | 5.3.1 | předběžně připravený | 3.0.5 |
prometheus-client | 0.10.1 | prompt-toolkit | 3.0.17 | prorok | 1.0.1 |
protobuf | 3.17.2 | psutil | 5.8.0 | psycopg2 | 2.8.5 |
ptyprocess | 0.7.0 | pyarrow | 4.0.0 | pyasn1 | 0.4.8 |
pyasn1-modules | 0.2.8 | pybind11 | 2.8.1 | pycparser | 2,20 |
pydantic | 1.8.2 | Pygments | 2.8.1 | PyGObject | 3.36.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.4.0 | pyodbc | 4.0.30 |
pyparsing | 2.4.7 | pyrsistent | 0.17.3 | pystan | 2.19.1.1 |
python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 | python-editor | 1.0.4 |
python-engineio | 4.3.0 | python-socketio | 5.4.1 | pytz | 2020.5 |
PyWavelets | 1.1.1 | PyYAML | 5.4.1 | pyzmq | 20.0.0 |
regex | 2021.4.4 | žádosti | 2.25.1 | requests-oauthlib | 1.3.0 |
requests-unixsocket | 0.2.0 | rsa | 4.7.2 | s3transfer | 0.3.7 |
sacremoses | 0.0.46 | scikit-learn | 0.24.1 | scipy | 1.6.2 |
seaborn | 0.11.1 | Send2Trash | 1.5.0 | setuptools | 52.0.0 |
setuptools-git | 1.2 | Shap | 0.40.0 | simplejson | 3.17.2 |
Šest | 1.15.0 | kráječ | 0.0.7 | inteligentní otevření | 5.2.0 |
smmap | 3.0.5 | spacy | 3.2.0 | spacy-legacy | 3.0.8 |
spacy-loggers | 1.0.1 | spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 |
srsly | 2.4.1 | ssh-import-id | 5.10 | statsmodels | 0.12.2 |
sestavit v tabulku | 0.8.7 | tangled-up-in-unicode | 0.1.0 | houževnatost | 6.2.0 |
tensorboard | 2.7.0 | tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.5.0 |
tensorboard-plugin-wit | 1.8.0 | tensorflow-cpu | 2.7.0 | tensorflow-estimator | 2.7.0 |
tensorflow-io-gcs-filesystem | 0.22.0 | termcolor | 1.1.0 | terminado | 0.9.4 |
testpath | 0.4.4 | tenká | 8.0.12 | threadpoolctl | 2.1.0 |
tokenizátory | 0.10.3 | pochodeň | 1.10.0+cpu | torchvision | 0.11.1+cpu |
tornádo | 6.1 | tqdm | 4.59.0 | vlastnosti | 5.0.5 |
Transformátory | 4.12.3 | Typer | 0.3.2 | typing-extensions | 3.7.4.3 |
ujson | 4.0.2 | bezobslužné upgrady | 0,1 | urllib3 | 1.25.11 |
virtualenv | 20.4.1 | vize | 0.7.4 | wasabi | 0.8.2 |
wcwidth | 0.2.5 | webencodings | 0.5.1 | websocket-client | 0.57.0 |
Werkzeug | 1.0.1 | kolo | 0.36.2 | widgetsnbextension | 3.5.1 |
wrapt | 1.12.1 | xgboost | 1.5.0 | zipp | 3.4.1 |
Knihovny Pythonu v clusterech GPU
Knihovna | Verze | Knihovna | Verze | Knihovna | Verze |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1,10 | attrs | 20.3.0 | backcall | 0.2.0 |
šifra | 3.2.0 | bidict | 0.21.4 | bělit | 3.3.0 |
blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | katalog | 2.0.6 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | kliknutí | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | kryptografie | 3.4.7 | cyklista | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.4 |
Databricks-cli | 0.16.2 | dbus-python | 1.2.16 | dekoratér | 5.0.6 |
defusedxml | 0.7.1 | kopr | 0.3.2 | diskcache | 5.2.1 |
distlib | 0.3.3 | informace o distribuci | 0.23ubuntu1 | vstupní body | 0.3 |
ephem | 4.1.1 | přehled omezujících vlastností | 1.0.0 | fasttext | 0.9.2 |
filelock | 3.0.12 | Flask | 1.1.2 | flatbuffers | 2.0 |
fsspec | 0.9.0 | budoucnost | 0.18.2 | Gast | 0.4.0 |
gitdb | 4.0.7 | GitPython | 3.1.12 | google-auth | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grpcio | 1.39.0 |
gunicorn | 20.0.4 | gviz-api | 1.10.0 | h5py | 3.1.0 |
hijri-converter | 2.2.2 | prázdniny | 0.11.3.1 | horovod | 0.23.0 |
htmlmin | 0.1.12 | huggingface-hub | 0.1.2 | idna | 2.10 |
ImageHash | 4.2.1 | nevyvážené učení | 0.8.1 | importlib-metadata | 3.10.0 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodate | 0.6.0 | jehodangerous | 1.1.0 |
Jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgety | 1.0.0 | keras | 2.7.0 | Předběžné zpracování Kerasu | 1.1.2 |
verizonsolver | 1.3.1 | Koaly | 1.8.2 | korejský lunární kalendář | 0.2.1 |
langcodes | 3.3.0 | libclang | 12.0.0 | lightgbm | 3.3.1 |
llvmlite | 0.37.0 | LunárníCalendar | 0.0.9 | Druh žraloka | 1.1.3 |
Markdown | 3.3.3 | MarkupSafe | 2.0.1 | matplotlib | 3.4.2 |
missingno | 0.5.0 | špatně zamyšlení | 0.8.4 | mleap | 0.18.1 |
mlflow-hubená | 1.22.0 | multimethod | 1.6 | murmurhash | 1.0.5 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2.5 | nltk | 3.6.1 |
poznámkový blok | 6.3.0 | numba | 0.54.1 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | balení | 21.3 |
pandas | 1.2.4 | profilace pandas | 3.1.0 | pandocfilters | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | pathy | 0.6.0 |
bábovka | 0.5.1 | petastorm | 0.11.3 | pexpect | 4.8.0 |
Phik | 0.12.0 | pickleshare | 0.7.5 | Polštář | 8.2.0 |
jádro | 21.0.1 | plotly | 5.3.1 | předběžně připravený | 3.0.5 |
prompt-toolkit | 3.0.17 | prorok | 1.0.1 | protobuf | 3.17.2 |
psutil | 5.8.0 | psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
pybind11 | 2.8.1 | pycparser | 2,20 | pydantic | 1.8.2 |
Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.4.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
pyrsistent | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.6 |
python-dateutil | 2.8.1 | python-editor | 1.0.4 | python-engineio | 4.3.0 |
python-socketio | 5.4.1 | pytz | 2020.5 | PyWavelets | 1.1.1 |
PyYAML | 5.4.1 | pyzmq | 20.0.0 | regex | 2021.4.4 |
žádosti | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
rsa | 4.7.2 | s3transfer | 0.3.7 | sacremoses | 0.0.46 |
scikit-learn | 0.24.1 | scipy | 1.6.2 | seaborn | 0.11.1 |
Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
Shap | 0.40.0 | simplejson | 3.17.2 | Šest | 1.15.0 |
kráječ | 0.0.7 | inteligentní otevření | 5.2.0 | smmap | 3.0.5 |
spacy | 3.2.0 | spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | srsly | 2.4.1 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | sestavit v tabulku | 0.8.7 |
tangled-up-in-unicode | 0.1.0 | houževnatost | 6.2.0 | tensorboard | 2.7.0 |
tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.0 |
tensorflow | 2.7.0 | tensorflow-estimator | 2.7.0 | tensorflow-io-gcs-filesystem | 0.22.0 |
termcolor | 1.1.0 | terminado | 0.9.4 | testpath | 0.4.4 |
tenká | 8.0.12 | threadpoolctl | 2.1.0 | tokenizátory | 0.10.3 |
pochodeň | 1.10.0+cu111 | torchvision | 0.11.1+cu111 | tornádo | 6.1 |
tqdm | 4.59.0 | vlastnosti | 5.0.5 | Transformátory | 4.12.3 |
Typer | 0.3.2 | typing-extensions | 3.7.4.3 | ujson | 4.0.2 |
bezobslužné upgrady | 0,1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
vize | 0.7.4 | wasabi | 0.8.2 | wcwidth | 0.2.5 |
webencodings | 0.5.1 | websocket-client | 0.57.0 | Werkzeug | 1.0.1 |
kolo | 0.36.2 | widgetsnbextension | 3.5.1 | wrapt | 1.12.1 |
xgboost | 1.5.0 | zipp | 3.4.1 |
Balíčky Spark obsahující moduly Pythonu
Balíček Spark | Modul Pythonu | Verze |
---|---|---|
graphframes | graphframes | 0.8.2-db1-spark3.2 |
Knihovny jazyka R
Knihovny R jsou stejné jako knihovny R v Databricks Runtime 10.2.
Knihovny Java a Scala (cluster Scala 2.12)
Kromě knihoven Java a Scala v Databricks Runtime 10.2 obsahuje Databricks Runtime 10.2 ML následující žádosti o přijetí změn:
Clustery procesoru
ID skupiny | ID artefaktu | Verze |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.1 |
ml.dmlc | xgboost4j_2.12 | 1.5.1 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.22.0 |
org.mlflow | mlflow-spark | 1.22.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Clustery GPU
ID skupiny | ID artefaktu | Verze |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.1 |
ml.dmlc | xgboost4j_2.12 | 1.5.1 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.22.0 |
org.mlflow | mlflow-spark | 1.22.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |