Databricks Runtime 10.4 LTS pro Machine Learning
Databricks Runtime 10.4 LTS for Machine Learning poskytuje připravené prostředí pro strojové učení a datové vědy založené na databricks Runtime 10.4 LTS. Databricks Runtime ML obsahuje mnoho oblíbených knihoven strojového učení, včetně TensorFlow, PyTorch a XGBoost. Databricks Runtime ML zahrnuje AutoML, nástroj pro automatické trénování kanálů strojového učení. Databricks Runtime ML také podporuje distribuované trénování hlubokého učení pomocí Horovodu.
Poznámka:
LTS znamená, že tato verze je dlouhodobě podporována. Viz životní cyklus verze LTS modulu Databricks Runtime.
Další informace, včetně pokynů k vytvoření clusteru Databricks Runtime ML, najdete v tématu AI a strojové učení v Databricks.
Tip
Poznámky k verzi pro verze Databricks Runtime, které dosáhly konce podpory (EoS), najdete v poznámkách k verzi Databricks Runtime pro ukončení podpory. Verze EoS Databricks Runtime byly vyřazeny a nemusí se aktualizovat.
Nové funkce a vylepšení
Databricks Runtime 10.4 LTS ML je postaven na Databricks Runtime 10.4 LTS. Informace o novinkách v Databricks Runtime 10.4 LTS, včetně Apache Spark MLlib a SparkR, najdete v poznámkách k verzi Databricks Runtime 10.4 LTS .
Vylepšení autoML
V AutoML jsme provedli následující vylepšení.
AutoML je obecně k dispozici.
Počínaje modulem Databricks Runtime 10.4 LTS ML je služba AutoML obecně dostupná.
Doplnění chybějících values
Teď můžete určit, jak budou imputovány values null. AutoML ve výchozím nastavení vybere metodu imputace na základě typu column a obsahu. Podrobnosti najdete v Výpočet chybějících values.
Column výběr z uživatelského rozhraní
U problémů s klasifikací a regresí teď můžete pomocí uživatelského rozhraní kromě rozhraní API určit columns, které by autoML mělo během výpočtů ignorovat. Viz Column výběr.
Nový datový typ
AutoML teď podporuje číselné typy polí.
Vlastní umístění vygenerovaných poznámkových bloků a experimentu
Teď můžete zadat umístění v pracovním prostoru where AutoML by mělo ukládat vygenerované poznámkové bloky a experimenty.
experiment_dir
Použijte parametr. Viz referenční informace k rozhraní Python API pro AutoML.
Vylepšení úložiště funkcí Databricks
V úložišti funkcí Databricks jsme provedli následující vylepšení.
- Nyní můžete zaregistrovat existující Delta table jako funkci table.
Prostředí systému
Systémové prostředí v Databricks Runtime 10.4 LTS ML se liší od Databricks Runtime 10.4 LTS následujícím způsobem:
-
DBUtils: Databricks Runtime ML nezahrnuje nástroj knihovny (dbutils.library) (starší verze).
Místo toho použijte
%pip
příkazy. Další informace najdete v tématu Knihovny Pythonu v rámci poznámkových bloků - Pro clustery GPU zahrnuje Databricks Runtime ML následující knihovny NVIDIA GPU:
- CUDA 11.0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
Knihovny
Následující části list se týkají knihoven zahrnutých v Databricks Runtime 10.4 LTS ML, které se liší od těch v Databricks Runtime 10.4 LTS.
V této části:
- Knihovny nejvyšší úrovně
- Knihovny Pythonu
- Knihovny jazyka R
- Knihovny Java a Scala (cluster Scala 2.12)
Knihovny nejvyšší úrovně
Databricks Runtime 10.4 LTS ML obsahuje následující knihovny nejvyšší úrovně:
- GraphFrames
- Horovod a HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Knihovny Pythonu
Databricks Runtime 10.4 LTS ML používá virtualenv pro správu balíčků Pythonu a obsahuje mnoho oblíbených balíčků ML.
Kromě balíčků uvedených v následujících částech obsahuje Databricks Runtime 10.4 LTS ML také následující balíčky:
- hyperopt 0.2.7.db1
- sparkdl 2.2.0-db5
- feature_store 0.3.8
- automl 1.7.2
Knihovny Pythonu v clusterech procesorů
Pokud chcete reprodukovat prostředí Databricks Runtime ML Python v místním virtuálním prostředí Pythonu, stáhněte si soubor requirements-10.4.txt a spusťte pip install -r requirements-10.4.txt
. Tento příkaz nainstaluje všechny opensourcové knihovny, které Databricks Runtime ML používá, ale nenainstaluje knihovny vyvinuté v Azure Databricks, například databricks-automl
, databricks-feature-store
nebo fork Databricks fork hyperopt
.
Knihovna | Verze | Knihovna | Verze | Knihovna | Verze |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1,10 | attrs | 20.3.0 | backcall | 0.2.0 |
šifra | 3.2.0 | bidict | 0.21.4 | bělit | 3.3.0 |
blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | katalog | 2.0.6 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | kliknutí | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | kryptografie | 3.4.7 | cyklista | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.6 |
Databricks-cli | 0.16.3 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
dekoratér | 5.0.6 | defusedxml | 0.7.1 | kopr | 0.3.2 |
diskcache | 5.2.1 | distlib | 0.3.4 | informace o distribuci | 0.23ubuntu1 |
vstupní body | 0.3 | ephem | 4.1.3 | přehled omezujících vlastností | 1.0.0 |
fasttext | 0.9.2 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 2.0 | fsspec | 0.9.0 | budoucnost | 0.18.2 |
Gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | hijri-converter | 2.2.3 | prázdniny | 0.12 |
horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
idna | 2.10 | ImageHash | 4.2.1 | nevyvážené učení | 0.8.1 |
importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
jehodangerous | 1.1.0 | Jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgety | 1.0.0 | keras | 2.8.0 |
Předběžné zpracování Kerasu | 1.1.2 | verizonsolver | 1.3.1 | Koaly | 1.8.2 |
korejský lunární kalendář | 0.2.1 | langcodes | 3.3.0 | libclang | 13.0.0 |
lightgbm | 3.3.2 | llvmlite | 0.38.0 | LunárníCalendar | 0.0.9 |
Druh žraloka | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno | 0.5.1 | špatně zamyšlení | 0.8.4 |
mleap | 0.18.1 | mlflow-hubená | 1.24.0 | multimethod | 1,7 |
murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2.5 |
nltk | 3.6.1 | poznámkový blok | 6.3.0 | numba | 0.55.1 |
numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
balení | 21.3 | pandas | 1.2.4 | profilace pandas | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
pathy | 0.6.0 | bábovka | 0.5.1 | petastorm | 0.11.4 |
pexpect | 4.8.0 | Phik | 0.12.0 | pickleshare | 0.7.5 |
Polštář | 8.2.0 | jádro | 21.0.1 | plotly | 5.5.0 |
pmdarima | 1.8.4 | předběžně připravený | 3.0.5 | prometheus-client | 0.10.1 |
prompt-toolkit | 3.0.17 | prorok | 1.0.1 | protobuf | 3.17.2 |
psutil | 5.8.0 | psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
pybind11 | 2.9.1 | pycparser | 2,20 | pydantic | 1.8.2 |
Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.4.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
pyrsistent | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 |
python-dateutil | 2.8.1 | python-editor | 1.0.4 | python-engineio | 4.3.0 |
python-socketio | 5.4.1 | pytz | 2020.5 | PyWavelets | 1.1.1 |
PyYAML | 5.4.1 | pyzmq | 20.0.0 | regex | 2021.4.4 |
žádosti | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
rsa | 4.7.2 | s3transfer | 0.3.7 | sacremoses | 0.0.46 |
scikit-learn | 0.24.1 | scipy | 1.6.2 | seaborn | 0.11.1 |
Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
Shap | 0.40.0 | simplejson | 3.17.2 | Šest | 1.15.0 |
kráječ | 0.0.7 | inteligentní otevření | 5.2.0 | smmap | 3.0.5 |
spacy | 3.2.1 | spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | srsly | 2.4.1 |
ssh-import-id | 5.10 | statsmodels | 0.12.2 | sestavit v tabulku | 0.8.7 |
tangled-up-in-unicode | 0.1.0 | houževnatost | 6.2.0 | tensorboard | 2.8.0 |
tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.1 |
tensorflow-cpu | 2.8.0 | tensorflow-estimator | 2.8.0 | tensorflow-io-gcs-filesystem | 0.24.0 |
termcolor | 1.1.0 | terminado | 0.9.4 | testpath | 0.4.4 |
tf-estimator-nightly | 2.8.0.dev2021122109 | tenká | 8.0.12 | threadpoolctl | 2.1.0 |
tokenizátory | 0.10.3 | pochodeň | 1.10.2+cpu | torchvision | 0.11.3+cpu |
tornádo | 6.1 | tqdm | 4.59.0 | vlastnosti | 5.0.5 |
Transformátory | 4.16.2 | Typer | 0.3.2 | typing-extensions | 3.7.4.3 |
ujson | 4.0.2 | bezobslužné upgrady | 0,1 | urllib3 | 1.25.11 |
virtualenv | 20.4.1 | vize | 0.7.4 | wasabi | 0.8.2 |
wcwidth | 0.2.5 | webencodings | 0.5.1 | websocket-client | 0.57.0 |
Werkzeug | 1.0.1 | kolo | 0.36.2 | widgetsnbextension | 3.5.1 |
wrapt | 1.12.1 | xgboost | 1.5.2 | zipp | 3.4.1 |
Knihovny Pythonu v clusterech GPU
Knihovna | Verze | Knihovna | Verze | Knihovna | Verze |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1,10 | attrs | 20.3.0 | backcall | 0.2.0 |
šifra | 3.2.0 | bidict | 0.21.4 | bělit | 3.3.0 |
blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | katalog | 2.0.6 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | kliknutí | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
convertdate | 2.3.2 | kryptografie | 3.4.7 | cyklista | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.6 |
Databricks-cli | 0.16.3 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
dekoratér | 5.0.6 | defusedxml | 0.7.1 | kopr | 0.3.2 |
diskcache | 5.2.1 | distlib | 0.3.4 | informace o distribuci | 0.23ubuntu1 |
vstupní body | 0.3 | ephem | 4.1.3 | přehled omezujících vlastností | 1.0.0 |
fasttext | 0.9.2 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 2.0 | fsspec | 0.9.0 | budoucnost | 0.18.2 |
Gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | hijri-converter | 2.2.3 | prázdniny | 0.12 |
horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
idna | 2.10 | ImageHash | 4.2.1 | nevyvážené učení | 0.8.1 |
importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
jehodangerous | 1.1.0 | Jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgety | 1.0.0 | keras | 2.8.0 |
Předběžné zpracování Kerasu | 1.1.2 | verizonsolver | 1.3.1 | Koaly | 1.8.2 |
korejský lunární kalendář | 0.2.1 | langcodes | 3.3.0 | libclang | 13.0.0 |
lightgbm | 3.3.2 | llvmlite | 0.38.0 | LunárníCalendar | 0.0.9 |
Druh žraloka | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno | 0.5.1 | špatně zamyšlení | 0.8.4 |
mleap | 0.18.1 | mlflow-hubená | 1.24.0 | multimethod | 1,7 |
murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2.5 |
nltk | 3.6.1 | poznámkový blok | 6.3.0 | numba | 0.55.1 |
numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
balení | 21.3 | pandas | 1.2.4 | profilace pandas | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
pathy | 0.6.0 | bábovka | 0.5.1 | petastorm | 0.11.4 |
pexpect | 4.8.0 | Phik | 0.12.0 | pickleshare | 0.7.5 |
Polštář | 8.2.0 | jádro | 21.0.1 | plotly | 5.5.0 |
pmdarima | 1.8.4 | předběžně připravený | 3.0.5 | prompt-toolkit | 3.0.17 |
prorok | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pybind11 | 2.9.1 |
pycparser | 2,20 | pydantic | 1.8.2 | Pygments | 2.8.1 |
PyGObject | 3.36.0 | PyMeeus | 0.5.11 | PyNaCl | 1.4.0 |
pyodbc | 4.0.30 | pyparsing | 2.4.7 | pyrsistent | 0.17.3 |
pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 | python-dateutil | 2.8.1 |
python-editor | 1.0.4 | python-engineio | 4.3.0 | python-socketio | 5.4.1 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | regex | 2021.4.4 | žádosti | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | rsa | 4.7.2 |
s3transfer | 0.3.7 | sacremoses | 0.0.46 | scikit-learn | 0.24.1 |
scipy | 1.6.2 | seaborn | 0.11.1 | Send2Trash | 1.5.0 |
setuptools | 52.0.0 | setuptools-git | 1.2 | Shap | 0.40.0 |
simplejson | 3.17.2 | Šest | 1.15.0 | kráječ | 0.0.7 |
inteligentní otevření | 5.2.0 | smmap | 3.0.5 | spacy | 3.2.1 |
spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 | spark-tensorflow-distributor | 1.0.0 |
sqlparse | 0.4.1 | srsly | 2.4.1 | ssh-import-id | 5.10 |
statsmodels | 0.12.2 | sestavit v tabulku | 0.8.7 | tangled-up-in-unicode | 0.1.0 |
houževnatost | 6.2.0 | tensorboard | 2.8.0 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.1 | tensorflow | 2.8.0 |
tensorflow-estimator | 2.8.0 | tensorflow-io-gcs-filesystem | 0.24.0 | termcolor | 1.1.0 |
terminado | 0.9.4 | testpath | 0.4.4 | tf-estimator-nightly | 2.8.0.dev2021122109 |
tenká | 8.0.12 | threadpoolctl | 2.1.0 | tokenizátory | 0.10.3 |
pochodeň | 1.10.2+cu111 | torchvision | 0.11.3+cu111 | tornádo | 6.1 |
tqdm | 4.59.0 | vlastnosti | 5.0.5 | Transformátory | 4.16.2 |
Typer | 0.3.2 | typing-extensions | 3.7.4.3 | ujson | 4.0.2 |
bezobslužné upgrady | 0,1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
vize | 0.7.4 | wasabi | 0.8.2 | wcwidth | 0.2.5 |
webencodings | 0.5.1 | websocket-client | 0.57.0 | Werkzeug | 1.0.1 |
kolo | 0.36.2 | widgetsnbextension | 3.5.1 | wrapt | 1.12.1 |
xgboost | 1.5.2 | zipp | 3.4.1 |
Balíčky Spark obsahující moduly Pythonu
Balíček Spark | Modul Pythonu | Verze |
---|---|---|
graphframes | graphframes | 0.8.2-db1-spark3.2 |
Knihovny jazyka R
Knihovny R jsou stejné jako knihovny R v Databricks Runtime 10.4 LTS.
Knihovny Java a Scala (cluster Scala 2.12)
Kromě knihoven Java a Scala v Databricks Runtime 10.4 LTS obsahuje Databricks Runtime 10.4 LTS ML následující žádosti o přijetí změn:
Clustery procesoru
ID skupiny | ID artefaktu | Verze |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
ml.dmlc | xgboost4j_2.12 | 1.5.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.24.0 |
org.mlflow | mlflow-spark | 1.24.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Clustery GPU
ID skupiny | ID artefaktu | Verze |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
ml.dmlc | xgboost4j_2.12 | 1.5.2 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.24.0 |
org.mlflow | mlflow-spark | 1.24.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |