Databricks Runtime 9.1 LTS för Machine Learning
Databricks släppte den här bilden och förklarade den som långsiktig support (LTS) i september 2021.
Databricks Runtime 9.1 LTS for Machine Learning tillhandahåller en färdig miljö för maskininlärning och datavetenskap baserat på Databricks Runtime 9.1 LTS. Databricks Runtime ML innehåller många populära maskininlärningsbibliotek, inklusive TensorFlow, PyTorch och XGBoost. Databricks Runtime ML innehåller AutoML, ett verktyg för att automatiskt träna maskininlärningspipelines. Databricks Runtime ML stöder även distribuerad djupinlärningsträning med Horovod.
Kommentar
LTS innebär att den här versionen stöds på lång sikt. Se Livscykeln för Databricks Runtime LTS-versionen.
Mer information, inklusive instruktioner för att skapa ett Databricks Runtime ML-kluster, finns i AI och maskininlärning på Databricks.
Dricks
Information om hur du ser viktig information för Databricks Runtime-versioner som har nått supportens slut (EoS) finns i Viktig information om Databricks Runtime-slut. EoS Databricks Runtime-versionerna har dragits tillbaka och kanske inte uppdateras.
Nya funktioner och förbättringar
AutoML
Följande förbättringar är tillgängliga i Databricks Runtime 9.1 LTS ML och senare.
AutoML stöder större datamängder genom sampling
AutoML tar nu exempel på datauppsättningar som kan överskrida minnesbegränsningar, vilket gör att den kan köras på större datauppsättningar med mindre risk för minnesfel. Mer information finns i Sampling av stora datamängder.
AutoML förbearbetar kolumner baserat på semantisk typ
AutoML identifierar vissa kolumner som har en semantisk typ som skiljer sig från deras Spark- eller Pandas-datatyp. AutoML konverterar och tillämpar sedan förbearbetningssteg för data baserat på den identifierade semantiska typen. Mer specifikt utför AutoML följande konverteringar:
- Sträng- och heltalskolumner som representerar datum- eller tidsstämpeldata konverteras till en tidsstämpeltyp.
- Strängkolumner som representerar numeriska data konverteras till en numerisk typ.
Förbättringar av AutoML-genererade notebook-filer
Förbearbetningssteg för datum- och tidsstämpelkolumner ingår nu i databricks-automl-runtime
paketet, vilket förenklar de notebook-filer som genereras av AutoML-träning.
databricks-automl-runtime
ingår i Databricks Runtime 9.1 LTS ML och senare och är även tillgängligt på PyPI.
Funktionsarkiv
Följande förbättringar är tillgängliga i Databricks Runtime 9.1 LTS ML och senare.
- När du skapar en TrainingSet kan du nu ställa in
label=None
för att stödja oövervakade inlärningsprogram. - Nu kan du ange mer än en funktion i en enda
FeatureLookup
. - Nu kan du ange en anpassad sökväg för funktionstabeller. Använd parametern
path
icreate_feature_table()
. Standardvärdet är databasplatsen. - Nya PySpark-datatyper som stöds: ArrayType och ShortType.
Mlflow
Följande förbättringar är tillgängliga från och med Mlflow version 1.20.2, som ingår i Databricks Runtime 9.1 LTS ML.
- Automatisk loggning för scikit-learn registrerar nu mått efter träning när ett scikit-learn-utvärderings-API, till exempel
sklearn.metrics.mean_squared_error
, anropas. - Automatisk loggning för PySpark ML registrerar nu mått efter träning när ett API för modellutvärdering, till exempel
Evaluator.evaluate()
, anropas. -
mlflow.*.log_model
ochmlflow.*.save_model
nu harpip_requirements
ochextra_pip_requirements
argument så att du direkt kan ange pip-kraven för modellen för att logga eller spara. -
mlflow.*.log_model
ochmlflow.*.save_model
härled nu automatiskt pip-kraven för modellen för att logga eller spara baserat på den aktuella programvarumiljön. -
stdMetrics
poster registreras nu som träningsmått under automatisk loggning av PySpark CrossValidator. - PyTorch Lightning-automatisk loggning stöder nu distribuerad körning.
Automatisk loggning av Databricks (offentlig förhandsversion)
Den offentliga förhandsversionen av Databricks-automatisk loggning har utökats till nya regioner. Databricks Autologging är en lösning utan kod som tillhandahåller automatisk experimentspårning för maskininlärningsträningssessioner i Azure Databricks. Med Databricks Autologging registreras modellparametrar, mått, filer och härkomstinformation automatiskt när du tränar modeller från en mängd populära maskininlärningsbibliotek. Utbildningssessioner registreras som MLflow Tracking Runs. Modellfiler spåras också så att du enkelt kan logga dem till MLflow Model Registry och distribuera dem för realtidsbedömning med MLflow Model Serving.
Mer information om Automatisk loggning av Databricks finns i Automatisk loggning av Databricks.
Större ändringar i Databricks Runtime ML Python-miljön
Uppgraderade Python-paket
- automl 1.1.1 => 1.2.1
- feature_store 0.3.3 => 0.3.4.1
- helgdagar 0.10.5.2 => 0.11.2
- keras 2.5.0 => 2.6.0
- mlflow 1.19.0 => 1.20.2
- petastorm 0.11.1 => 0.11.2
- plotly 4.14.3 => 5.1.0
- spark-tensorflow-distributor 0.1.0 => 1.0.0
- sparkdl 2.2.0_db1 => 2.2.0_db3
- tensorboard 2.5.0 => 2.6.0
- tensorflow 2.5.0 => 2.6.0
Python-paket har lagts till
- databricks-automl-runtime 0.1.0
Systemmiljö
Systemmiljön i Databricks Runtime 9.1 LTS ML skiljer sig från Databricks Runtime 9.1 LTS på följande sätt:
-
DBUtils: Databricks Runtime ML innehåller inte biblioteksverktyget (dbutils.library) (äldre).
Använd
%pip
kommandon i stället. Se Python-bibliotek med notebook-omfång. - För GPU-kluster innehåller Databricks Runtime ML följande NVIDIA GPU-bibliotek:
- CUDA 11.0
- cuDNN 8.1.0.77
- NCCL 2.10.3
- TensorRT 7.2.2
Bibliotek
I följande avsnitt visas de bibliotek som ingår i Databricks Runtime 9.1 LTS ML som skiljer sig från de som ingår i Databricks Runtime 9.1 LTS.
I detta avsnitt:
- Bibliotek på den översta nivån
- Python-bibliotek
- R-bibliotek
- Java- och Scala-bibliotek (Scala 2.12-kluster)
Bibliotek på den översta nivån
Databricks Runtime 9.1 LTS ML innehåller följande bibliotek på den översta nivån:
- AutoML
- GraphFrames
- Horovod och HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Python-bibliotek
Databricks Runtime 9.1 LTS ML använder Virtualenv för Python-pakethantering och innehåller många populära ML-paket.
Förutom de paket som anges i följande avsnitt innehåller Även Databricks Runtime 9.1 LTS ML följande paket:
- hyperopt 0.2.5.db2
- sparkdl 2.2.0_db3
- feature_store 0.3.4.1
- automl 1.2.1
Python-bibliotek i CPU-kluster
Bibliotek | Version | Bibliotek | Version | Bibliotek | Version |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rullande) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1.10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | blekmedel | 3.3.0 | boto3 | 1.16.7 |
botocore | 1.19.7 | Flaskhals | 1.3.2 | cachetools | 4.2.2 |
certifi | 2020.12.5 | cffi | 1.14.5 | chardet | 4.0.0 |
klang | 5,0 | klicka | 7.1.2 | cloudpickle | 1.6.0 |
cmdstanpy | 0.9.68 | configparser | 5.0.1 | konvertera | 2.3.2 |
kryptografi | 3.4.7 | cyklist | 0.10.0 | Cython | 0.29.23 |
databricks-automl-runtime | 0.1.0 | databricks-cli | 0.14.3 | dbus-python | 1.2.16 |
dekoratör | 5.0.6 | defusedxml | 0.7.1 | dill | 0.3.2 |
diskcache | 5.2.1 | distlib | 0.3.2 | distro-info | 0.23ubuntu1 |
entrypoints | 0,3 | efem | 4.0.0.2 | facets-overview | 1.0.0 |
filelock | 3.0.12 | Flask | 1.1.2 | flatbuffers | 1.12 |
fsspec | 0.9.0 | framtid | 0.18.2 | Gast | 0.4.0 |
gitdb | 4.0.7 | GitPython | 3.1.12 | google-auth | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grpcio | 1.39.0 |
gunicorn | 20.0.4 | h5py | 3.1.0 | hijri-converter | 2.2.1 |
ferier | 0.11.2 | horovod | 0.22.1 | htmlmin | 0.1.12 |
idna | 2.10 | ImageHash | 4.2.1 | importlib-metadata | 3.10.0 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodate | 0.6.0 | itsdangerous | 1.1.0 |
jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.6.0 | Keras-förbearbetning | 1.1.2 |
kiwisolver | 1.3.1 | Koalas | 1.8.1 | korean-lunar-calendar | 0.2.1 |
lightgbm | 3.1.1 | llvmlite | 0.37.0 | LunarCalendar | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 1.1.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | mistune | 0.8.4 |
mleap | 0.17.0 | mlflow-skinny | 1.20.2 | multimethod | 1.4 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2.5 | nltk | 3.6.1 |
notebook-fil | 6.3.0 | numba | 0.54.0 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | emballage | 20.9 |
Pandas | 1.2.4 | pandas-profilering | 3.0.0 | pandocfilter | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | Patsy | 0.5.1 |
petastorm | 0.11.2 | pexpect | 4.8.0 | phik | 0.12.0 |
pickleshare | 0.7.5 | Kudde | 8.2.0 | pip | 21.0.1 |
plotly | 5.1.0 | prometheus-client | 0.10.1 | prompt-toolkit | 3.0.17 |
profet | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pycparser | 2,20 |
pydantisk | 1.8.2 | Pygments | 2.8.1 | PyGObject | 3.36.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.3.0 | pyodbc | 4.0.30 |
pyparsing | 2.4.7 | pyrsistent | 0.17.3 | pystan | 2.19.1.1 |
python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 | python-editor | 1.0.4 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | regex | 2021.4.4 | begäranden | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | RSA | 4.7.2 |
s3transfer | 0.3.7 | scikit-learn | 0.24.1 | scipy | 1.6.2 |
seaborn | 0.11.1 | Send2Trash | 1.5.0 | setuptools | 52.0.0 |
setuptools-git | 1.2 | Shap | 0.39.0 | simplejson | 3.17.2 |
sex | 1.15.0 | Slicer | 0.0.7 | smmap | 3.0.5 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | ssh-import-id | 5,10 |
statsmodels | 0.12.2 | Tabellform | 0.8.7 | trasslig upp-i-unicode | 0.1.0 |
orubblighet | 6.2.0 | tensorboard | 2.6.0 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-wit | 1.8.0 | tensorflow-cpu | 2.6.0 | tensorflow-estimator | 2.6.0 |
termcolor | 1.1.0 | terminado | 0.9.4 | testpath | 0.4.4 |
threadpoolctl | 2.1.0 | fackla | 1.9.0+cpu | torchvision | 0.10.0+cpu |
tromb | 6.1 | tqdm | 4.59.0 | traitlets | 5.0.5 |
skriva tillägg | 3.7.4.3 | ujson | 4.0.2 | obevakade uppgraderingar | 0,1 |
urllib3 | 1.25.11 | virtualenv | 20.4.1 | Visioner | 0.7.1 |
wcwidth | 0.2.5 | webencodings | 0.5.1 | websocket-client | 0.57.0 |
Werkzeug | 1.0.1 | hjul | 0.36.2 | widgetsnbextension | 3.5.1 |
wrapt | 1.12.1 | xgboost | 1.4.2 | zipp | 3.4.1 |
Python-bibliotek i GPU-kluster
Bibliotek | Version | Bibliotek | Version | Bibliotek | Version |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rullande) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1.10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | blekmedel | 3.3.0 | boto3 | 1.16.7 |
botocore | 1.19.7 | Flaskhals | 1.3.2 | cachetools | 4.2.2 |
certifi | 2020.12.5 | cffi | 1.14.5 | chardet | 4.0.0 |
klang | 5,0 | klicka | 7.1.2 | cloudpickle | 1.6.0 |
cmdstanpy | 0.9.68 | configparser | 5.0.1 | konvertera | 2.3.2 |
kryptografi | 3.4.7 | cyklist | 0.10.0 | Cython | 0.29.23 |
databricks-automl-runtime | 0.1.0 | databricks-cli | 0.14.3 | dbus-python | 1.2.16 |
dekoratör | 5.0.6 | defusedxml | 0.7.1 | dill | 0.3.2 |
diskcache | 5.2.1 | distlib | 0.3.2 | distro-info | 0.23ubuntu1 |
entrypoints | 0,3 | efem | 4.0.0.2 | facets-overview | 1.0.0 |
filelock | 3.0.12 | Flask | 1.1.2 | flatbuffers | 1.12 |
fsspec | 0.9.0 | framtid | 0.18.2 | Gast | 0.4.0 |
gitdb | 4.0.7 | GitPython | 3.1.12 | google-auth | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grpcio | 1.39.0 |
gunicorn | 20.0.4 | h5py | 3.1.0 | hijri-converter | 2.2.1 |
ferier | 0.11.2 | horovod | 0.22.1 | htmlmin | 0.1.12 |
idna | 2.10 | ImageHash | 4.2.1 | importlib-metadata | 3.10.0 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodate | 0.6.0 | itsdangerous | 1.1.0 |
jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.6.0 | Keras-förbearbetning | 1.1.2 |
kiwisolver | 1.3.1 | Koalas | 1.8.1 | korean-lunar-calendar | 0.2.1 |
lightgbm | 3.1.1 | llvmlite | 0.37.0 | LunarCalendar | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 1.1.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | mistune | 0.8.4 |
mleap | 0.17.0 | mlflow-skinny | 1.20.2 | multimethod | 1.4 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2.5 | nltk | 3.6.1 |
notebook-fil | 6.3.0 | numba | 0.54.0 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | emballage | 20.9 |
Pandas | 1.2.4 | pandas-profilering | 3.0.0 | pandocfilter | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | Patsy | 0.5.1 |
petastorm | 0.11.2 | pexpect | 4.8.0 | phik | 0.12.0 |
pickleshare | 0.7.5 | Kudde | 8.2.0 | pip | 21.0.1 |
plotly | 5.1.0 | prompt-toolkit | 3.0.17 | profet | 1.0.1 |
protobuf | 3.17.2 | psutil | 5.8.0 | psycopg2 | 2.8.5 |
ptyprocess | 0.7.0 | pyarrow | 4.0.0 | pyasn1 | 0.4.8 |
pyasn1-modules | 0.2.8 | pycparser | 2,20 | pydantisk | 1.8.2 |
Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.3.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
pyrsistent | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.6 |
python-dateutil | 2.8.1 | python-editor | 1.0.4 | pytz | 2020.5 |
PyWavelets | 1.1.1 | PyYAML | 5.4.1 | pyzmq | 20.0.0 |
regex | 2021.4.4 | begäranden | 2.25.1 | requests-oauthlib | 1.3.0 |
requests-unixsocket | 0.2.0 | RSA | 4.7.2 | s3transfer | 0.3.7 |
scikit-learn | 0.24.1 | scipy | 1.6.2 | seaborn | 0.11.1 |
Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
Shap | 0.39.0 | simplejson | 3.17.2 | sex | 1.15.0 |
Slicer | 0.0.7 | smmap | 3.0.5 | spark-tensorflow-distributor | 1.0.0 |
sqlparse | 0.4.1 | ssh-import-id | 5,10 | statsmodels | 0.12.2 |
Tabellform | 0.8.7 | trasslig upp-i-unicode | 0.1.0 | orubblighet | 6.2.0 |
tensorboard | 2.6.0 | tensorboard-data-server | 0.6.1 | tensorboard-plugin-wit | 1.8.0 |
tensorflow | 2.6.0 | tensorflow-estimator | 2.6.0 | termcolor | 1.1.0 |
terminado | 0.9.4 | testpath | 0.4.4 | threadpoolctl | 2.1.0 |
fackla | 1.9.0+cu111 | torchvision | 0.10.0+cu111 | tromb | 6.1 |
tqdm | 4.59.0 | traitlets | 5.0.5 | skriva tillägg | 3.7.4.3 |
ujson | 4.0.2 | obevakade uppgraderingar | 0,1 | urllib3 | 1.25.11 |
virtualenv | 20.4.1 | Visioner | 0.7.1 | wcwidth | 0.2.5 |
webencodings | 0.5.1 | websocket-client | 0.57.0 | Werkzeug | 1.0.1 |
hjul | 0.36.2 | widgetsnbextension | 3.5.1 | wrapt | 1.12.1 |
xgboost | 1.4.2 | zipp | 3.4.1 |
Spark-paket som innehåller Python-moduler
Spark-paket | Python-modul | Version |
---|---|---|
graphframes | graphframes | 0.8.1-db3-spark3.1 |
R-bibliotek
R-biblioteken är identiska med R-biblioteken i Databricks Runtime 9.1 LTS.
Java- och Scala-bibliotek (Scala 2.12-kluster)
Förutom Java- och Scala-bibliotek i Databricks Runtime 9.1 LTS innehåller Databricks Runtime 9.1 LTS ML följande JAR:er:
CPU-kluster
Grupp-ID | Artefakt-ID | Version |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.17.0-4882dc3 |
ml.dmlc | xgboost4j-spark_2.12 | 1.4.1 |
ml.dmlc | xgboost4j_2.12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-spark3.1 |
org.mlflow | mlflow-client | 1.20.2 |
org.mlflow | mlflow-spark | 1.20.2 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
GPU-kluster
Grupp-ID | Artefakt-ID | Version |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.17.0-4882dc3 |
ml.dmlc | xgboost4j-gpu_2.12 | 1.4.1 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-spark3.1 |
org.mlflow | mlflow-client | 1.20.2 |
org.mlflow | mlflow-spark | 1.20.2 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |