Databricks Runtime 10.3 för ML (EoS)
Kommentar
Stödet för den här Databricks Runtime-versionen har upphört. Information om slutdatumet för support finns i Historik över supportens slut. Alla Databricks Runtime-versioner som stöds finns i Databricks Runtime-versionsanteckningar och kompatibilitet.
Databricks Runtime 10.3 för Machine Learning ger en färdig miljö för maskininlärning och datavetenskap baserat på Databricks Runtime 10.3 (EoS). Databricks Runtime ML innehåller många populära maskininlärningsbibliotek, inklusive TensorFlow, PyTorch och XGBoost. Databricks Runtime ML innehåller AutoML, ett verktyg för att automatiskt träna maskininlärningspipelines. Databricks Runtime ML stöder även distribuerad djupinlärningsträning med Horovod.
Mer information, inklusive instruktioner för att skapa ett Databricks Runtime ML-kluster, finns i AI och maskininlärning på Databricks.
Nya funktioner och förbättringar
Databricks Runtime 10.3 ML bygger på Databricks Runtime 10.3. Information om nyheter i Databricks Runtime 10.3, inklusive Apache Spark MLlib och SparkR, finns i releasenoterna för Databricks Runtime 10.3 (EoS).
Förbättringar av AutoML
Följande förbättringar har gjorts i AutoML.
AutoML har nu stöd för ARIMA-modell för prognostisering
Förutom Prophet skapar och utvärderar AutoML nu ARIMA-modeller för prognostiseringsproblem.
Exkludera kolumner från datauppsättning
När du använder AutoML-API:et kan du ange kolumner som AutoML ska ignorera under dess beräkningar. Detta är endast tillgängligt för klassificerings- och regressionsproblem. Mer information finns i Referens för AutoML Python API .
Undanta algoritmramverk från en AutoML-körning
Du kan ange algoritmramverk, till exempel scikit-learn, som AutoML inte bör tänka på när det utvecklar modeller. Mer information finns i Avancerade konfigurationer och AutoML Python API-referens .
max_trials
Föråldrad
Parametern max_trials
är inaktuell och tas bort i nästa större Databricks Runtime ML-version. Använd timeout_minutes
för att styra varaktigheten för en AutoML-körning. I Databricks Runtime 10.1 ML och senare versioner innehåller AutoML även tidig stoppning; det avslutar träningen och justeringen av modeller om valideringsmåttet inte längre förbättras.
Förbättringar av Databricks Feature Store
Du kan nu tillämpa tidsbestämda uppslag på funktionsdatablad för tidsserier. Mer information finns i stöd för tidpunkter med hjälp av funktionstabeller för tidsserier.
Automatisk loggning av Databricks (GA)
Databricks Autologging är nu allmänt tillgänglig i Databricks Runtime 10.3 ML. Databricks Autologging är en lösning utan kod som tillhandahåller automatisk experimentspårning för maskininlärningsträningssessioner i Azure Databricks. Med Databricks Autologging registreras modellparametrar, mått, filer och härkomstinformation automatiskt när du tränar modeller från en mängd populära maskininlärningsbibliotek. Utbildningssessioner registreras som MLflow Tracking Runs. Modellfiler spåras också så att du enkelt kan logga dem till MLflow Model Registry och distribuera dem för realtidsbedömning med MLflow Model Serving.
Se Automatisk loggning i Databricks för mer information.
Systemmiljö
Systemmiljön i Databricks Runtime 10.3 ML skiljer sig från Databricks Runtime 10.3 på följande sätt:
-
DBUtils: Databricks Runtime ML innehåller inte biblioteksverktyget (dbutils.library) (äldre).
Använd
%pip
kommandon i stället. Läs om Python-bibliotek som är notebook-specifika. - För GPU-kluster innehåller Databricks Runtime ML följande NVIDIA GPU-bibliotek:
- CUDA 11.0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
Bibliotek
I följande avsnitt visas de bibliotek som ingår i Databricks Runtime 10.3 ML som skiljer sig från de som ingår i Databricks Runtime 10.3.
I detta avsnitt:
- Bibliotek på den översta nivån
- Python-bibliotek
- R-bibliotek
- Java- och Scala-bibliotek (Scala 2.12-kluster)
Bibliotek på den översta nivån
Databricks Runtime 10.3 ML innehåller följande bibliotek på den översta nivån:
- GraphFrames
- Horovod och HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Python-bibliotek
Databricks Runtime 10.3 ML använder Virtualenv för Python-pakethantering och innehåller många populära ML-paket.
Förutom de paket som anges i följande avsnitt innehåller Databricks Runtime 10.3 ML även följande paket:
- hyperopt 0.2.7.db1
- sparkdl 2.2.0-db5
- feature_store 0.3.7
- automl 1.6.0
Python-bibliotek i CPU-kluster
Bibliotek | Version | Bibliotek | Version | Bibliotek | Version |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rullande) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
asynkron generator | 1.10 | attrs | 20.3.0 | återringssignal | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | blekmedel | 3.3.0 |
blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | katalog | 2.0.6 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | klicka | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
konvertera | 2.3.2 | kryptografi | 3.4.7 | cyklist | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.5 |
databricks-cli | 0.16.2 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
dekoratör | 5.0.6 | defusedxml | 0.7.1 | dill | 0.3.2 |
diskcache | 5.2.1 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
ingångspunkter | 0,3 | efem | 4.1.3 | aspektöversikt | 1.0.0 |
snabbtext | 0.9.2 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 2.0 | fsspec | 0.9.0 | framtid | 0.18.2 |
Gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | hijri-converter | 2.2.2 | ferier | 0,12 |
horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
idna | 2.10 | ImageHash | 4.2.1 | obalanserad inlärning | 0.8.1 |
importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
itsdangerous | 1.1.0 | jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.7.0 |
Keras-förbehandling | 1.1.2 | kiwisolver | 1.3.1 | Koalas | 1.8.2 |
koreansk månkalender | 0.2.1 | språkkoder | 3.3.0 | libclang | 12.0.0 |
lightgbm | 3.3.1 | llvmlite | 0.38.0 | månkalender | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | felstämming | 0.8.4 |
mleap | 0.18.1 | mlflow-skinny | 1.23.0 | multimetod | 1.6 |
murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2.5 |
nltk | 3.6.1 | anteckningsbok | 6.3.0 | numba | 0.55.0 |
numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
emballage | 21,3 | Pandas | 1.2.4 | pandas-profiling | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
Pati | 0.6.0 | Patsy | 0.5.1 | petastorm | 0.11.3 |
pexpect | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
Kudde | 8.2.0 | pip | 21.0.1 | plotly | 5.5.0 |
pmdarima | 1.8.4 | fördefinierad | 3.0.5 | prometheus-client | 0.10.1 |
prompt-toolkit | 3.0.17 | profet | 1.0.1 | protobuf | 3.17.2 |
psutil | 5.8.0 | psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
pybind11 | 2.9.0 | pycparser | 2,20 | pydantisk | 1.8.2 |
Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.4.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
pyrsistent | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.6 |
python-dateutil | 2.8.1 | Python-redigerare | 1.0.4 | python-engineio | 4.3.0 |
python-socketio | 5.4.1 | pytz | 2020.5 | PyWavelets | 1.1.1 |
PyYAML | 5.4.1 | pyzmq | 20.0.0 | regex | 2021.4.4 |
begäranden | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
RSA | 4.7.2 | s3transfer | 0.3.7 | sacremoses | 0.0.46 |
scikit-learn | 0.24.1 | scipy | 1.6.2 | seaborn | 0.11.1 |
Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
Shap | 0.40.0 | simplejson | 3.17.2 | sex | 1.15.0 |
Skärmaskin | 0.0.7 | smart-open | 5.2.0 | smmap | 3.0.5 |
rymlig / drömmande (depending on the context) | 3.2.1 | spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | seriöst | 2.4.1 |
ssh-import-id | 5,10 | statsmodels | 0.12.2 | Tabellform | 0.8.7 |
trasslig upp-i-unicode | 0.1.0 | orubblighet | 6.2.0 | tensorboard | 2.7.0 |
tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.1 |
tensorflow-cpu | 2.7.0 | tensorflow-estimator | 2.7.0 | tensorflow-io-gcs-filesystem | 0.23.1 |
termcolor | 1.1.0 | färdig | 0.9.4 | testpath | 0.4.4 |
thinc | 8.0.12 | threadpoolctl | 2.1.0 | tokeniserare | 0.10.3 |
fackla | 1.10.1+cpu | torchvision | 0.11.2+cpu | tornado | 6.1 |
tqdm | 4.59.0 | traitlets | 5.0.5 | Transformatorer | 4.15.0 |
typer | 0.3.2 | typing-extensions-paketet | 3.7.4.3 | ujson | 4.0.2 |
obevakade uppgraderingar | 0,1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
Visioner | 0.7.4 | Wasabi | 0.8.2 | wcwidth | 0.2.5 |
webbkodningar | 0.5.1 | websocket-klient | 0.57.0 | Werkzeug | 1.0.1 |
hjul | 0.36.2 | widgetsnbextension | 3.5.1 | wrapt | 1.12.1 |
xgboost | 1.5.1 | zipp | 3.4.1 |
Python-bibliotek i GPU-kluster
Bibliotek | Version | Bibliotek | Version | Bibliotek | Version |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rullande) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
asynkron generator | 1.10 | attrs | 20.3.0 | Återuppringning | 0.2.0 |
bcrypt | 3.2.0 | bidict | 0.21.4 | blekmedel | 3.3.0 |
lycka | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
cachetools | 4.2.4 | katalog | 2.0.6 | certifi | 2020.12.5 |
cffi | 1.14.5 | chardet | 4.0.0 | klicka | 7.1.2 |
cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
konvertera | 2.3.2 | kryptografi | 3.4.7 | cyklist | 0.10.0 |
cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.5 |
databricks-cli | 0.16.2 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
dekoratör | 5.0.6 | defusedxml | 0.7.1 | dill | 0.3.2 |
diskcache | 5.2.1 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
ingångspunkter | 0,3 | efem | 4.1.3 | översikt över facetter | 1.0.0 |
snabbtext | 0.9.2 | filelock | 3.0.12 | Flask | 1.1.2 |
flatbuffers | 2.0 | fsspec | 0.9.0 | framtid | 0.18.2 |
Gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | Google-pasta | 0.2.0 |
grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
h5py | 3.1.0 | hijri-converter | 2.2.2 | ferier | 0,12 |
horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
idna | 2.10 | ImageHash | 4.2.1 | obalanserad inlärning | 0.8.1 |
importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
itsdangerous | 1.1.0 | Jedi | 0.17.2 | Jinja2 | 2.11.3 |
jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.7.0 |
Keras-förbehandling | 1.1.2 | kiwisolver | 1.3.1 | Koalas | 1.8.2 |
koreansk månkalender | 0.2.1 | språkkoder | 3.3.0 | libclang | 12.0.0 |
lightgbm | 3.3.1 | llvmlite | 0.38.0 | Månskalender | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | felstämd | 0.8.4 |
mleap | 0.18.1 | mlflow-skinny | 1.23.0 | multimetod | 1.6 |
murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2.5 |
nltk | 3.6.1 | anteckningsbok | 6.3.0 | numba | 0.55.0 |
numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
emballage | 21,3 | Pandas | 1.2.4 | pandas-profilering | 3.1.0 |
pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
Pati | 0.6.0 | Patsy | 0.5.1 | petastorm | 0.11.3 |
pexpect | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
Kudde | 8.2.0 | pip | 21.0.1 | plotly | 5.5.0 |
pmdarima | 1.8.4 | fördefinierad | 3.0.5 | prompt-toolkit | 3.0.17 |
profet | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pybind11 | 2.9.0 |
pycparser | 2,20 | pydantisk | 1.8.2 | Pygments | 2.8.1 |
PyGObject | 3.36.0 | PyMeeus | 0.5.11 | PyNaCl | 1.4.0 |
pyodbc | 4.0.30 | pyparsing | 2.4.7 | pyrsistent | 0.17.3 |
pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 |
python-editor | 1.0.4 | python-engineio | 4.3.0 | python-socketio | 5.4.1 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | regex | 2021.4.4 | begäranden | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | RSA | 4.7.2 |
s3transfer | 0.3.7 | sacremoses | 0.0.46 | scikit-learn | 0.24.1 |
scipy | 1.6.2 | seaborn | 0.11.1 | Send2Trash | 1.5.0 |
setuptools | 52.0.0 | setuptools-git | 1.2 | Shap | 0.40.0 |
simplejson | 3.17.2 | sex | 1.15.0 | Skivare | 0.0.7 |
smart-open | 5.2.0 | smmap | 3.0.5 | virrig | 3.2.1 |
spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 | spark-tensorflow-distributor | 1.0.0 |
sqlparse | 0.4.1 | seriö | 2.4.1 | ssh-import-id | 5,10 |
statsmodels | 0.12.2 | Tabellform | 0.8.7 | insnärjd i Unicode | 0.1.0 |
uthållighet | 6.2.0 | TensorBoard | 2.7.0 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-profile | 2.5.0 | TensorBoard-plugin-WIT | 1.8.1 | tensorflow | 2.7.0 |
tensorflow-estimator | 2.7.0 | tensorflow-io-gcs-filesystem | 0.23.1 | termcolor | 1.1.0 |
avslutad | 0.9.4 | testpath | 0.4.4 | thinc | 8.0.12 |
threadpoolctl | 2.1.0 | tokeniserare | 0.10.3 | fackla | 1.10.1+cu111 |
torchvision | 0.11.2+cu111 | tornado | 6.1 | tqdm | 4.59.0 |
traitlets | 5.0.5 | Transformatorer | 4.15.0 | typer | 0.3.2 |
skriva tillägg | 3.7.4.3 | ujson | 4.0.2 | obevakade uppgraderingar | 0,1 |
urllib3 | 1.25.11 | virtualenv | 20.4.1 | Visioner | 0.7.4 |
Wasabi | 0.8.2 | wcwidth | 0.2.5 | webbkodningar | 0.5.1 |
websocket-client | 0.57.0 | Werkzeug | 1.0.1 | hjul | 0.36.2 |
widgetsnbextension | 3.5.1 | inlindad | 1.12.1 | xgboost | 1.5.1 |
zipp | 3.4.1 |
Spark-paket som innehåller Python-moduler
Spark-paket | Python-modul | Version |
---|---|---|
graphframes | graphframes | 0.8.2-db1-spark3.2 |
R-bibliotek
R-biblioteken är identiska med R-biblioteken i Databricks Runtime 10.3.
Java- och Scala-bibliotek (Scala 2.12-kluster)
Förutom Java- och Scala-bibliotek i Databricks Runtime 10.3 innehåller Databricks Runtime 10.3 ML följande JAR:er:
CPU-kluster
Grupp-ID | Artefakt-ID | Version |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.1 |
ml.dmlc | xgboost4j_2.12 | 1.5.1 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.23.0 |
org.mlflow | mlflow-spark | 1.23.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
GPU-kluster
grupp-id | Artefakt-ID | Version |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
ml.dmlc | xgboost4j-spark_2.12 | 1.5.1 |
ml.dmlc | xgboost4j_2.12 | 1.5.1 |
org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
org.mlflow | mlflow-client | 1.23.0 |
org.mlflow | mlflow-spark | 1.23.0 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |