Databricks Runtime 9.1 LTS voor Machine Learning
Databricks heeft deze installatiekopieën uitgebracht en in september 2021 gedeclareerd als Long Term Support (LTS).
Databricks Runtime 9.1 LTS voor Machine Learning biedt een kant-en-klare omgeving voor machine learning en gegevenswetenschap op basis van Databricks Runtime 9.1 LTS. Databricks Runtime ML bevat veel populaire machine learning-bibliotheken, waaronder TensorFlow, PyTorch en XGBoost. Databricks Runtime ML bevat AutoML, een hulpprogramma voor het automatisch trainen van machine learning-pijplijnen. Databricks Runtime ML biedt ook ondersteuning voor gedistribueerde Deep Learning-training met behulp van Horovod.
Notitie
LTS betekent dat deze versie op lange termijn wordt ondersteund. Zie de levenscyclus van de Databricks Runtime LTS-versie.
Zie AI en machine learning op Databricks voor meer informatie, inclusief instructies voor het maken van een Databricks Runtime ML-cluster.
Tip
Als u releaseopmerkingen voor Databricks Runtime-versies wilt zien die end-of-support (EoS) hebben bereikt, raadpleegt u de releaseopmerkingen voor Databricks Runtime. De EoS Databricks Runtime-versies zijn buiten gebruik gesteld en worden mogelijk niet bijgewerkt.
Nieuwe functies en verbeteringen
AutoML
De volgende verbeteringen zijn beschikbaar in Databricks Runtime 9.1 LTS ML en hoger.
AutoML ondersteunt grotere gegevenssets door steekproeven te nemen
AutoML bevat nu voorbeelden van gegevenssets die geheugenbeperkingen kunnen overschrijden, zodat deze kan worden uitgevoerd op grotere gegevenssets met minder risico op onvoldoende geheugenfouten. Zie Voorbeelden van grote gegevenssets voor meer informatie.
AutoML verwerkt kolommen vooraf op basis van semantisch type
AutoML detecteert bepaalde kolommen met een semantisch type dat verschilt van het spark- of pandas-gegevenstype. AutoML converteert en past de stappen voor de verwerking van gegevens vervolgens toe op basis van het gedetecteerde semantische type. AutoML voert met name de volgende conversies uit:
- Tekenreeks- en gehele getallenkolommen die datum- of tijdstempelgegevens vertegenwoordigen, worden geconverteerd naar een tijdstempeltype.
- Tekenreekskolommen die numerieke gegevens vertegenwoordigen, worden geconverteerd naar een numeriek type.
Verbeteringen aan door AutoML gegenereerde notebooks
Voorverwerkingsstappen voor datum- en tijdstempelkolommen worden nu opgenomen in het databricks-automl-runtime
pakket, waardoor de notebooks die door de AutoML-training worden gegenereerd, worden vereenvoudigd.
databricks-automl-runtime
is opgenomen in Databricks Runtime 9.1 LTS ML en hoger en is ook beschikbaar op PyPI.
Functiearchief
De volgende verbeteringen zijn beschikbaar in Databricks Runtime 9.1 LTS ML en hoger.
- Wanneer u een TrainingSet maakt, kunt u nu instellen
label=None
dat leertoepassingen zonder supervisie worden ondersteund. - U kunt nu meer dan één functie opgeven in één
FeatureLookup
. - U kunt nu een aangepast pad voor functietabellen opgeven. Gebruik de
path
parameter increate_feature_table()
. De standaardwaarde is de databaselocatie. - Nieuwe ondersteunde PySpark-gegevenstypen: ArrayType en ShortType.
Mlflow
De volgende verbeteringen zijn beschikbaar vanaf Mlflow versie 1.20.2, die is opgenomen in Databricks Runtime 9.1 LTS ML.
- Automatische aanmelding voor scikit-learn registreert nu metrische gegevens na training wanneer een scikit-learn-evaluatie-API, zoals
sklearn.metrics.mean_squared_error
, wordt aangeroepen. - Automatische logboekregistratie voor PySpark ML registreert nu metrische gegevens na training wanneer een modelevaluatie-API, zoals
Evaluator.evaluate()
, wordt aangeroepen. -
mlflow.*.log_model
enmlflow.*.save_model
nu hebtpip_requirements
enextra_pip_requirements
argumenten zodat u rechtstreeks de pip-vereisten van het model kunt opgeven om te registreren of op te slaan. -
mlflow.*.log_model
enmlflow.*.save_model
nu automatisch de pip-vereisten van het model afleiden om te registreren of op te slaan op basis van de huidige softwareomgeving. -
stdMetrics
vermeldingen worden nu geregistreerd als metrische trainingsgegevens tijdens automatische aanmelding van PySpark CrossValidator. - PyTorch Lightning autologging ondersteunt nu gedistribueerde uitvoering.
Autologging van Databricks (openbare preview)
De openbare preview van Databricks Autologging is uitgebreid naar nieuwe regio's. Databricks Autologging is een oplossing zonder code waarmee automatisch experimenten worden bijgehouden voor machine learning-trainingssessies in Azure Databricks. Met Autologging van Databricks worden modelparameters, metrische gegevens, bestanden en herkomstgegevens automatisch vastgelegd wanneer u modellen traint uit verschillende populaire machine learning-bibliotheken. Trainingssessies worden vastgelegd als MLflow Tracking Runs. Modelbestanden worden ook bijgehouden, zodat u ze eenvoudig kunt registreren bij het MLflow-modelregister en ze kunt implementeren voor realtime scoren met MLflow Model Serving.
Zie Databricks Autologging voor meer informatie over Autologging van Databricks.
Belangrijke wijzigingen in de Python-omgeving van Databricks Runtime ML
Python-pakketten bijgewerkt
- automl 1.1.1 => 1.2.1
- feature_store 0,3.3 => 0,3.4.1
- feestdagen 0.10.5.2 => 0.11.2
- keras 2.5.0 => 2.6.0
- mlflow 1.19.0 => 1.20.2
- petastorm 0.11.1 => 0.11.2
- plotly 4.14.3 => 5.1.0
- spark-tensorflow-distributor 0.1.0 => 1.0.0
- sparkdl 2.2.0_db1 => 2.2.0_db3
- tensorboard 2.5.0 => 2.6.0
- tensorflow 2.5.0 => 2.6.0
Python-pakketten toegevoegd
- databricks-automl-runtime 0.1.0
Systeemomgeving
De systeemomgeving in Databricks Runtime 9.1 LTS ML verschilt als volgt van Databricks Runtime 9.1 LTS:
-
DBUtils: Databricks Runtime ML bevat geen bibliotheekhulpprogramma (dbutils.library) (verouderd).
Gebruik
%pip
in plaats daarvan opdrachten. Zie Notebook-scoped Python libraries (Notebook-scoped Python-bibliotheken) voor meer informatie. - Voor GPU-clusters bevat Databricks Runtime ML de volgende NVIDIA GPU-bibliotheken:
- CUDA 11.0
- cuDNN 8.1.0.77
- NCCL 2.10.3
- TensorRT 7.2.2
Bibliotheken
In de volgende secties worden de bibliotheken vermeld die zijn opgenomen in Databricks Runtime 9.1 LTS ML die verschillen van de bibliotheken die zijn opgenomen in Databricks Runtime 9.1 LTS.
In deze sectie:
- Bibliotheken met de hoogste laag
- Python-bibliotheken
- R-bibliotheken
- Java- en Scala-bibliotheken (Scala 2.12-cluster)
Bibliotheken met de hoogste laag
Databricks Runtime 9.1 LTS ML bevat de volgende bibliotheken met de hoogste laag:
- AutoML
- GraphFrames
- Horovod en HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Python-bibliotheken
Databricks Runtime 9.1 LTS ML maakt gebruik van Virtualenv voor Python-pakketbeheer en bevat veel populaire ML-pakketten.
Naast de pakketten die in de volgende secties zijn opgegeven, bevat Databricks Runtime 9.1 LTS ML ook de volgende pakketten:
- hyperopt 0.2.5.db2
- sparkdl-2.2.0_db3
- feature_store 0.3.4.1
- automl 1.2.1
Python-bibliotheken op CPU-clusters
Bibliotheek | Versie | Bibliotheek | Versie | Bibliotheek | Versie |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1,10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | bleken | 3.3.0 | boto3 | 1.16.7 |
botocore | 1.19.7 | Flessenhals | 1.3.2 | cachetools | 4.2.2 |
certifi | 2020.12.5 | cffiffi | 1.14.5 | chardet | 4.0.0 |
Clang | 5,0 | klikken | 7.1.2 | cloudpickle | 1.6.0 |
cmdstanpy | 0.9.68 | configparser | 5.0.1 | convertdate | 2.3.2 |
cryptografie | 3.4.7 | wielrijder | 0.10.0 | Cython | 0.29.23 |
databricks-automl-runtime | 0.1.0 | databricks-cli | 0.14.3 | dbus-python | 1.2.16 |
decorateur | 5.0.6 | defusedxml | 0.7.1 | dille | 0.3.2 |
diskcache | 5.2.1 | distlib | 0.3.2 | distro-info | 0.23opgegeven1 |
invoerpunten | 0,3 | kortstondige tijd | 4.0.0.2 | facets-overview | 1.0.0 |
filelock | 3.0.12 | Flask | 1.1.2 | flatbuffers | 1.12 |
fsspec | 0.9.0 | toekomst | 0.18.2 | gast | 0.4.0 |
gitdb | 4.0.7 | GitPython | 3.1.12 | google-auth | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grpcio | 1.39.0 |
gunicorn | 20.0.4 | h5py | 3.1.0 | hijri-converter | 2.2.1 |
vakantie | 0.11.2 | horovod | 0.22.1 | htmlmin | 0.1.12 |
idna | 2.10 | ImageHash | 4.2.1 | importlib-metadata | 3.10.0 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodate | 0.6.0 | itsdangerous | 1.1.0 |
jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.6.0 | Keras-Preprocessing | 1.1.2 |
kiwisolver | 1.3.1 | koala's | 1.8.1 | koreaans-maankalender | 0.2.1 |
lightgbm | 3.1.1 | llvmlite | 0.37.0 | LunarCalendar | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 1.1.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | mistune | 0.8.4 |
mleap | 0.17.0 | mlflow-skinny | 1.20.2 | multimethod | 1.4 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2.5 | nltk | 3.6.1 |
notebook | 6.3.0 | numba | 0.54.0 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | verpakking | 20.9 |
Pandas | 1.2.4 | pandas-profilering | 3.0.0 | pandocfilters | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | Patsy | 0.5.1 |
petastorm | 0.11.2 | pexpect | 4.8.0 | phik | 0.12.0 |
pickleshare | 0.7.5 | Kussen | 8.2.0 | pit | 21.0.1 |
plotly | 5.1.0 | prometheus-client | 0.10.1 | prompt-toolkit | 3.0.17 |
profeet | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pycparser | 2,20 |
pydantic | 1.8.2 | Pygments | 2.8.1 | PyGObject | 3.36.0 |
PyMeeus | 0.5.11 | PyNaCl | 1.3.0 | pyodbc | 4.0.30 |
pyparsing | 2.4.7 | pyrsistent | 0.17.3 | pystan | 2.19.1.1 |
python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 | python-editor | 1.0.4 |
pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
pyzmq | 20.0.0 | regex | 2021.4.4 | requests | 2.25.1 |
requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | RSA | 4.7.2 |
s3transfer | 0.3.7 | scikit-learn | 0.24.1 | scipy | 1.6.2 |
seaborn | 0.11.1 | Send2Trash | 1.5.0 | setuptools | 52.0.0 |
setuptools-git | 1.2 | Shap | 0.39.0 | simplejson | 3.17.2 |
Zes | 1.15.0 | Slicer | 0.0.7 | smmap | 3.0.5 |
spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | ssh-import-id | 5.10 |
statsmodels | 0.12.2 | Tabulate | 0.8.7 | tangled-up-in-unicode | 0.1.0 |
vasthoudendheid | 6.2.0 | tensorboard | 2.6.0 | tensorboard-data-server | 0.6.1 |
tensorboard-plugin-wit | 1.8.0 | tensorflow-cpu | 2.6.0 | tensorflow-estimator | 2.6.0 |
termcolor | 1.1.0 | terminado | 0.9.4 | testpath | 0.4.4 |
threadpoolctl | 2.1.0 | fakkel | 1.9.0+cpu | torchvision | 0.10.0+cpu |
tornado | 6.1 | tqdm | 4.59.0 | traitlets | 5.0.5 |
typen-extensies | 3.7.4.3 | ujson | 4.0.2 | upgrades zonder toezicht | 0,1 |
urllib3 | 1.25.11 | virtualenv | 20.4.1 | Visioenen | 0.7.1 |
wcwidth | 0.2.5 | webencodings | 0.5.1 | websocket-client | 0.57.0 |
Werkzeug | 1.0.1 | wiel | 0.36.2 | widgetsnbextension | 3.5.1 |
wrapt | 1.12.1 | xgboost | 1.4.2 | zipp | 3.4.1 |
Python-bibliotheken op GPU-clusters
Bibliotheek | Versie | Bibliotheek | Versie | Bibliotheek | Versie |
---|---|---|---|---|---|
absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
async-generator | 1,10 | attrs | 20.3.0 | backcall | 0.2.0 |
bcrypt | 3.2.0 | bleken | 3.3.0 | boto3 | 1.16.7 |
botocore | 1.19.7 | Flessenhals | 1.3.2 | cachetools | 4.2.2 |
certifi | 2020.12.5 | cffiffi | 1.14.5 | chardet | 4.0.0 |
Clang | 5,0 | klikken | 7.1.2 | cloudpickle | 1.6.0 |
cmdstanpy | 0.9.68 | configparser | 5.0.1 | convertdate | 2.3.2 |
cryptografie | 3.4.7 | wielrijder | 0.10.0 | Cython | 0.29.23 |
databricks-automl-runtime | 0.1.0 | databricks-cli | 0.14.3 | dbus-python | 1.2.16 |
decorateur | 5.0.6 | defusedxml | 0.7.1 | dille | 0.3.2 |
diskcache | 5.2.1 | distlib | 0.3.2 | distro-info | 0.23opgegeven1 |
invoerpunten | 0,3 | kortstondige tijd | 4.0.0.2 | facets-overview | 1.0.0 |
filelock | 3.0.12 | Flask | 1.1.2 | flatbuffers | 1.12 |
fsspec | 0.9.0 | toekomst | 0.18.2 | gast | 0.4.0 |
gitdb | 4.0.7 | GitPython | 3.1.12 | google-auth | 1.22.1 |
google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 | grpcio | 1.39.0 |
gunicorn | 20.0.4 | h5py | 3.1.0 | hijri-converter | 2.2.1 |
vakantie | 0.11.2 | horovod | 0.22.1 | htmlmin | 0.1.12 |
idna | 2.10 | ImageHash | 4.2.1 | importlib-metadata | 3.10.0 |
ipykernel | 5.3.4 | ipython | 7.22.0 | ipython-genutils | 0.2.0 |
ipywidgets | 7.6.3 | isodate | 0.6.0 | itsdangerous | 1.1.0 |
jedi | 0.17.2 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
joblib | 1.0.1 | joblibspark | 0.3.0 | jsonschema | 3.2.0 |
jupyter-client | 6.1.12 | jupyter-core | 4.7.1 | jupyterlab-pygments | 0.1.2 |
jupyterlab-widgets | 1.0.0 | keras | 2.6.0 | Keras-Preprocessing | 1.1.2 |
kiwisolver | 1.3.1 | koala's | 1.8.1 | koreaans-maankalender | 0.2.1 |
lightgbm | 3.1.1 | llvmlite | 0.37.0 | LunarCalendar | 0.0.9 |
Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 1.1.1 |
matplotlib | 3.4.2 | missingno | 0.5.0 | mistune | 0.8.4 |
mleap | 0.17.0 | mlflow-skinny | 1.20.2 | multimethod | 1.4 |
nbclient | 0.5.3 | nbconvert | 6.0.7 | nbformat | 5.1.3 |
nest-asyncio | 1.5.1 | networkx | 2.5 | nltk | 3.6.1 |
notebook | 6.3.0 | numba | 0.54.0 | numpy | 1.19.2 |
oauthlib | 3.1.0 | opt-einsum | 3.3.0 | verpakking | 20.9 |
Pandas | 1.2.4 | pandas-profilering | 3.0.0 | pandocfilters | 1.4.3 |
paramiko | 2.7.2 | parso | 0.7.0 | Patsy | 0.5.1 |
petastorm | 0.11.2 | pexpect | 4.8.0 | phik | 0.12.0 |
pickleshare | 0.7.5 | Kussen | 8.2.0 | pit | 21.0.1 |
plotly | 5.1.0 | prompt-toolkit | 3.0.17 | profeet | 1.0.1 |
protobuf | 3.17.2 | psutil | 5.8.0 | psycopg2 | 2.8.5 |
ptyprocess | 0.7.0 | pyarrow | 4.0.0 | pyasn1 | 0.4.8 |
pyasn1-modules | 0.2.8 | pycparser | 2,20 | pydantic | 1.8.2 |
Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
PyNaCl | 1.3.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
pyrsistent | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.6 |
python-dateutil | 2.8.1 | python-editor | 1.0.4 | pytz | 2020.5 |
PyWavelets | 1.1.1 | PyYAML | 5.4.1 | pyzmq | 20.0.0 |
regex | 2021.4.4 | requests | 2.25.1 | requests-oauthlib | 1.3.0 |
requests-unixsocket | 0.2.0 | RSA | 4.7.2 | s3transfer | 0.3.7 |
scikit-learn | 0.24.1 | scipy | 1.6.2 | seaborn | 0.11.1 |
Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
Shap | 0.39.0 | simplejson | 3.17.2 | Zes | 1.15.0 |
Slicer | 0.0.7 | smmap | 3.0.5 | spark-tensorflow-distributor | 1.0.0 |
sqlparse | 0.4.1 | ssh-import-id | 5.10 | statsmodels | 0.12.2 |
Tabulate | 0.8.7 | tangled-up-in-unicode | 0.1.0 | vasthoudendheid | 6.2.0 |
tensorboard | 2.6.0 | tensorboard-data-server | 0.6.1 | tensorboard-plugin-wit | 1.8.0 |
tensorflow | 2.6.0 | tensorflow-estimator | 2.6.0 | termcolor | 1.1.0 |
terminado | 0.9.4 | testpath | 0.4.4 | threadpoolctl | 2.1.0 |
fakkel | 1.9.0+cu111 | torchvision | 0.10.0+cu111 | tornado | 6.1 |
tqdm | 4.59.0 | traitlets | 5.0.5 | typen-extensies | 3.7.4.3 |
ujson | 4.0.2 | upgrades zonder toezicht | 0,1 | urllib3 | 1.25.11 |
virtualenv | 20.4.1 | Visioenen | 0.7.1 | wcwidth | 0.2.5 |
webencodings | 0.5.1 | websocket-client | 0.57.0 | Werkzeug | 1.0.1 |
wiel | 0.36.2 | widgetsnbextension | 3.5.1 | wrapt | 1.12.1 |
xgboost | 1.4.2 | zipp | 3.4.1 |
Spark-pakketten met Python-modules
Spark-pakket | Python-module | Versie |
---|---|---|
graphframes | graphframes | 0.8.1-db3-spark3.1 |
R-bibliotheken
De R-bibliotheken zijn identiek aan de R-bibliotheken in Databricks Runtime 9.1 LTS.
Java- en Scala-bibliotheken (Scala 2.12-cluster)
Naast Java- en Scala-bibliotheken in Databricks Runtime 9.1 LTS bevat Databricks Runtime 9.1 LTS ML de volgende JAR's:
CPU-clusters
Groeps-id | Artefact-id | Versie |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.17.0-4882dc3 |
ml.dmlc | xgboost4j-spark_2.12 | 1.4.1 |
ml.dmlc | xgboost4j_2.12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-spark3.1 |
org.mlflow | mlflow-client | 1.20.2 |
org.mlflow | mlflow-spark | 1.20.2 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
GPU-clusters
Groeps-id | Artefact-id | Versie |
---|---|---|
com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.17.0-4882dc3 |
ml.dmlc | xgboost4j-gpu_2.12 | 1.4.1 |
ml.dmlc | xgboost4j-spark-gpu_2.12 | 1.4.1 |
org.graphframes | graphframes_2.12 | 0.8.1-db2-spark3.1 |
org.mlflow | mlflow-client | 1.20.2 |
org.mlflow | mlflow-spark | 1.20.2 |
org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |