Databricks Runtime 5.4 voor ML (EoS)
Notitie
Ondersteuning voor deze Databricks Runtime-versie is beëindigd. Zie de geschiedenis van einde van ondersteuning voor de einddatum van de ondersteuning. Zie de releaseversies en compatibiliteit van Databricks Runtime voor alle ondersteunde Databricks Runtime-versies.
Databricks heeft deze versie uitgebracht in juni 2019.
Databricks Runtime 5.4 voor Machine Learning biedt een kant-en-klare omgeving voor machine learning en gegevenswetenschap op basis van Databricks Runtime 5.4 (EoS). Databricks Runtime ML bevat veel populaire machine learning-bibliotheken, waaronder TensorFlow, PyTorch, Keras en XGBoost. Het biedt ook ondersteuning voor gedistribueerde deep learning-training met behulp van Horovod.
Zie AI en machine learning op Databricks voor meer informatie, inclusief instructies voor het maken van een Databricks Runtime ML-cluster.
Nieuwe functies
Databricks Runtime 5.4 ML is gebaseerd op Databricks Runtime 5.4. Zie de releaseopmerkingen van Databricks Runtime 5.4 voor informatie over wat er nieuw is in Databricks Runtime 5.4 (EoS ).
Naast bibliotheekupdates introduceert Databricks Runtime 5.4 ML de volgende nieuwe functies:
Gedistribueerde Hyperopt + geautomatiseerde MLflow-tracering
Databricks Runtime 5.4 ML introduceert een nieuwe implementatie van Hyperopt mogelijk gemaakt door Apache Spark om hyperparameterafstemming te schalen en te vereenvoudigen. Er wordt een nieuwe Trials
klasse SparkTrials
geïmplementeerd om proefversies van Hyperopt te distribueren tussen meerdere machines en knooppunten met behulp van Apache Spark. Bovendien worden alle afstemmingsexperimenten, samen met de afgestemde hyperparameters en gerichte metrische gegevens, automatisch geregistreerd bij MLflow-uitvoeringen. Zie Hyperopt hyperparameterafstemming parallelliseren.
Belangrijk
Deze functie is beschikbaar als openbare preview.
Apache Spark MLlib + geautomatiseerde MLflow-tracering
Databricks Runtime 5.4 ML ondersteunt automatische logboekregistratie van MLflow-uitvoeringen voor modellen die geschikt zijn voor pySpark-afstemmingsalgoritmen CrossValidator
en TrainValidationSplit
. Zie Apache Spark MLlib en geautomatiseerde MLflow-tracering. Deze functie is standaard ingeschakeld in Databricks Runtime 5.4 ML, maar is standaard uitgeschakeld in Databricks Runtime 5.3 ML.
Belangrijk
Deze functie is beschikbaar als openbare preview.
Verbetering horovodRunner
Uitvoer die vanuit Horovod naar het Spark-stuurprogrammaknooppunt wordt verzonden, is nu zichtbaar in notebookcellen.
XGBoost Python-pakketupdate
XGBoost Python-pakket 0.80 is geïnstalleerd.
Systeemomgeving
De systeemomgeving in Databricks Runtime 5.4 ML verschilt als volgt van Databricks Runtime 5.4:
- Python: 2.7.15 voor Python 2-clusters en 3.6.5 voor Python 3-clusters.
- DBUtils: Databricks Runtime 5.4 ML bevat geen bibliotheekhulpprogramma (dbutils.library) (verouderd).
- Voor GPU-clusters zijn de volgende NVIDIA GPU-bibliotheken:
- Tesla bestuurder 396.44
- CUDA 9.2
- CUDNN 7.2.1
Bibliotheken
In de volgende secties worden de bibliotheken vermeld die zijn opgenomen in Databricks Runtime 5.4 ML die verschillen van de bibliotheken die zijn opgenomen in Databricks Runtime 5.4.
Bibliotheken met de hoogste laag
Databricks Runtime 5.4 ML bevat de volgende bibliotheken met de hoogste laag:
Python-bibliotheken
Databricks Runtime 5.4 ML maakt gebruik van Conda voor Python-pakketbeheer. Als gevolg hiervan zijn er grote verschillen in geïnstalleerde Python-bibliotheken in vergelijking met Databricks Runtime. Hier volgt een volledige lijst met opgegeven Python-pakketten en -versies die zijn geïnstalleerd met Conda Package Manager.
Bibliotheek | Versie | Bibliotheek | Versie | Bibliotheek | Versie |
---|---|---|---|---|---|
absl-py | 0.7.1 | argparse | 1.4.0 | asn1crypto | 0.24.0 |
Astor | 0.7.1 | backports-abc | 0,5 | backports.functools-lru-cache | 1.5 |
backports.weakref | 1.0.post1 | bcrypt | 3.1.6 | bleken | 2.1.3 |
boto | 2.48.0 | boto3 | 1.7.62 | botocore | 1.10.62 |
certifi | 2018.04.16 | cffiffi | 1.11.5 | chardet | 3.0.4 |
cloudpickle | 0.5.3 | colorama | 0.3.9 | configparser | 3.5.0 |
cryptografie | 2.2.2 | wielrijder | 0.10.0 | Cython | 0.28.2 |
decorateur | 4.3.0 | docutils | 0,14 | invoerpunten | 0.2.3 |
enum34 | 1.1.6 | et-xmlfile | 1.0.1 | funcsigs | 1.0.2 |
functools32 | 3.2.3-2 | fusepy | 2.0.4 | toekomst | 0.17.1 |
Futures | 3.2.0 | gast | 0.2.2 | grpcio | 1.12.1 |
h5py | 2.8.0 | horovod | 0.16.0 | html5lib | 1.0.1 |
hyperopt | 0.1.2.db4 | idna | 2.6 | ipaddress | 1.0.22 |
ipython | 5.7.0 | ipython_genutils | 0.2.0 | jdcal | 1.4 |
Jinja2 | 2.10 | jmespath | 0.9.4 | jsonschema | 2.6.0 |
jupyter-client | 5.2.3 | jupyter-core | 4.4.0 | Keras | 2.2.4 |
Keras-Applications | 1.0.7 | Keras-Preprocessing | 1.0.9 | kiwisolver | 1.1.0 |
linecache2 | 1.0.0 | llvmlite | 0.23.1 | lxml | 4.2.1 |
Markdown | 3.1.1 | MarkupSafe | 1.0 | matplotlib | 2.2.2 |
mistune | 0.8.3 | mkl-fft | 1.0.0 | mkl-random | 1.0.1 |
mleap | 0.8.1 | bespotten | 2.0.0 | msgpack | 0.5.6 |
nbconvert | 5.3.1 | nbformat | 4.4.0 | networkx | 2.2 |
neus | 1.3.7 | neus-uitsluiten | 0.5.0 | numba | 0.38.0+0.g2a2b772fc.dirty |
numpy | 1.14.3 | olefile | 0.45.1 | openpyxl | 2.5.3 |
Pandas | 0.23.0 | pandocfilters | 1.4.2 | paramiko | 2.4.1 |
pathlib2 | 2.3.2 | Patsy | 0.5.0 | pbr | 5.1.3 |
pexpect | 4.5.0 | pickleshare | 0.7.4 | Kussen | 5.1.0 |
pit | 10.0.1 | Ply | 3.11 | prompt-toolkit | 1.0.15 |
protobuf | 3.7.1 | psutil | 5.6.2 | psycopg2 | 2.7.5 |
ptyprocess | 0.5.2 | pyarrow | 0.12.1 | pyasn1 | 0.4.5 |
pycparser | 2.18 | Pygments | 2.2.0 | pymongo | 3.8.0 |
PyNaCl | 1.3.0 | pyOpenSSL | 18.0.0 | pyparsing | 2.2.0 |
PySocks | 1.6.8 | Python | 2.7.15 | python-dateutil | 2.7.3 |
pytz | 2018.4 | PyYAML | 5.1 | pyzmq | 17.0.0 |
requests | 2.18.4 | s3transfer | 0.1.13 | scandir | 1,7 |
scikit-learn | 0.19.1 | scipy | 1.1.0 | seaborn | 0.8.1 |
setuptools | 39.1.0 | simplegeneric | 0.8.1 | singledispatch | 3.4.0.3 |
Zes | 1.11.0 | statsmodels | 0.9.0 | subproces32 | 3.5.4 |
tensorboard | 1.12.2 | tensorboardX | 1.6 | tensorflow | 1.12.0 |
termcolor | 1.1.0 | testpath | 0.3.1 | fakkel | 0.4.1 |
torchvision | 0.2.1 | tornado | 5.0.2 | tqdm | 4.32.1 |
traceback2 | 1.4.0 | traitlets | 4.3.2 | unittest2 | 1.1.0 |
urllib3 | 1.22 | virtualenv | 16.0.0 | wcwidth | 0.1.7 |
webencodings | 0.5.1 | Werkzeug | 0.14.1 | wiel | 0.31.1 |
wrapt | 1.10.11 | wsgiref | 0.1.2 |
Daarnaast bevatten de volgende Spark-pakketten Python-modules:
Spark-pakket | Python-module | Versie |
---|---|---|
graphframes | graphframes | 0.7.0-db1-spark2.4 |
spark-deep learning | sparkdl | 1.5.0-db3-spark2.4 |
tensorframes | tensorframes | 0.6.0-s_2.11 |
R-bibliotheken
De R-bibliotheken zijn identiek aan de R-bibliotheken in Databricks Runtime 5.4.
Java- en Scala-bibliotheken (Scala 2.11-cluster)
Naast Java- en Scala-bibliotheken in Databricks Runtime 5.4 bevat Databricks Runtime 5.4 ML de volgende JAR's:
Groeps-id | Artefact-id | Versie |
---|---|---|
com.databricks | spark-deep learning | 1.5.0-db3-spark2.4 |
com.typesafe.akka | akka-actor_2.11 | 2.3.11 |
ml.combust.mleap | mleap-databricks-runtime_2.11 | 0.13.0 |
ml.dmlc | xgboost4j | 0.81 |
ml.dmlc | xgboost4j-spark | 0.81 |
org.graphframes | graphframes_2.11 | 0.7.0-db1-spark2.4 |
org.tensorflow | libtensorflow | 1.12.0 |
org.tensorflow | libtensorflow_jni | 1.12.0 |
org.tensorflow | spark-tensorflow-connector_2.11 | 1.12.0 |
org.tensorflow | tensorflow | 1.12.0 |
org.tensorframes | tensorframes | 0.6.0-s_2.11 |