適用於 ML 的 Databricks Runtime 5.4 (EoS)
注意
針對此 Databricks Runtime 版本的支援已結束。 如需了解終止支援日期,請參閱終止支援歷程記錄。 如需所有支援的 Databricks Runtime 版本,請參閱 Databricks Runtime 發行說明版本與相容性。
Databricks 於 2019 年 6 月發行此版本。
適用於機器學習的 Databricks Runtime 5.4 提供以 Databricks Runtime 5.4 (EoS) 為基礎的機器學習和資料科學現成環境。 Databricks Runtime ML 含有許多熱門的機器學習程式庫,包括 TensorFlow、PyTorch、Keras 和 XGBoost。 其也支援使用 Horovod 的分散式深度學習訓練。
如需詳細資訊,包括建立 Databricks Runtime ML 叢集的指示,請參閱 Databricks 上的 AI 和機器學習 (英文)。
新功能
Databricks Runtime 5.4 ML 是以 Databricks Runtime 5.4 為基礎而建置。 如需 Databricks Runtime 5.4 新增功能的相關資訊,請參閱 Databricks Runtime 5.4 (EoS) 版本資訊。
除了程式庫更新之外,Databricks Runtime 5.4 ML 還引進了下列新功能:
分散式 Hyperopt + 自動化 MLflow 追蹤
Databricks Runtime 5.4 ML 引進由 Apache Spark 支援的 Hyperopt 新實作,以縮放和簡化超參數微調。 實作新的 Trials
類別 SparkTrials
,以使用 Apache Spark 在多部機器和節點之間散發 Hyperopt 試用版執行。 此外,所有微調實驗,以及微調的超參數和目標計量,均會自動記錄至 MLflow 執行。 請參閱平行處理 Hyperopt 超參數微調。
重要
這項功能處於公開預覽狀態。
Apache Spark MLlib + 自動化 MLflow 追蹤
Databricks Runtime 5.4 ML 支援使用 PySpark 微調演演算法 CrossValidator
和 TrainValidationSplit
自動記錄模型擬合的 MLflow 執行。 請參閱 Apache Spark MLlib 和自動化 MLflow 追蹤。 此功能預設在 Databricks Runtime 5.4 ML 中開啟,但在 Databricks Runtime 5.3 ML 中預設為關閉。
重要
這項功能處於公開預覽狀態。
HorovodRunner 改進
從 Horovod 傳送至 Spark 驅動程式節點的輸出現在會顯示在筆記本儲存格中。
XGBoost Python 套件更新
已安裝 XGBoost Python 套件 0.80。
系統環境
如下所示,Databricks Runtime 5.4 ML 中的系統環境與 Databricks Runtime 5.4 有所不同:
- Python:適用於 Python 2 叢集的 2.7.15,Python 3 叢集為 3.6.5。
- DBUtils:Databricks Runtime 5.4 ML 不包含程式庫公用程式 (dbutils.library) (舊版)。
- 針對 GPU 叢集,包含下列 NVIDIA GPU 程式庫:
- Tesla 驅動程式 396.44
- CUDA 9.2
- CUDNN 7.2.1
程式庫
下列各節列出 Databricks Runtime 5.4 ML 中,與 Databricks Runtime 5.4 所包含程式庫有所不同的程式庫。
頂層程式庫
Databricks Runtime 5.4 ML 包含下列頂層程式庫:
Python 程式庫
Databricks Runtime 5.4 ML 使用 Conda 進行 Python 套件管理。 因此,相較於 Databricks Runtime,已安裝的 Python 程式庫有主要差異。 下列是使用 Conda 套件管理員所安裝之 Python 套件和版本的完整清單。
程式庫 | 版本 | 程式庫 | 版本 | 程式庫 | 版本 |
---|---|---|---|---|---|
absl-py | 0.7.1 | argparse | 1.4.0 | asn1crypto | 0.24.0 |
astor | 0.7.1 | backports-abc | 0.5 | backports.functools-lru-cache | 1.5 |
backports.weakref | 1.0.post1 | bcrypt | 3.1.6 | bleach | 2.1.3 |
boto | 2.48.0 | boto3 | 1.7.62 | botocore | 1.10.62 |
certifi | 2018.04.16 | cffi | 1.11.5 | chardet | 3.0.4 |
cloudpickle | 0.5.3 | colorama | 0.3.9 | configparser | 3.5.0 |
密碼編譯 | 2.2.2 | cycler | 0.10.0 | Cython | 0.28.2 |
decorator | 4.3.0 | docutils | 0.14 | entrypoints | 0.2.3 |
enum34 | 1.1.6 | et-xmlfile | 1.0.1 | funcsigs | 1.0.2 |
functools32 | 3.2.3-2 | fusepy | 2.0.4 | future | 0.17.1 |
future | 3.2.0 | gast | 0.2.2 | grpcio | 1.12.1 |
h5py | 2.8.0 | Horovod | 0.16.0 | html5lib | 1.0.1 |
Hyperopt | 0.1.2.db4 | idna | 2.6 | ipaddress | 1.0.22 |
ipython | 5.7.0 | ipython_genutils | 0.2.0 | jdcal | 1.4 |
Jinja2 | 2.10 | jmespath | 0.9.4 | jsonschema | 2.6.0 |
jupyter-client | 5.2.3 | jupyter-core | 4.4.0 | Keras | 2.2.4 |
keras-applications | 1.0.7 | keras-preprocessing | 1.0.9 | kiwisolver | 1.1.0 |
linecache2 | 1.0.0 | llvmlite | 0.23.1 | lxml | 4.2.1 |
Markdown | 3.1.1 | MarkupSafe | 1.0 | matplotlib | 2.2.2 |
mistune | 0.8.3 | mkl-fft | 1.0.0 | mkl-random | 1.0.1 |
mleap | 0.8.1 | mock | 2.0.0 | msgpack | 0.5.6 |
nbconvert | 5.3.1 | nbformat | 4.4.0 | networkx | 2.2 |
nose | 1.3.7 | nose-exclude | 0.5.0 | numba | 0.38.0+0.g2a2b772fc.dirty |
numpy | 1.14.3 | olefile | 0.45.1 | openpyxl | 2.5.3 |
pandas | 0.23.0 | pandocfilters | 1.4.2 | paramiko | 2.4.1 |
pathlib2 | 2.3.2 | patsy | 0.5.0 | pbr | 5.1.3 |
pexpect | 4.5.0 | pickleshare | 0.7.4 | Pillow | 5.1.0 |
pip | 10.0.1 | ply | 3.11 | prompt-toolkit | 1.0.15 |
protobuf | 3.7.1 | psutil | 5.6.2 | psycopg2 | 2.7.5 |
ptyprocess | 0.5.2 | pyarrow | 0.12.1 | pyasn1 | 0.4.5 |
pycparser | 2.18 | Pygments | 2.2.0 | pymongo | 3.8.0 |
PyNaCl | 1.3.0 | pyOpenSSL | 18.0.0 | pyparsing | 2.2.0 |
PySocks | 1.6.8 | Python | 2.7.15 | python-dateutil | 2.7.3 |
pytz | 2018.4 | PyYAML | 5.1 | pyzmq | 17.0.0 |
requests | 2.18.4 | s3transfer | 0.1.13 | scandir | 1.7 |
scikit-learn | 0.19.1 | scipy | 1.1.0 | seaborn | 0.8.1 |
setuptools | 39.1.0 | simplegeneric | 0.8.1 | singledispatch | 3.4.0.3 |
six | 1.11.0 | statsmodels | 0.9.0 | subprocess32 | 3.5.4 |
tensorboard | 1.12.2 | tensorboardX | 1.6 | tensorflow | 1.12.0 |
termcolor | 1.1.0 | testpath | 0.3.1 | torch | 0.4.1 |
torchvision | 0.2.1 | tornado | 5.0.2 | tqdm | 4.32.1 |
traceback2 | 1.4.0 | traitlets | 4.3.2 | unittest2 | 1.1.0 |
urllib3 | 1.22 | virtualenv | 16.0.0 | wcwidth | 0.1.7 |
webencodings | 0.5.1 | Werkzeug | 0.14.1 | wheel | 0.31.1 |
wrapt | 1.10.11 | wsgiref | 0.1.2 |
此外,下列 Spark 套件包含 Python 模組:
Spark 封裝 | Python 模組 | 版本 |
---|---|---|
graphframes | graphframes | 0.7.0-db1-spark2.4 |
spark-deep-learning | sparkdl | 1.5.0-db3-spark2.4 |
tensorframes | tensorframes | 0.6.0-s_2.11 |
R 程式庫
R 程式庫與 Databricks Runtime 5.4 中的 R 程式庫相同。
Java 和 Scala 程式庫 (Scala 2.11 叢集)
除了 Databricks Runtime 5.4 中的 Java 和 Scala 程式庫之外,Databricks Runtime 5.4 ML 還包含下列 JAR:
群組識別碼 | 成品識別碼 | 版本 |
---|---|---|
com.databricks | spark-deep-learning | 1.5.0-db3-spark2.4 |
com.typesafe.akka | akka-actor_2.11 | 2.3.11 |
ml.combust.mleap | mleap-databricks-runtime_2.11 | 0.13.0 |
ml.dmlc | xgboost4j | 0.81 |
ml.dmlc | xgboost4j-spark | 0.81 |
org.graphframes | graphframes_2.11 | 0.7.0-db1-spark2.4 |
org.tensorflow | libtensorflow | 1.12.0 |
org.tensorflow | libtensorflow_jni | 1.12.0 |
org.tensorflow | spark-tensorflow-connector_2.11 | 1.12.0 |
org.tensorflow | tensorflow | 1.12.0 |
org.tensorframes | tensorframes | 0.6.0-s_2.11 |