共用方式為


Databricks Runtime for Machine Learning

本文說明適用於 Machine Learning 的 Databricks Runtime,並提供如何建立使用該叢集的指引。

什麼是適用於機器學習的 Databricks Runtime?

Databricks Runtime for Machine Learning (Databricks Runtime ML) 可使用預先建置的機器學習和深度學習基礎結構 (包括最常見的 ML 和 DL 程式庫) 自動建立叢集。

Databricks Runtime ML 中包含的程式庫

Databricks Runtime ML 包含各種熱門 ML 程式庫。 這些程式庫隨著每個版本的發佈而更新,以包含新功能和修正。

Databricks 已將支援的程式庫子集指定為最上層程式庫。 針對這些函式庫,Databricks 提供更快的更新頻率,並隨著每個運行時間版本更新至最新的套件版本(避免相依性衝突)。 Databricks 也提供最上層程式庫的進階支援、測試和內嵌最佳化。 頂級函式庫僅在主要版本發佈時新增或移除。

您可以安裝其他程式庫,以為您的筆記本或叢集建立自訂環境。

設定 Databricks Runtime ML 的計算資源

根據 Databricks Runtime ML 建立計算的程式,取決於您的工作區是否已啟用 專用群組叢集公開預覽。 為預覽啟用的工作區有新的 簡化計算 UI

使用 Databricks Runtime ML 建立叢集

當您建立叢集時,請從 Databricks 運行時間版本 下拉功能表中選取 Databricks Runtime ML 版本。 CPU 和已啟用 GPU 的 ML 執行階段都可使用。

選取 Databricks Runtime ML

如果您 從筆記本的下拉功能表中選取叢集,則 Databricks Runtime 版本會出現在叢集名稱右側:

檢視 Databricks Runtime ML 版本

如果您選擇啟用 GPU 的 ML 運行時,系統會提示您選擇相容的 驅動程式類型工作類型。 不相容的執行個體類型會在下拉式功能表中呈現灰色。 已啟用 GPU 的執行個體類型列在 [GPU 加速] 標籤下。 如需有關建立 Azure Databricks GPU 叢集的資訊,請參閱已啟用 GPU 的計算。 Databricks Runtime ML 包含 GPU 硬體驅動程式和 NVIDIA 程式庫,例如 CUDA。

使用新的簡化計算UI建立新的叢集

如果您的工作區已啟用專用群組叢集預覽,請使用本節中的步驟

若要使用 Databricks Runtime 的機器學習版本,請選取 [機器學習] 複選框。

MLR 選擇計算 UI

針對 GPU 型計算,請選取已啟用 GPU 的實體類型。 如需支援 GPU 類型的完整清單,請參閱支援的實例類型。

Photon 和 Databricks Runtime ML

當您建立執行 Databricks Runtime 15.2 ML 或更新版本的 CPU 叢集時,您可以選擇啟用 Photon。 Photon 使用 Spark SQL、Spark DataFrame、特徵工程、GraphFrame 和 xgboost4j 改善應用程式的效能。 預期不會改善使用 Spark RDD、Pandas UDF 和非 JVM 語言的應用程式 (例如 Python) 的效能。 因此,XGBoost、PyTorch 和 TensorFlow 等 Python 套件不會因 Photon 而得到改善。

Spark RDD API 和 Spark MLlib 與 Photon 的相容性有限。 使用 Spark RDD 或 Spark MLlib 處理大型資料集時,可能會遇到 Spark 記憶體問題。 請參閱 Spark 記憶體問題

Databricks Runtime ML 叢集的存取模式

若要在執行 Databricks Runtime ML 的叢集上存取 Unity 目錄中的數據,您必須執行下列其中一項:

  • 使用 單一使用者存取模式設定叢集。
  • 使用 專用存取模式設定叢集。 專用存取模式目前處於公開預覽狀態。 專用存取模式提供 Databricks Runtime ML 上共用存取模式的功能。

當計算資源具有 專用 存取權時,可以將資源指派給單一使用者或群組。 指派給群組(群組叢集)時,用戶的許可權會自動縮小群組的許可權範圍,讓使用者安全地與群組的其他成員共用資源。

使用單一使用者存取模式時,下列功能僅適用於 Databricks Runtime 15.4 LTS ML 和更新版本: