建立 Spark 叢集

已完成

您可以使用 Azure Databricks 入口網站,在 Azure Databricks 工作區中建立一或多個叢集。

Screenshot of the Create Cluster interface in the Azure Databricks portal.

建立叢集時,您可以指定組態設定,包括:

  • 叢集的名稱。
  • [叢集模式],可以是:
    • 「標準」:適用於需要多個背景工作角色節點的單一使用者工作負載。
    • [高並行]:適用於多個使用者會同時使用叢集的工作負載。
    • [單一節點]:適用於小型工作負載或測試,其中只需要單一背景工作角色節點。
  • 要在叢集中使用的「Databricks 執行階段」版本;需指定 Spark 和個別元件的版本,例如 Python、Scala 和要安裝的其他元件。
  • 用於叢集中背景工作角色節點的虛擬機器 (VM) 類型。
  • 叢集中背景工作角色節點的下限和上限。
  • 用於叢集中驅動程式節點的 VM 類型。
  • 叢集是否支援 [自動調整],以動態調整叢集的大小。
  • 叢集在自動關閉之前可以保持閒置的時間長度。

Azure 如何管理叢集資源

建立 Azure Databricks 工作區時,會在您的訂用帳戶中將「Databricks 設備」部署為 Azure 資源。 當您在工作區中建立叢集時,您會指定虛擬機器 (VM) 的類型和大小,以用於驅動程式和背景工作角色節點,也會指定一些其他組態選項,但 Azure Databricks 會管理叢集的所有其他層面。

Databricks 設備會部署至 Azure,作為您訂用帳戶內的受控資源群組。 此資源群組包含驅動程式和叢集的背景工作角色 VM,以及其他必要的資源,包括虛擬網路、安全性群組和儲存體帳戶。 您叢集的所有中繼資料 (例如排定工作) 都會利用異地複寫儲存在 Azure 資料庫中,以便容錯移轉。

在內部,Azure Kubernetes Service (AKS) 是用來透過在最新一代 Azure 硬體 (Dv3 Vm) 上執行的容器,來執行 Azure Databricks 控制平面和資料平面,而 NvMe Ssd 在具備加速網路的高效能 Azure 虛擬機器上,具有極快的 100us 延遲。 Azure Databricks 利用 Azure 的這些功能來進一步改善 Spark 效能。 一旦您受控資源群組內的服務備妥後,您就能夠透過 Azure Databricks UI 和透過自動調整和自動終止之類的功能來管理 Databricks 叢集。

Diagram of Azure Databricks architecture.

注意

您也可以選擇將叢集附加至閒置節點的 [集區],以縮短叢集啟動時間。 如需詳細資訊,請參閱 Azure Databricks 說明文件中的集區