什麼是適用於 Slurm 的 Azure CycleCloud 工作區?
Slurm 是 AI/HPC 和雲端運算最熱門且廣泛使用的開放原始碼工作負載管理員之一。 Slurm 可讓使用者跨一組計算節點執行大規模的平行和分散式應用程式,並提供作業排程、資源管理、容錯和電源管理等功能。 Slurm 被世界上許多頂級超級計算機、研究機構、大學和企業使用。
不過,在雲端上設定和管理 Slurm 叢集可能具有挑戰性且耗時,特別是對於不熟悉雲端環境或 Slurm 設定的使用者。 使用者必須處理布建和調整計算節點、安裝和更新 Slurm 軟體、設定網路和記憶體、監視叢集健康情況和效能,以及疑難解答問題等工作。 這些工作可以分散使用者的核心研究或商務目標,並降低其 AI/HPC 工作負載的生產力和效率。
適用於 Slurm 的 Azure CycleCloud 工作區是 Azure Marketplace 解決方案範本,可讓用戶輕鬆地在 Azure 上使用 CycleCloud 來建立、設定及部署預先定義的 Slurm 叢集,而不需要事先知道 Azure 或 Slurm。 Slurm 叢集將會使用 PMix v4、Pyxis 和 enroot 預先設定,以支援容器化 AI/HPC Slurm 作業。 使用者可以使用 SSH 或 Visual Studio Code 存取布建的登入節點,以執行一般工作,例如提交和管理 Slurm 作業。
雖然 Azure CycleCloud 已經可讓您執行其中一些動作,但不會為您部署 AI/HPC 基礎結構。 用戶必須處理工作,例如安裝和設定 CycleCloud、設定網路和記憶體,以及建立和設定 Slurm 叢集。 適用於 Slurm 的 Azure CycleCloud 工作區會在 Marketplace 解決方案範本中為您執行這些工作,此範本可以直接從 Azure 入口網站或透過 Azure CLI 進行部署。 您將會在幾分鐘內準備好,而不是數天或數周。
適用於 Slurm 的 Azure CycleCloud 工作區有哪些優點?
當您想要在 Azure 中建置 AI/HPC 環境時,Azure CycleCloud 是絕佳的解決方案,您可以隨即轉移部分內部部署 AI/HPC 工作負載,或建置新的環境。 不過,建置完整的端對端 AI/HPC 環境並非易事,您必須決定如何設計網路、要使用哪一個記憶體元件作為共用檔系統、執行工作負載的 VM 類型,以及許多讓專案變得複雜而無法傳遞的小型專案。
適用於 Slurm 的 Azure CycleCloud 工作區為想要在 Azure 上執行 Slurm 工作負載的使用者提供數個優點,例如:
簡單且快速的叢集建立:用戶可以在幾分鐘內在 Azure 上建立 Slurm 叢集,方法是遵循 GUI 中的幾個簡單步驟。 這必須與過去沒有適用於 Slurm 的 Azure CycleCloud 工作區的天數或幾周進行比較。 使用者可以從各種 Azure 虛擬機 (VM) 大小和類型中選擇,並自定義叢集設定,例如節點數目、網路設定、從 Azure NetApp Files 到 Azure 受控 Lustre 檔案系統的記憶體選項,以及 Slurm 參數。
彈性和動態叢集管理:Azure CycleCloud 將會相應增加或減少 Slurm 叢集。 使用者也可以監視叢集狀態、效能和使用率,以及檢視 GUI 中的叢集記錄和計量。 當使用者不再需要叢集時,也可以刪除其 Slurm 叢集,並只支付其使用的資源費用。
如何建立適用於 Slurm 的 Azure CycleCloud 工作區?
您可以從 Azure Marketplace 或使用 Azure CLI 部署適用於 Slurm 的 Azure CycleCloud 工作區。 若要從 Marketplace 部署,請先搜尋 Slurm,然後按兩下 [建立] 按鈕。 若要使用 Azure CLI 進行部署,您必須先建立輸入參數檔案,然後使用 az deployment sub create
命令進行部署。 如需詳細指示,請參閱這裡 如何使用 CLI 部署 CycleCloud Slurm 工作區環境
什麼是適用於 Slurm 的 Azure CycleCloud 工作區?
適用於 Slurm 的 Azure CycleCloud 工作區不是 PaaS 服務:整個基礎結構都會部署在租使用者中,因此可讓您部署所有專案(綠地部署),或指定要重複使用的現有資源(棕色區域部署),例如目標資源群組、虛擬網路、Azure NetApp Files 等等。
適用於 Slurm 部署環境的 Azure CycleCloud 工作區看起來是什麼樣子
以下是 Azure CycleCloud Workspace for Slurm 所部署專案的一般架構。 將會有強制資源,例如執行 CycleCloud 的虛擬機、使用者主目錄的共用檔系統、CycleCloud 專案記憶體的記憶體帳戶。
虛擬網路可由適用於 Slurm 的 Azure CycleCloud 工作區或將在其中建立資源的現有虛擬網路進行部署。 您可以選擇性地在自己的子網中建立 Azure 受控 Lustre 文件系統。
如果您的公司安全性規則不允許公用IP(且許多人這樣做),您就能夠在一般中樞和輪輻模式中建立與現有虛擬網路的 VNet 對等互連。 中樞接著會包含所有連線服務,例如虛擬網路網關或 Azure Bastion。
最後,在無公用IP、無 VPN 環境中,需要 Bastion,並提供所有安全的連線,以連線到登入節點中的 CycleCloud 入口網站和 SSH。