練習 - 從內建範本建立 HPC 叢集
您可以直接從 Azure CycleCloud Web 應用程式的圖形化介面建立新叢集。 CycleCloud 提供許多預先定義且排程器特有的範本,可簡化對應排程器的叢集佈建。
現在您已佈建裝載 CycleCloud Web 應用程式的 Azure 虛擬機器,您就可以開始評估其用於將以 Slurm 為基礎的 HPC 叢集部署到 Azure 的使用方式。 您必須先確定您的 Azure 訂用帳戶將能滿足叢集的資源需求。 您也要考慮管理小組是否要將叢集的成本維持在專案預算內。 因此,您打算在完成評估之後設定 CycleCloud 預算警示,並取消佈建實驗室環境。
在本練習中,您會逐步使用 Azure CycleCloud,來將以 Slurm 為基礎的 HPC 叢集部署到 Azure。 本練習包含下列工作:
- 工作 1:為 HPC 叢集的部署做好準備
- 工作 2:使用 Azure CycleCloud 建立 HPC 叢集
- 工作 3:使用 Azure CycleCloud 設定及啟動 HPC 叢集
- 工作 4:清理實驗室環境
工作 1:為 HPC 叢集的部署做好準備
在您部署 HPC 叢集之前,應該先確定您有足夠的網路和計算資源來滿足其使用方式。
注意
若要完成本練習,您不需要滿足配額需求來配合佈建計算節點,因為您不會在所建立的叢集上執行任何作業。 但是,如果是這種情況,您可能注意到本練習中的螢幕擷取畫面與 CycleCloud Web 介面的螢幕擷取畫面不符,因為如果您沒有足夠的可用核心數目,CycleCloud 就不會預先建立預留位置計算節點。
在您的電腦上,切換至顯示 Azure 入口網站的瀏覽器視窗。
在 Azure 入口網站中,使用入口網站介面頂端的搜尋方塊來搜尋 cyclecloud-rg 資源群組。
在 Azure 入口網站的 [cyclecloud-rg] 頁面上,選取資源清單中的 [cyclecloud-rg-vnet] 項目,其代表您在本課程模組的上一個練習中佈建的虛擬網路。
在 [cyclecloud-rg-vnet] 頁面上,選取左側垂直功能表中的 [子網路]。
在 [cyclecloud-rg-vnet | 子網路] 頁面上,選取 [+ 子網路]。
在 [新增子網路] 頁面的 [名稱] 文字方塊中,輸入 contoso-slurm-lab-cluster-subnet、接受預設的子網路範圍,然後選取 [儲存]。
注意
建議您將裝載 CycleCloud Azure VM 的子網路與裝載叢集計算資源的子網路分隔開來。 針對較大型叢集,您應該配置足夠大小的 IP 位址範圍。
在 Azure 入口網站中,使用搜尋方塊來搜尋訂用帳戶。
在 [訂用帳戶] 頁面上,選取您在本課程模組中練習用 Azure 訂用帳戶。
在顯示 Azure 訂用帳戶的頁面上,於左側垂直功能表的 [設定] 區段中,選取 [使用量 + 配額]。
在 [使用量 + 配額] 頁面上,進行下列篩選設定 (將其他設定保留為預設值):
設定 值 選取服務 選取 [標準 Dv3 系列 vCPU]、[標準 FSv2 系列 vCPU] 及 [區域 vCPU 總計] 項目。 選取提供者 選取 [Microsoft.Compute] 項目。 選取位置 在此練習中,選取您想要在其中部署叢集的 Azure 區域名稱。 檢閱輸出,並識別每個群組中可用的 vCPU 數目。
工作 2:使用 Azure CycleCloud 建立 HPC 叢集
現在您已在 Azure VM 中安裝 CycleCloud Web 應用程式、您的 Azure 訂用帳戶中有足夠的 vCPU 核心可供使用,以及能夠容納自動調整叢集節點的指定網路子網路。 您已經準備好開始部署以 Slurm 為基礎的叢集。
在您的電腦上,於顯示 Azure CycleCloud Web 應用程式 [訂用帳戶] 頁面的網頁瀏覽器視窗中,選取左上角的 [回到叢集] 連結。
在 [建立新叢集] 頁面上,檢閱可用的選項,然後在 [排程器] 區段中選取 [Slurm]。
在 [新增 Slurm 叢集] 頁面的 [關於] 索引標籤上,於 [叢集名稱] 文字方塊中,輸入 contoso-slurm-lab-cluster。
在 [新增 Slurm 叢集] 頁面的 [必要的設定] 索引標籤上,於 [叢集名稱] 文字方塊中,進行下列設定 (將其他設定保留為預設值):
設定 值 區域 在此練習中,選取您想要在其中部署叢集的 Azure 區域名稱。 排程器 VM 類型 選取 [選擇],然後在 [選取機器類型] 快顯視窗的 [SKU 搜尋] 文字方塊中,輸入 "D2ds_v5"。 在結果清單中,選取 D2ds_v5 項目旁邊的核取方塊,然後選取 [套用]。 設定 值 最大 HPC 核心 輸入 100 最大 HTC 核心 輸入 100 每個擴展集的 VM 數目上限 輸入 40 子網路識別碼 選取 cyclecloud-rg: cyclecloud-rg-vnet-contoso-slurm-lab-cluster-subnet 注意
[每個擴展集的 VM 數目上限] 設定將限制可在叢集上執行的訊息傳遞介面作業大小上限,因為擴展集目前是 InfiniBand 網狀架構界限。
在 [新增 Slurm 叢集] 頁面的 [網路連接儲存裝置] 索引標籤上,確認已將 [NFS 類型] 設定為 [內建]。 接受已設為 100 的 [大小 (GB)] 預設值,然後選取 [下一步]。
在 [新增 Slurm 叢集] 頁面的 [進階設定] 索引標籤上,檢閱可用選項而不進行任何變更,然後選取 [下一步]。
在 [新增 Slurm 叢集] 頁面的 [Cloud-init] 索引標籤上,檢閱可用選項而不進行任何變更,然後選取 [儲存]。
工作 3:使用 Azure CycleCloud 設定及啟動 HPC 叢集
為了準備讓您的叢集運作,您將設定警示,在叢集使用量成本達到配置給 Azure 資源成本的預算時通知您。 您也將使用 CycleCloud Web 應用程式的圖形化介面來啟動叢集,藉此驗證您的部署。
在您的電腦上,於顯示 Azure CycleCloud Web 應用程式圖形化介面的網頁瀏覽器中,檢閱最新部署之叢集的屬性。
在 [contoso-slurm-lab-cluster] 頁面上,選取 [建立新的警示] 連結。
在 [contoso-slurm-lab-cluster 的叢集使用量警示] 快顯視窗中,指定下列設定,然後選取 [儲存]:
設定 值 預算 $100.00 每個 Month 傳送通知 已啟用 收件者 cc-admin@contoso.com 回到 [contoso-slurm-lab-cluster] 頁面,選取 [開始] 連結,然後在系統提示您確認時,選取 [確定]。
監視啟動流程。
注意
此流程牽涉到佈建 Azure VM 來提供叢集前端節點的角色,以及安裝並設定 Slurm 排程器。 這大約需要五分鐘的時間。
工作 4:清理實驗室環境
您已使用 Azure CycleCloud 應用程式完成叢集部署流程的測試。 為了避免因為使用 Azure 資源而產生不必要的成本,請終止叢集,並移除您在本課程的練習中所佈建的所有資源。
在您的電腦上,於顯示 Azure CycleCloud Web 應用程式圖形化介面的網頁瀏覽器中,在 [contoso-slurm-lab-cluster] 頁面上選取 [終止] 連結,並在系統提示您確認時,選取 [確定]。
監視終止流程。
注意
此流程涉及取消佈建充當叢集前端節點的 Azure VM。 這大約需要五分鐘的時間。
注意
您應該刪除您在此練習中部署的資源,如此工作所概述。 如果您未刪除資源,可能就會對您的訂用帳戶產生額外費用。
注意
若要刪除您在此實驗室中佈建的所有其他資源,請刪除 cyclecloud-rg 資源群組。
在您的電腦上,切換至顯示 Azure 入口網站的瀏覽器視窗。
在 Azure 入口網站中,瀏覽至 [cyclecloud-rg] 刀鋒視窗。 選取工具列中的 [刪除資源群組] 項目,接著在 [輸入資源群組名稱] 文字方塊中,輸入 cyclecloud-rg,然後選取 [刪除]。
重複上述步驟來刪除名稱開頭為 contoso-slurm-lab-cluster- 的資源群組,其中包含叢集所使用的磁碟資源。
恭喜! 您已成功完成此課程模組的第二個練習。 您已確保滿足新叢集部署所需的計算和網路資源可用性。 接著,您使用了 Azure CycleCloud 來部署叢集、設定其預算警示,並加以啟動來驗證功能。 最後,您終止了叢集並刪除您在此課程模組中佈建的所有資源,以避免任何不必要的成本。