簡介
Azure CycleCloud 可讓您在 Azure 中自訂及管理高效能運算 (HPC) 叢集。
案例
Contoso 是一家位於德克薩斯州休士頓的海洋與氣象服務公司。 Contoso 的研究小組高度依賴內部部署 HPC 叢集來執行以 Slurm 為基礎的作業。
最新起始的專案牽涉到數個模擬,其將追蹤在暴風雨季節期間穿越美國墨西哥灣沿岸地區的暴風雨。 可惜的是,初始評量判斷現有的內部部署 HPC 叢集沒有足夠的計算容量來執行模擬。
身為首席研究工程師,您使用 Contoso 現有的 Azure 訂用帳戶在 Azure 中佈建了新的 HPC 叢集。 為了簡化佈建程序,您實作了 Azure CycleCloud,並用它來部署新的叢集。
現在,您必須自訂您的部署,以針對新的專案進行最佳化。 您具有在內部部署 HPC 環境中使用的現有自訂映像和指令碼。 您想要在佈建排程器和計算節點時重複使用這些映像和指令碼。 您也會探索可簡化部署程序的選項,因為您預計要設定相符的開發和生產叢集。 您打算使用 Azure CycleCloud 的功能來達成這些目標。
我們將會怎麼做?
在此課程模組的一開始,您將使用自訂的 Azure CycleCloud 範本來測試實作叢集的程序。 為此,您將從 Azure CycleCloud 範本 GitHub 存放庫下載現有的範本、對範本中的儲存體設定進行定義變更、匯入新修改的範本,以及使用 Azure CycleCloud 圖形化介面建立叢集。
接下來,您將使用相同的範本在叢集定義中新增額外的 nodearray 和分割區、確定對應的叢集資源可透過 Azure CycleCloud Web 介面進行設定、匯出新部署叢集的屬性、使用新設定的設定加以更新,以及匯入修改過的範本,以將其設定套用至現有的叢集。
最後,您會實作要用於 Azure CycleCloud 的 cloud-init 指令碼。 您會先將指令碼新增至排程器和計算節點,然後啟動叢集以確認 cloud-init 變更是否發生。
主要目標是什麼?
在此課程模組結束時,您將深入了解如何使用 Azure CycleCloud 範本自訂在 Azure 中執行的 HPC 叢集架構。 您也將了解如何使用 cloud-init 指令碼來修改叢集節點的設定。