共用方式為


快速入門 - 使用 Marketplace 部署適用於 Slurm 的 Azure CycleCloud 工作區

適用於 Slurm 的 Azure CycleCloud 工作區是免費的 Marketplace 應用程式,可提供簡單、安全且可調整的方式來管理 HPC 和 AI 工作負載的計算和記憶體資源。 在本快速入門中,您將使用 Marketplace 應用程式安裝 CycleCloud Workspace for Slurm。

先決條件

在本快速入門中,您將需要:

  1. 具有作用中訂用帳戶的 Azure 帳戶
  2. 訂用帳戶層級 參與者使用者存取系統管理員 角色

如何部署?

  • 登入 Azure 入口網站
  • 按兩下左上方 + Create a Resource 選項
  • 在 [Search services and marketplace] 方塊中,輸入 Slurm,然後選取 [Azure CycleCloud Workspace for Slurm]。
  • 在 [Azure CycleCloud Workspace for Slurm] 頁面上,選取 [建立]。

適用於 Slurm 市集的 Azure CycleCloud 工作區螢幕快照

基本

  • 在 [[適用於 Slurm 帳戶的新 Azure CycleCloud 工作區] 頁面上,輸入或選取下列詳細數據。
    • 訂用帳戶:如果尚未選取,請選取要使用的訂用帳戶。
    • 區域:選取您要在其中部署 CycleCloud 工作區以進行 Slurm 環境的 Azure 區域。
    • 資源群組:選取適用於 Slurm 帳戶的 Azure CycleCloud 工作區資源群組,或建立新的資源群組。
    • CycleCloud VM 大小:選擇新的 VM 大小或保留預設 VM 大小
    • 系統管理員使用者:輸入 CycleCloud 系統管理員帳戶的名稱和密碼。
    • 系統管理員 SSH 公鑰:直接選取系統管理員帳戶的公用 SSH 金鑰,或儲存在 Azure 中的 SSH 金鑰資源中。

[基本] 選項畫面的螢幕快照

檔案系統

使用者的主目錄 - 建立新

指定使用者主目錄應位於何處。 建立新的 Builtin NFS 會使用排程器 VM 作為具有連結數據磁碟的 NFS 伺服器。 /shared 和 /home Builtin NFS 檔案系統掛接的螢幕快照,

建立新的 Azure NetApp Files 會建立指定容量和服務等級的 ANF 帳戶、集區和磁碟區。 /shared 和 /home Azure NetApp 檔案文件系統掛接的螢幕快照,

使用者的主目錄 - 使用現有目錄

如果您有現有的 NFS 裝入點,請選取 [使用現有的] 選項,然後指定要掛接的設定。 /shared 和 /home 檔案系統掛接的螢幕快照,使用外部 NFS 選項畫面

其他文件系統掛接 - 建立新

如果您需要為項目數據掛接額外的檔案系統,您可以建立新的檔案系統或指定現有的檔案系統。 您可以建立新的 Azure NetApp Files 磁碟區或 Azure 受控 Lustre 文件系統。

建立新 Azure NetApp Files 之其他文件系統掛接的螢幕快照

建立新 Azure 受控 Lustre 之其他文件系統掛接的螢幕快照

其他文件系統掛接 - 使用現有

如果您有現有的外部 NFS 裝入點或 Azure Managed Lustre 檔案系統,您可以指定掛接選項。

現有外部 NFS 之其他文件系統掛接的螢幕快照

聯網

如果您要建立新的虛擬網路和子網,或使用現有的虛擬網路,請在這裡指定 。

建立新的虛擬網路

用於建立新 的網路選項螢幕快照

  • 挑選符合目標計算節點數目的 CIDR,並指定基底 IP 位址。
  • 如果您沒有公司IT提供的直接連線,建立 Bastion 是最佳作法。
  • 必須建立 NAT 閘道,才能提供因特網的輸出連線。 這將在2025年成為強制性的,並且已經由一些公司強制執行思想政策,
  • 如果您已經有中樞可供對等互連,可以傳遞 Bastion 和 VPN 閘道等服務的中樞,請與現有的虛擬網路對等互連。 請小心挑選與您的對等互連 VNET 相容的基底 IP 位址。 檢查 [允許閘道傳輸],如果對等互連 VNET 有閘道。

使用現有的虛擬網路

使用現有的虛擬網路之前,請先檢查 規劃您的 CycleCloud 工作區以進行 Slurm 部署

使用現有網路選項的螢幕快照

Slurm 設定

指定要用於排程器和登入節點的 VM 大小和映像。 映像是 Azure Marketplace 中提供的 HPC 映射,其中包含相關聯的 URI:

映射名稱 URI
Alma Linux 8.7 almalinux:almalinux-hpc:8_7-hpc-gen2:latest
Ubuntu 20.04 microsoft-dsvm:ubuntu-hpc:2004:latest
Ubuntu 22.04 microsoft-dsvm:ubuntu-hpc:2204:latest
自定義映像 您必須指定映像 URN 或映像識別碼

如果您選擇 Custom Image 您必須針對現有的市集映像指定映射 URN,或為 Azure 計算資源庫中的映像指定映像標識符。

您也可以檢查 Use image on all nodes 是否希望排程器、登入節點和計算節點使用相同的映像。

設定您要在啟動時布建的登入節點數目和最大數目。 最後,啟用健康情況檢查將會執行 HPC 和 GPU 磁碟分區的節點健康情況檢查,以在啟動時自動移除狀況不良的節點。

Slurm 設定 的螢幕快照

如果您想要啟用 Slurm 作業會計,請核取複選框以顯示連線選項。 請注意,您必須擁有先前部署的「適用於 MySQL 的 Azure 資料庫」彈性伺服器資源。 如果您選擇提供自己的虛擬網路,或在部署時建立新的虛擬網路時使用 VNET 對等互連,則可以透過提供 FQDN 或私人 IP 進行連線。 此外,如果您選擇建立新的虛擬網路,則可透過私人端點連線。

作業會計資料庫的 Slurm 設定選項螢幕快照,直接 FQDN

具有私人端點之作業會計資料庫的 [Slurm 設定] 選項螢幕快照

數據分割設定

適用於 Slurm 的 Azure CycleCloud 工作區隨附 3 個定義的 Slurm 分割區:

  • HTC :適用於非 MPI 作業
  • HPC:針對緊密結合的 MPI 作業,主要使用具有 InfiniBand 支援的 VM 類型,
  • GPU :適用於 MPI 和非 MPI GPU 作業

您可以為每個分割區設定 CycleCloud 動態布建的映射和節點數目上限。 只有HTC 磁碟分區會允許使用Spot實例,因為通常不是針對HPC和 GPU 作業使用Spot實例的最佳做法。 不過,您可以在 CycleCloud UI 中的部署之後覆寫這些設定。

[資料分割設定] 選項的螢幕快照

標籤

設定所需資源的相關標籤。 Node Array 標籤會套用至 CycleCloud 動態佈建的虛擬機。

標籤選項的螢幕快照

Review+Create

檢閱您的選項。 此步驟也會處理某些驗證。 檢閱 的螢幕快照

傳遞時,按兩下 [建立] 按鈕以初始化部署 進行中部署的螢幕快照

請遵循部署狀態和步驟。

檢查您的部署

使用 Bastion 搭配部署期間指定的用戶名稱和 SSH 金鑰,連線到 ccw-cyclecloud-vm

[使用 Bastion 連線] 功能表的螢幕快照, [使用 Bastion 連線] 選項的螢幕快照

線上時,請檢查 cloud-init 記錄,以確認所有專案都正確無誤。

$tail -f -n 25 /var/log/cloud-init-output.log
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Starting cluster ccws....
----------------------------
ccws : allocation -> started
----------------------------
Resource group: 
Cluster nodes:
    scheduler: Off -- --  
Total nodes: 1
CC start_cluster successful
/
exiting after install
Cloud-init v. 23.4-7.el8_10.alma.1 running 'modules:final' at Wed, 12 Jun 2024 10:15:53 +0000. Up 11.84 seconds.
Cloud-init v. 23.4-7.el8_10.alma.1 finished at Wed, 12 Jun 2024 10:28:15 +0000. Datasource DataSourceAzure [seed=/dev/sr0].  Up 754.29 seconds

然後,建立用戶端計算機與 CycleCloud VM 之間的連線。 這可以是來自公司 IT、VPN、Bastion 通道、附加公用 IP,如果您的公司允許的話。 流覽至 https://<cycleccloud_ip>連線至 Web 介面,並使用部署期間所提供的使用者名稱和密碼進行驗證。 確認 [排程器] 和 [登入] 節點都在執行。

線上到登入節點

使用 Bastion 時,請使用其中一個公用程式腳稿 util/ssh_thru_bastion.shutil/tunnel_thru_bastion.sh 進行連線,這裡提供。 如果未使用 Bastion,您必須自行建立直接連線能力。