演習 - 組み込みテンプレートから HPC クラスターを作成する

完了

Azure CycleCloud Web アプリケーションのグラフィカル インターフェイスから、新しいクラスターを直接作成することができます。 CycleCloud には、スケジューラ固有の定義済みテンプレートが多数用意されており、対応するスケジューラ用のクラスターを簡単にプロビジョニングできます。

CycleCloud Web アプリケーションをホストする Azure 仮想マシンをプロビジョニングできたので、それを使った Slurm ベース HPC クラスターの Azure へのデプロイを評価する準備ができました。 まずは、お使いの Azure サブスクリプションがクラスターのリソース要件に対応するようにする必要があります。 また、管理チームがクラスターのコストをプロジェクトの予算内に収めたいと考えているかどうかを考慮する必要があります。 そのため、あなたは CycleCloud の予算アラートを設定し、評価の完了後にラボ環境をプロビジョニング解除することを計画しています。

この演習では、Azure CycleCloud を使用して Slurm ベースの HPC クラスターを Azure にデプロイする方法を段階的に説明します。 演習は次のタスクで構成されます。

  • タスク 1: HPC クラスターのデプロイを準備する
  • タスク 2: Azure CycleCloud を使用して HPC クラスターを作成する
  • タスク 3: Azure CycleCloud を使用して HPC クラスターの構成と起動を行う
  • タスク 4: ラボ環境をクリーンアップする

タスク 1: HPC クラスターのデプロイを準備する

HPC クラスターをデプロイする前に、まずその使用量に対応できる十分なネットワーク リソースとコンピューティング リソースを確保する必要があります。

Note

この演習を完了するために、計算ノードのプロビジョニングに対応するためのクォータ要件を満たす必要はありません。作成するクラスター上ではジョブを実行しないためです。 ただし、その場合、この演習のスクリーンショットとお客様の CycleCloud Web インターフェイスとの間に不一致が生じる可能性があります。使用可能なコアの数が十分でない場合、CycleCloud によってプレースホルダーの計算ノードが事前に作成されないためです。

  1. お使いのコンピューターで、Azure portal が表示されている Web ブラウザー ウィンドウに切り替えます。

  2. Azure portal で、ポータルのインターフェイスの上部にある検索ボックスを使用して、cyclecloud-rg リソース グループを検索します。

  3. Azure portal の [cyclecloud-rg] ページで、リソースの一覧から [cyclecloud-rg-vnet] エントリを選択します。これは、このモジュールの前の演習でプロビジョニングした仮想ネットワークを表します。

  4. [cyclecloud-rg-vnet] ページの左側の縦のメニューで、[サブネット] を選択します。

  5. [cyclecloud-rg-vnet | サブネット] ペインで、[+ サブネット] を選択します。

  6. [サブネットの追加] ペインの [名前] テキスト ボックスに「contoso-slurm-lab-cluster-subnet」と入力し、既定のサブネット範囲をそのまま使用して、[保存] を選択します。

    Note

    CycleCloud Azure VM をホストするサブネットを、クラスターのコンピューティング リソースをホストするサブネットから分離することをお勧めします。 大規模なクラスターの場合は、十分なサイズの IP アドレスの範囲を割り当てる必要があります。

  7. Azure portal で検索ボックスを使用して、サブスクリプションを検索します。

  8. [サブスクリプション] ページで、このモジュールの演習に使用している Azure サブスクリプションを選択します。

  9. Azure サブスクリプションが表示されているページの、左側にある縦のメニューの [設定] セクションで、[使用量 + クォータ] を選択します。

  10. [使用量 + クォータ] ペインで、次のフィルター設定を構成します (他の設定は既定値のままにします)。

    設定
    サービスの選択 [Standard Dv3 ファミリの vCPU][Standard FSv2 ファミリの vCPU][リージョンの vCPU の合計] エントリを選択します。
    プロバイダーの選択 [Microsoft.Compute] エントリを選択します。
    場所を選択します。 この演習でクラスターをデプロイする Azure リージョンの名前を選択します。
  11. 出力を確認し、各グループで使用可能な vCPU の数を確認します。

    Azure portal の [使用量とクォータ] ペインを示すスクリーンショット。

タスク 2: Azure CycleCloud を使用して HPC クラスターを作成する

これで、Azure VM にインストールされた CycleCloud Web アプリケーションと、Azure サブスクリプションで使用できる十分な vCPU コアと、クラスター ノードの自動スケーリングに対応できる指定したネットワーク サブネットが整いました。 Slurm ベースのクラスターのデプロイを開始する準備ができました。

  1. お使いのコンピューターで、Azure CycleCloud Web アプリケーションの [サブスクリプション] ページが表示されている Web ブラウザー ウィンドウの、左上隅にある [Back to clusters](クラスターに戻る) リンクを選択します。

  2. [Create a New Cluster](新しいクラスターの作成) ページで、使用可能なオプションを確認し、[スケジューラ] セクションで [Slurm] を選択します。

    Azure CycleCloud Web アプリケーションの [新しいクラスターの作成] ページを示すスクリーンショット。

  3. [New Slurm Cluster](新しい Slurm クラスター) ページの [About](情報) タブの [クラスター名] テキスト ボックスに、「contoso-slurm-lab-cluster」と入力します。

    Azure CycleCloud Web アプリケーションの [新しい Slurm クラスター] ページの [情報] タブを示すスクリーンショット。

  4. [New Slurm Cluster](新しい Slurm クラスター) ページの [必須の設定] タブの [クラスター名] テキスト ボックスで、次の設定を構成します (他の設定は既定値のままにします)。

    設定 Value
    リージョン この演習でクラスターをデプロイする Azure リージョンの名前を選択します。
    Scheduler VM Type (スケジューラの VM の種類) [選択] を選択し、[マシンの種類の選択] ポップアップ ウィンドウの [SKU 検索] テキスト ボックスに、「D2ds_v5」と入力します。 結果の一覧で、[D2ds_v5] エントリの横にあるチェック ボックスをオンにして、[適用] を選択します。

    Azure CycleCloud Web アプリケーションの [新しい Slurm クラスター] ページの [マシンの種類を選択してください] ポップアップ ウィンドウ タブを示すスクリーンショット。

    設定
    最大 HPC コア数 100」と入力します
    最大 HTC コア数 100」と入力します
    スケールセットあたりの最大 VM 数 40」と入力します
    サブネット ID [cyclecloud-rg: cyclecloud-rg-vnet-contoso-slurm-lab-cluster-subnet] を選択します。

    Azure CycleCloud Web アプリケーションの [新しい Slurm クラスター] ページの [必須の設定] タブを示すスクリーンショット。

    Note

    スケールセットは現在 InfiniBand ファブリック境界であるため、[スケールセットあたりの最大 VM 数] 設定によって、クラスターで実行できるメッセージ パッシング インターフェイス ジョブの最大サイズが制限されます。

  5. [新しい Slurm クラスター] ページの [ネットワーク接続ストレージ] タブで、[NFS の種類][ビルトイン] に設定されていることを確認します。 [サイズ (GB)] の既定値が 100 に設定されているのをそのまま受け入れ、[次へ] を選択します。

    Azure CycleCloud Web アプリケーションの [新しい Slurm クラスター] ページの [ネットワーク接続ストレージ] タブを示すスクリーンショット。

  6. [New Slurm Cluster](新しい Slurm クラスター) ページの [詳細設定] タブで、変更を加えずに使用可能なオプションを確認し、[次へ] を選択します。

    Azure CycleCloud Web アプリケーションの [新しい Slurm クラスター] ページの [詳細設定] タブを示すスクリーンショット。

  7. [New Slurm Cluster](新しい Slurm クラスター) ページの [cloud-init] タブで、変更を加えずに使用可能なオプションを確認し、[保存] を選択します。

タスク 3: Azure CycleCloud を使用して HPC クラスターの構成と起動を行う

クラスターの運用化を準備するために、クラスターの使用コストが Azure リソースのコストに対して割り当てられている予算に達した場合に通知するアラートを設定します。 また、CycleCloud Web アプリケーションのグラフィカル インターフェイスを使用してクラスターを起動して、デプロイを検証します。

  1. お使いのコンピューターで、Azure CycleCloud Web アプリケーションのグラフィカル インターフェイスが表示されている Web ブラウザーで、新しくデプロイされたクラスターのプロパティを確認します。

    Azure CycleCloud Web アプリケーションの、オフ状態の contoso-slurm-lab-cluster のページを示すスクリーンショット。

  2. [contoso-slurm-lab-cluster] ページで、[Create new alert](新しいアラートの作成) リンクを選択します。

  3. [Cluster usage alert for contoso-slurm-lab-cluster](contoso-slurm-lab-cluster のクラスター使用状況アラート) ポップアップ ウィンドウで、次の設定を指定し、[保存] を選択します。

    設定
    予算 $100.00
    単位 Month
    通知の送信 Enabled
    Recipients cc-admin@contoso.com

    Azure CycleCloud Web アプリケーションの contoso-slurm-lab-cluster のクラスター使用状況アラート ポップアップ ウィンドウを示すスクリーンショット。

  4. [contoso-slurm-lab-cluster] ページに戻り、[開始] リンクを選択します。確認を求めるメッセージが表示されたら、[OK] を選択します。

  5. 起動プロセスを監視します。

    Note

    このプロセスには、クラスターのヘッド ノードの役割を果たす Azure VM のプロビジョニングと、Slurm スケジューラのインストールと構成が含まれます。 これには 5 分ほどかかる場合があります。

    Azure CycleCloud Web アプリケーションの、開始済み状態の contoso-slurm-lab-cluster の [ノード] タブ ページを示すスクリーンショット。

タスク 4: ラボ環境をクリーンアップする

これで、Azure CycleCloud アプリケーションを使用したクラスターのデプロイ プロセスのテストが完了しました。 Azure リソースの使用に関連付けられる不要なコストがかからないようにするために、クラスターを終了し、このコースの演習全体でプロビジョニングしたリソースをすべて削除します。

  1. お使いのコンピューターで、Azure CycleCloud Web アプリケーションのグラフィカル インターフェイスが表示されている Web ブラウザーで、[contoso-slurm-lab-cluster] ページの [終了] リンクを選択します。確認を求めるメッセージが表示されたら、[OK] を選択します。

  2. 終了プロセスを監視します。

    注意

    このプロセスには、クラスターのヘッド ノードの役割を果たす Azure VM のプロビジョニング解除が含まれます。 これには 5 分ほどかかる場合があります。

    Note

    このタスクの説明に従って、この演習の一環としてデプロイしたリソースを削除する必要があります。 リソースを削除しない場合、お使いのサブスクリプションに追加料金が発生する可能性があります。

    Note

    このラボでプロビジョニングした他のすべてのリソースを削除するために、cyclecloud-rg リソース グループを削除します。

  3. お使いのコンピューターで、Azure portal が表示されているブラウザー ウィンドウに切り替えます。

  4. Azure portal で、[cyclecloud-rg] ブレードに移動します。 ツール バーの [リソース グループの削除] エントリを選択し、[リソース グループ名の入力] テキスト ボックスに「cyclecloud-rg」と入力して、[削除] を選択します。

  5. 前の手順を繰り返して、名前が contoso-slurm-lab-cluster- で始まる、クラスターで使用されるディスク リソースが含まれるリソース グループを削除します。

お疲れさまでした。 このモジュールの 2 番目の演習が正常に完了しました。 新しいクラスターのデプロイに対応するために必要なコンピューティングおよびネットワークのリソースの可用性を確保しました。 次に、Azure CycleCloud を使用してクラスターをデプロイし、その予算アラートを構成し、それを起動して機能を検証しました。 最後に、不要なコストがかからないようにするために、クラスターを終了して、このモジュールでプロビジョニングしたリソースをすべて削除しました。