演習 - 組み込みテンプレートから HPC クラスターを作成する

25 分

Azure CycleCloud Web アプリケーションのグラフィカルインターフェイスから、新しいクラスターを直接作成することができます。 CycleCloud には、スケジューラ固有の定義済みテンプレートが多数用意されており、対応するスケジューラ用のクラスターを簡単にプロビジョニングできます。

CycleCloud Web アプリケーションをホストする Azure 仮想マシンをプロビジョニングできたので、それを使った Slurm ベース HPC クラスターの Azure へのデプロイを評価する準備ができました。まずは、お使いの Azure サブスクリプションがクラスターのリソース要件に対応するようにする必要があります。また、管理チームがクラスターのコストをプロジェクトの予算内に収めたいと考えているかどうかを考慮する必要があります。そのため、あなたは CycleCloud の予算アラートを設定し、評価の完了後にラボ環境をプロビジョニング解除することを計画しています。

この演習では、Azure CycleCloud を使用して Slurm ベースの HPC クラスターを Azure にデプロイする方法を段階的に説明します。演習は次のタスクで構成されます。

タスク 1: HPC クラスターのデプロイを準備する
タスク 2: Azure CycleCloud を使用して HPC クラスターを作成する
タスク 3: Azure CycleCloud を使用して HPC クラスターの構成と起動を行う
タスク 4: ラボ環境をクリーンアップする

タスク 1: HPC クラスターのデプロイを準備する

HPC クラスターをデプロイする前に、まずその使用量に対応できる十分なネットワークリソースとコンピューティングリソースを確保する必要があります。

Note

この演習を完了するために、計算ノードのプロビジョニングに対応するためのクォータ要件を満たす必要はありません。作成するクラスター上ではジョブを実行しないためです。ただし、その場合、この演習のスクリーンショットとお客様の CycleCloud Web インターフェイスとの間に不一致が生じる可能性があります。使用可能なコアの数が十分でない場合、CycleCloud によってプレースホルダーの計算ノードが事前に作成されないためです。

お使いのコンピューターで、Azure portal が表示されている Web ブラウザーウィンドウに切り替えます。
Azure portal で、ポータルのインターフェイスの上部にある検索ボックスを使用して、cyclecloud-rg リソースグループを検索します。
Azure portal の [cyclecloud-rg] ページで、リソースの一覧から [cyclecloud-rg-vnet] エントリを選択します。これは、このモジュールの前の演習でプロビジョニングした仮想ネットワークを表します。
[cyclecloud-rg-vnet] ページの左側の縦のメニューで、[サブネット] を選択します。
[cyclecloud-rg-vnet | サブネット] ペインで、[+ サブネット] を選択します。
[サブネットの追加] ペインの [名前] テキストボックスに「contoso-slurm-lab-cluster-subnet」と入力し、既定のサブネット範囲をそのまま使用して、[保存] を選択します。

Note

CycleCloud Azure VM をホストするサブネットを、クラスターのコンピューティングリソースをホストするサブネットから分離することをお勧めします。大規模なクラスターの場合は、十分なサイズの IP アドレスの範囲を割り当てる必要があります。
Azure portal で検索ボックスを使用して、サブスクリプションを検索します。
[サブスクリプション] ページで、このモジュールの演習に使用している Azure サブスクリプションを選択します。
Azure サブスクリプションが表示されているページの、左側にある縦のメニューの [設定] セクションで、[使用量 + クォータ] を選択します。

[使用量 + クォータ] ペインで、次のフィルター設定を構成します (他の設定は既定値のままにします)。

設定	値
サービスの選択	[Standard Dv3 ファミリの vCPU]、[Standard FSv2 ファミリの vCPU]、[リージョンの vCPU の合計] エントリを選択します。
プロバイダーの選択	[Microsoft.Compute] エントリを選択します。
場所を選択します。	この演習でクラスターをデプロイする Azure リージョンの名前を選択します。

出力を確認し、各グループで使用可能な vCPU の数を確認します。

タスク 2: Azure CycleCloud を使用して HPC クラスターを作成する

これで、Azure VM にインストールされた CycleCloud Web アプリケーションと、Azure サブスクリプションで使用できる十分な vCPU コアと、クラスターノードの自動スケーリングに対応できる指定したネットワークサブネットが整いました。 Slurm ベースのクラスターのデプロイを開始する準備ができました。

お使いのコンピューターで、Azure CycleCloud Web アプリケーションの [サブスクリプション] ページが表示されている Web ブラウザーウィンドウの、左上隅にある [Back to clusters](クラスターに戻る) リンクを選択します。
[Create a New Cluster](新しいクラスターの作成) ページで、使用可能なオプションを確認し、[スケジューラ] セクションで [Slurm] を選択します。
[New Slurm Cluster](新しい Slurm クラスター) ページの [About](情報) タブの [クラスター名] テキストボックスに、「contoso-slurm-lab-cluster」と入力します。

[New Slurm Cluster](新しい Slurm クラスター) ページの [必須の設定] タブの [クラスター名] テキストボックスで、次の設定を構成します (他の設定は既定値のままにします)。

設定	Value
リージョン	この演習でクラスターをデプロイする Azure リージョンの名前を選択します。
Scheduler VM Type (スケジューラの VM の種類)	[選択] を選択し、[マシンの種類の選択] ポップアップウィンドウの [SKU 検索] テキストボックスに、「D2ds_v5」と入力します。結果の一覧で、[D2ds_v5] エントリの横にあるチェックボックスをオンにして、[適用] を選択します。

Azure CycleCloud Web アプリケーションの [新しい Slurm クラスター] ページの [マシンの種類を選択してください] ポップアップウィンドウタブを示すスクリーンショット。

設定	値
最大 HPC コア数	「100」と入力します
最大 HTC コア数	「100」と入力します
スケールセットあたりの最大 VM 数	「40」と入力します
サブネット ID	[cyclecloud-rg: cyclecloud-rg-vnet-contoso-slurm-lab-cluster-subnet] を選択します。

Azure CycleCloud Web アプリケーションの [新しい Slurm クラスター] ページの [必須の設定] タブを示すスクリーンショット。

Note

スケールセットは現在 InfiniBand ファブリック境界であるため、[スケールセットあたりの最大 VM 数] 設定によって、クラスターで実行できるメッセージパッシングインターフェイスジョブの最大サイズが制限されます。

[新しい Slurm クラスター] ページの [ネットワーク接続ストレージ] タブで、[NFS の種類] が [ビルトイン] に設定されていることを確認します。 [サイズ (GB)] の既定値が 100 に設定されているのをそのまま受け入れ、[次へ] を選択します。
[New Slurm Cluster](新しい Slurm クラスター) ページの [詳細設定] タブで、変更を加えずに使用可能なオプションを確認し、[次へ] を選択します。
[New Slurm Cluster](新しい Slurm クラスター) ページの [cloud-init] タブで、変更を加えずに使用可能なオプションを確認し、[保存] を選択します。

タスク 3: Azure CycleCloud を使用して HPC クラスターの構成と起動を行う

クラスターの運用化を準備するために、クラスターの使用コストが Azure リソースのコストに対して割り当てられている予算に達した場合に通知するアラートを設定します。また、CycleCloud Web アプリケーションのグラフィカルインターフェイスを使用してクラスターを起動して、デプロイを検証します。

お使いのコンピューターで、Azure CycleCloud Web アプリケーションのグラフィカルインターフェイスが表示されている Web ブラウザーで、新しくデプロイされたクラスターのプロパティを確認します。
[contoso-slurm-lab-cluster] ページで、[Create new alert](新しいアラートの作成) リンクを選択します。
[Cluster usage alert for contoso-slurm-lab-cluster](contoso-slurm-lab-cluster のクラスター使用状況アラート) ポップアップウィンドウで、次の設定を指定し、[保存] を選択します。

設定値

予算 $100.00

単位 Month

通知の送信 Enabled

Recipients cc-admin@contoso.com
[contoso-slurm-lab-cluster] ページに戻り、[開始] リンクを選択します。確認を求めるメッセージが表示されたら、[OK] を選択します。
起動プロセスを監視します。

Note

このプロセスには、クラスターのヘッドノードの役割を果たす Azure VM のプロビジョニングと、Slurm スケジューラのインストールと構成が含まれます。これには 5 分ほどかかる場合があります。

設定	値
予算	$100.00
単位	Month
通知の送信	Enabled
Recipients	cc-admin@contoso.com

タスク 4: ラボ環境をクリーンアップする

これで、Azure CycleCloud アプリケーションを使用したクラスターのデプロイプロセスのテストが完了しました。 Azure リソースの使用に関連付けられる不要なコストがかからないようにするために、クラスターを終了し、このコースの演習全体でプロビジョニングしたリソースをすべて削除します。

お使いのコンピューターで、Azure CycleCloud Web アプリケーションのグラフィカルインターフェイスが表示されている Web ブラウザーで、[contoso-slurm-lab-cluster] ページの [終了] リンクを選択します。確認を求めるメッセージが表示されたら、[OK] を選択します。
終了プロセスを監視します。

注意

このプロセスには、クラスターのヘッドノードの役割を果たす Azure VM のプロビジョニング解除が含まれます。これには 5 分ほどかかる場合があります。

Note

このタスクの説明に従って、この演習の一環としてデプロイしたリソースを削除する必要があります。リソースを削除しない場合、お使いのサブスクリプションに追加料金が発生する可能性があります。

Note

このラボでプロビジョニングした他のすべてのリソースを削除するために、cyclecloud-rg リソースグループを削除します。
お使いのコンピューターで、Azure portal が表示されているブラウザーウィンドウに切り替えます。
Azure portal で、[cyclecloud-rg] ブレードに移動します。ツールバーの [リソースグループの削除] エントリを選択し、[リソースグループ名の入力] テキストボックスに「cyclecloud-rg」と入力して、[削除] を選択します。
前の手順を繰り返して、名前が contoso-slurm-lab-cluster- で始まる、クラスターで使用されるディスクリソースが含まれるリソースグループを削除します。

お疲れさまでした。このモジュールの 2 番目の演習が正常に完了しました。新しいクラスターのデプロイに対応するために必要なコンピューティングおよびネットワークのリソースの可用性を確保しました。次に、Azure CycleCloud を使用してクラスターをデプロイし、その予算アラートを構成し、それを起動して機能を検証しました。最後に、不要なコストがかからないようにするために、クラスターを終了して、このモジュールでプロビジョニングしたリソースをすべて削除しました。

演習 - 組み込みテンプレートから HPC クラスターを作成する

タスク 1: HPC クラスターのデプロイを準備する

タスク 2: Azure CycleCloud を使用して HPC クラスターを作成する

タスク 3: Azure CycleCloud を使用して HPC クラスターの構成と起動を行う

タスク 4: ラボ環境をクリーンアップする

フィードバック