Azure インフラストラクチャ上の AI の実装オプション
この記事では、Azure インフラストラクチャ (IaaS) で AI ワークロードを実行している組織向けの実装に関する推奨事項を紹介します。 Azure ランディング ゾーンをデプロイすると、Slurm 用 CycleCloud ワークスペースを使用してアプリケーション ランディング ゾーンを設定できます。 Slurm 用 Azure CycleCloud ワークスペースは、Slurm スケジューラで AI ワークロードを実行するユーザーに、いくつかのメリットを提供します。
クラスターの作成が簡単で高速です。 ユーザーはシンプルな GUI で、Azure 上に Slurm クラスターをすばやく作成できます。 さまざまな Azure 仮想マシン (VM) のサイズと種類から選択し、ノード数、ネットワーク構成、ストレージ オプション (Azure NetApp Files や Azure Managed Lustre Filesystem など)、Slurm パラメーターなどのクラスター設定をカスタマイズできます。
柔軟で動的なクラスター管理。 Azure CycleCloud では、Slurm クラスターが自動的にスケール アップまたはスケール ダウンされます。 ユーザーは、クラスターの状態、パフォーマンス、使用率を監視し、GUI を使用してログとメトリックを表示できます。 不要な場合はクラスターを削除することができ、使用するリソースに対してのみ課金されます。
インフラストラクチャの完全な制御。 ユーザーはデプロイされたインフラストラクチャを完全に制御できるため、独自のコード、ライブラリ、パッケージを持ち込み、オンデマンドでリソースを使用できます。
デザインのガイドライン
次の記事では、Azure インフラストラクチャ (IaaS) 上の AI ワークロードのガイドラインを紹介します:
Architecture
図 1. Azure ランディング ゾーンにおける Azure インフラストラクチャ上の AI アプリケーション。
Slurm 用の CycleCloud ワークスペースをデプロイする
Slurm 用の CycleCloud ワークスペースは、エンタープライズ環境での初期デプロイとして使用できます。 コードを開発およびカスタマイズして、その機能を拡張したり、Azure ランディング ゾーン環境に適応させたりすることができます。 次に、ガイダンスに従って、Slurm 用の Azure CycleCloud ワークスペースを使用して Hugging Face の拡散モデルを微調整します。