Azure インフラストラクチャ (IaaS) での AI ワークロードのネットワークに関する推奨事項
この記事では、Azure インフラストラクチャ (IaaS) で AI ワークロードを実行している組織向けのネットワークに関する推奨事項を示します。 適切に最適化されたネットワークを設計することで、データ処理速度を向上させ、待ち時間を短縮し、増加する AI 需要と共にネットワーク インフラストラクチャのスケーリングを確保できます。
十分な帯域幅を確保する
十分な帯域幅とは、遅延や中断なしに大量のデータを処理するためのネットワークの容量を指します。 高帯域幅を使用すると、オンプレミス システムと Azure 間のデータ転送が高速で中断されず、迅速な AI モデルトレーニングがサポートされ、パイプラインのダウンタイムが短縮されます。 大規模なデータセットをオンプレミスからクラウドに転送して AI モデルのトレーニングを行う組織では、高帯域幅接続が不可欠です。 Azure ExpressRoute を使用して、オンプレミス ネットワークと Azure の間に、専用のセキュリティで保護された信頼性の高い高速接続を確立します。
待機時間を最小限に抑える
待機時間を最小限に抑えるためには、ネットワーク リソース間のデータ転送の遅延を減らすことが必要です。 待機時間が短いほど、データ処理が迅速になり、リアルタイムの分析情報が得られ、待機時間に依存するワークロードのパフォーマンスが向上します。
リソースの配置を最適化します。 データの前処理、モデルトレーニング、推論などの AI ワークロードの待機時間を最小限に抑えるには、同じ Azure リージョンまたは可用性ゾーン内に仮想マシン (VM) をデプロイします。 リソースを併置すると物理的な距離が減り、ネットワーク パフォーマンスが向上します。
近接通信配置グループ (PPG) を使用します。 リアルタイム処理または高速なプロセス間通信を必要とする待機時間の影響を受けやすいワークロードの場合は、PPG を使用して Azure データセンター内のリソースを物理的に併置します。 PPG を使用すると、コンピューティング、ストレージ、およびネットワーク リソースが密接に連携し、要求の厳しいワークロードの待機時間が最小限に抑えられます。 オーケストレーション ソリューションと InfiniBand は、ノードの近接性を自動的に処理します。
構成済みの Linux OS イメージを使用します。 InfiniBand ドライバー、NVIDIA ドライバー、通信ライブラリ、監視ツールを使用して事前パッケージ化された Azure Marketplace から Linux OS イメージを選択して、クラスターのデプロイを簡略化します。 これらのイメージはパフォーマンス用に最適化されており、高速で効率的なクラスター作成のために Azure CycleCloud と共にデプロイできます。
高パフォーマンスのネットワークを実装する
ハイ パフォーマンス ネットワークでは、高度なネットワーク機能を利用して、特に GPU で高速化されたタスクに対して、大規模で集中的な AI 計算をサポートします。 ハイ パフォーマンス ネットワークにより、GPU 間の迅速で効率的なデータ交換が保証されます。これにより、モデルのトレーニングが最適化され、AI 開発サイクルが高速化されます。
GPU ワークロードに InfiniBand を使用します。 GPU アクセラレーションと複数の GPU 間での分散トレーニングに依存するワークロードの場合は、Azure の InfiniBand ネットワークを使用します。 InfiniBand の GPUDirect リモート ダイレクト メモリ アクセス (RDMA) 機能は、GPU から GPU への直接通信をサポートします。 データ転送速度とモデルトレーニング効率が向上します。 Azure CycleCloud や Azure Batch などのオーケストレーション ソリューションは、適切な VM SKU を使用するときに InfiniBand ネットワーク構成を処理します。
Azure の GPU 最適化 VM を選択します。 高帯域幅で待機時間の短い GPU 間通信用に設計された ND シリーズ VM など、InfiniBand を使用する VM を選択します。 この構成は、スケーラブルな分散トレーニングと推論に不可欠であり、GPU 間のデータ交換を高速化できます。
大規模なデータ処理を最適化する
大規模なデータ処理用に最適化するには、広範なデータ転送と高い計算負荷を管理する戦略が含まれます。 データとモデルの並列処理を使用することで、AI ワークロードをスケーリングし、処理速度を向上させることができます。 Azure の GPU 最適化仮想マシンを使用して、データを集中的に使用する複雑な AI ワークロードを処理します。
データまたはモデルの並列処理手法を適用します。 複数の GPU 間で広範なデータ転送を管理するには、AI ワークロードのニーズに応じて、データ並列処理またはモデル並列処理を実装します。 高帯域幅、低消費電力、コンパクトな設計により、高帯域幅メモリ (HBM) を使用してください。 HBM は、大規模なデータセットの処理を必要とする AI ワークロードに不可欠な高速データ処理をサポートします。
高度な GPU ネットワーク機能を使用します。 要求の厳しい AI シナリオでは、NDH100v5 や NDMI300Xv5 などの Azure VM を選択します。 Azure では、仮想マシン スケール セット内で専用の 400 Gb/秒の NVIDIA Quantum-2 CX7 InfiniBand 接続を使用してこれらの VM を構成します。 これらの接続は GPU ダイレクト RDMA をサポートしているため、GPU 間の直接データ転送が可能になり、待機時間が短縮され、システム全体のパフォーマンスが向上します。