Azure インフラストラクチャ (IaaS) での AI ワークロードのネットワークに関する推奨事項

[アーティクル]
12/20/2024

この記事では、Azure インフラストラクチャ (IaaS) で AI ワークロードを実行している組織のネットワークに関する推奨事項を紹介します。適切に最適化されたネットワークを設計することで、データ処理速度を向上させ、待ち時間を短縮し、増加する AI 需要に伴うネットワークインフラストラクチャのスケーリングを確保できます。

十分な帯域幅を確保する

十分な帯域幅とは、遅延や中断なしに大量のデータを処理するためのネットワーク容量を指します。高帯域幅を使用すると、オンプレミスシステムと Azure 間の高速で中断のないデータ転送が保証され、AI モデルの迅速なトレーニングがサポートされ、パイプラインのダウンタイムが短縮されます。大規模なデータセットをオンプレミスからクラウドに転送して AI モデルのトレーニングを行う組織では、高帯域幅接続が不可欠です。 Azure ExpressRoute を使用して、オンプレミスネットワークと Azure の間に、セキュリティで保護された信頼性の高い専用の高速接続を確立します。

待機時間の最小化

待機時間を最小限に抑えるためには、ネットワークリソース間のデータ転送の遅延を減らす必要があります。待機時間が短いほど、データ処理が迅速になり、リアルタイムの分析情報が得られ、待機時間に敏感なワークロードのパフォーマンスが向上します。

リソースの配置を最適化します。 データの前処理、モデルトレーニング、推論などの AI ワークロードの待機時間を最小限に抑えるには、同じ Azure リージョンまたは可用性ゾーン内に仮想マシン (VM) をデプロイします。リソースを併置すると物理的な距離が縮まり、ネットワークのパフォーマンスが向上します。
近接通信配置グループ (PPG) を使用する リアルタイム処理または高速なプロセス間通信を必要とする待機時間の影響を受けやすいワークロードの場合は、PPG を使用して Azure データセンター内のリソースを物理的に併置します。 PPG を使用すると、コンピューティング、ストレージ、ネットワークのリソースが密接に連携し、要求の厳しいワークロードの待機時間が最小限に抑えられます。オーケストレーションソリューションと InfiniBand は、ノードの近接性を自動的に処理します。
構成済みの Linux OS イメージを使用します。 InfiniBand ドライバー、NVIDIA ドライバー、通信ライブラリ、監視ツールがあらかじめパッケージ化された Linux OS イメージを Azure マーケットプレースから選択することで、クラスターのデプロイを簡略化できます。これらのイメージはパフォーマンス用に最適化されており、高速で効率的なクラスター作成のために Azure CycleCloud と共にデプロイできます。

ハイパフォーマンスのネットワークを実装する

ハイパフォーマンスネットワークは、高度なネットワーク機能を利用して、特に GPU で高速化されたタスクに対する、大規模で集中的な AI 評価をサポートします。ハイパフォーマンスネットワークにより、GPU 間の迅速で効率的なデータ交換が保証されます。これにより、モデルのトレーニングが最適化され、AI 開発サイクルが高速化されます。

GPU ワークロードに InfiniBand を活用します。 GPU アクセラレーションと複数の GPU 間での分散トレーニングに依存するワークロードの場合は、Azure の InfiniBand ネットワークを使用します。 InfiniBand の GPUDirect リモートダイレクトメモリアクセス (RDMA) 機能は、GPU から GPU への直接通信をサポートします。これにより、データ転送速度とモデルトレーニング効率が向上します。 Azure CycleCloud や Azure Batch などのオーケストレーションソリューションは、適切な VM SKU を使用するときに InfiniBand ネットワーク構成を処理します。
Azure の GPU 最適化 VM を選択します。 高帯域幅で低遅延の GPU 間通信用に設計された ND シリーズ VM など、InfiniBand を使用する VM を選択します。この構成は、スケーラブルな分散トレーニングと推論に不可欠であり、GPU 間のデータ交換を高速化できます。

大規模なデータ処理を最適化する

大規模なデータ処理の最適化には、広範なデータ転送と高い計算負荷を管理する戦略が含まれます。データとモデルの並列処理を使用することで、AI ワークロードをスケーリングし、処理速度を向上させることができます。 Azure の GPU に最適化された仮想マシンを使用して、複雑でデータ量の多い AI ワークロードを処理します。

データまたはモデルの並列処理手法を適用します。 複数の GPU 間で広範なデータ転送を管理するには、AI ワークロードのニーズに応じて、データ並列処理またはモデル並列処理を実装します。高帯域幅、低消費電力、コンパクトな設計により、ハイパフォーマンスワークロードに理想的な高帯域幅メモリ (HBM) を使用してください。 HBM は、大規模なデータセットを処理する必要がある AI ワークロードに不可欠な高速データ処理をサポートします。
高度な GPU ネットワークの機能を使用します。 要求の厳しい AI シナリオでは、NDH100v5 や NDMI300Xv5 などの Azure VM を選択します。 Azure は、仮想マシンのスケールセット内に専用の 400 Gb/秒の NVIDIA Quantum-2 CX7 InfiniBand 接続を使用してこれらの VM を構成します。これらの接続は GPU ダイレクト RDMA をサポートしているため、GPU 間の直接データ転送が可能になり、待機時間が短縮され、システム全体のパフォーマンスが向上します。

次のステップ

セキュリティ IaaS AI

次の方法で共有

Azure インフラストラクチャ (IaaS) での AI ワークロードのネットワークに関する推奨事項

十分な帯域幅を確保する

待機時間の最小化

ハイパフォーマンスのネットワークを実装する

大規模なデータ処理を最適化する

次のステップ

フィードバック

その他のリソース

次の方法で共有

Azure インフラストラクチャ (IaaS) での AI ワークロードのネットワークに関する推奨事項

十分な帯域幅を確保する

待機時間の最小化

ハイ パフォーマンスのネットワークを実装する

大規模なデータ処理を最適化する

次のステップ

フィードバック

その他のリソース

ハイパフォーマンスのネットワークを実装する