Recommandations de mise en réseau pour les charges de travail IA sur l’infrastructure Azure (IaaS)
Cet article fournit des recommandations de mise en réseau pour les organisations exécutant des charges de travail IA sur l’infrastructure Azure (IaaS). La conception d’un réseau bien optimisé peut améliorer la vitesse de traitement des données, réduire la latence et garantir la mise à l’échelle de l’infrastructure réseau en même temps que les demandes croissantes de l’IA.
Garantir une bande passante suffisante
La bande passante suffisante fait référence à la capacité d’un réseau pour gérer de grands volumes de données sans retards ou interruptions. La bande passante élevée garantit un transfert de données rapide et ininterrompu entre les systèmes locaux et Azure, prenant en charge l’entraînement rapide du modèle IA et réduisant les temps d’arrêt dans le pipeline. Pour les organisations qui transfèrent des jeux de données volumineux d’un emplacement local vers le cloud pour l’apprentissage des modèles IA, une connexion à bande passante élevée est essentielle. Utilisez Azure ExpressRoute pour établir une connexion dédiée, sécurisée et fiable à haut débit entre votre réseau local et Azure.
Réduire la latence
La réduction de la latence implique de réduire les retards dans le transfert de données entre les ressources réseau. Une latence plus faible offre un traitement plus rapide des données, ce qui permet des insights en temps réel et améliore les performances des charges de travail sensibles à la latence.
Optimiser le placement des ressources. Pour réduire la latence des charges de travail IA, telles que le prétraitement des données, l’entraînement du modèle et l’inférence, déployez des machines virtuelles au sein de la même région Azure ou de la même zone de disponibilité. La colocalisation des ressources réduit la distance physique, ce qui améliore les performances du réseau.
Utilisez des groupes de placement de proximité (PPG). Pour les charges de travail sensibles à la latence nécessitant un traitement en temps réel ou une communication interprocesseur rapide, utilisez des PPG pour colocaliser physiquement des ressources au sein d’un centre de données Azure. Les PPG garantissent que les ressources de calcul, de stockage et de mise en réseau restent proches, ce qui réduit la latence des charges de travail exigeantes. Les solutions d’orchestration et InfiniBand gèrent automatiquement la proximité des nœuds.
Utilisez des images de système d’exploitation Linux préconfigurées. Simplifiez le déploiement de cluster en sélectionnant des images de système d’exploitation Linux à partir du Place de marché Azure préconfigurés avec les pilotes InfiniBand, les pilotes NVIDIA, les bibliothèques de communication et les outils de supervision. Ces images sont optimisées pour les performances et peuvent être déployées avec Azure CycleCloud pour une création de cluster rapide et efficace.
Implémenter une mise en réseau hautes performances
La mise en réseau hautes performances utilise des fonctionnalités de mise en réseau avancées pour prendre en charge les calculs d’IA à grande échelle, en particulier pour les tâches accélérées par GPU. Les réseaux hautes performances garantissent des échanges de données rapides et efficaces entre les GPU, ce qui optimise l’entraînement du modèle et accélère les cycles de développement d’IA.
Utilisez InfiniBand pour les charges de travail GPU. Pour les charges de travail dépendantes de l’accélération GPU et de l’entraînement distribué sur plusieurs GPU, utilisez le réseau InfiniBand d’Azure. La fonctionnalité d’accès à la mémoire directe à distance (RDMA) de InfiniBand prend en charge la communication GPU-à-GPU directe. Il améliore la vitesse de transfert de données et l’efficacité de l’entraînement du modèle. Les solutions d’orchestration telles qu’Azure CycleCloud et Azure Batch gèrent la configuration réseau InfiniBand lorsque vous utilisez les références SKU de machine virtuelle appropriées.
Choisissez les machines virtuelles optimisées par GPU d’Azure. Sélectionnez des machines virtuelles qui utilisent InfiniBand, telles que des machines virtuelles de série ND, conçues pour la communication inter-GPU à bande passante élevée et à faible latence. Cette configuration est essentielle pour l’apprentissage et l’inférence distribués évolutifs, ce qui permet un échange de données plus rapide entre des GPU.
Optimiser le traitement des données à grande échelle
L’optimisation pour le traitement des données à grande échelle implique des stratégies de gestion des transferts de données étendus et de charges de calcul élevées. En utilisant le parallélisme des données et des modèles, vous pouvez mettre à l’échelle vos charges de travail IA et améliorer la vitesse de traitement. Utilisez les machines virtuelles optimisées par GPU d’Azure pour gérer des charges de travail IA complexes et gourmandes en données.
Appliquez des techniques de parallélisme de données ou de modèle. Pour gérer des transferts de données étendus sur plusieurs GPU, implémentez le parallélisme des données ou le parallélisme de modèle en fonction des besoins de votre charge de travail IA. Assurez-vous que l’utilisation de la mémoire haute bande passante (HBM) est idéale pour les charges de travail hautes performances en raison de sa bande passante élevée, de sa faible consommation d’énergie et de sa conception compacte. HBM prend en charge le traitement rapide des données, essentiel pour les charges de travail IA qui nécessitent le traitement de jeux de données volumineux.
Utilisez des fonctionnalités de mise en réseau GPU avancées. Pour les scénarios d’IA exigeants, choisissez des machines virtuelles Azure telles que NDH100v5 et NDMI300Xv5. Azure configure ces machines virtuelles avec des connexions NVIDIA Quantum-2 CX7 InfiniBand dédiées de 400 Go/s au sein de groupes de machines virtuelles identiques. Ces connexions prennent en charge GPU Direct RDMA, ce qui permet des transferts de données GPU à GPU directs qui réduisent la latence et améliorent les performances globales du système.