Recommandations de mise en réseau pour les charges de travail d’IA sur l’infrastructure Azure (IaaS)
Cette rubrique fournit des recommandations de mise en réseau pour les organisations exécutant des charges de travail d’IA sur l’infrastructure Azure (IaaS). La conception d’un réseau bien optimisé peut améliorer la vitesse de traitement des données, réduire la latence et garantir que l’infrastructure réseau évolue en fonction des besoins croissants de l’IA.
Assurez un débit suffisant
Un débit suffisant se réfère à la capacité d’un réseau à gérer de grands volumes de données sans retards ni interruptions. Un débit élevé assure un transfert de données rapide et ininterrompu entre les systèmes sur site et Azure, soutenant l’entraînement rapide des modèles d’IA et réduisant les temps d’arrêt dans le pipeline. Pour les organisations transférant de grands ensembles de données depuis les installations sur site vers le cloud pour l’entraînement des modèles d’IA, une connexion à large bande passante est essentielle. Utilisez Azure ExpressRoute pour établir une connexion dédiée, sécurisée et fiable à haute vitesse entre votre réseau sur site et Azure.
Minimisez la latence
La minimisation de la latence consiste à réduire les délais dans le transfert de données entre les ressources du réseau. Une latence réduite permet un traitement plus rapide des données, offrant des informations en temps réel et améliorant les performances des charges de travail sensibles à la latence.
Optimisez le placement des ressources. Pour réduire la latence des charges de travail IA, telles que le prétraitement des données, l’entraînement du modèle et l’inférence, déployez des machines virtuelles au sein de la même région Azure ou de la même zone de disponibilité. La colocation des ressources réduit la distance physique, améliorant ainsi les performances réseau.
Utilisez des groupes de placement de proximité (PPG). Pour les charges de travail sensibles à la latence nécessitant un traitement en temps réel ou une communication rapide entre processus, utilisez les PPG pour co-localiser physiquement les ressources au sein d’un centre de données Azure. Les PPG garantissent que les ressources de calcul, de stockage et de réseau restent proches, minimisant la latence pour les charges de travail exigeantes. Les solutions d’orchestration et InfiniBand gèrent automatiquement la proximité des nœuds.
Utilisez des images de système d’exploitation Linux préconfigurées. Simplifiez le déploiement de clusters en sélectionnant des images de système d’exploitation Linux depuis Azure Marketplace, préemballées avec des pilotes InfiniBand, des pilotes NVIDIA, des bibliothèques de communication et des outils de surveillance. Ces images sont optimisées pour la performance et peuvent être déployées avec Azure CycleCloud pour une création de clusters rapide et efficace.
Mettez en œuvre une mise en réseau haute performance
La mise en réseau haute performance utilise des fonctionnalités avancées de mise en réseau pour prendre en charge des calculs intensifs et à grande échelle, notamment pour les tâches accélérées par GPU. Les réseaux haute performance assurent des échanges de données rapides et efficaces entre GPU, ce qui optimise l’entraînement des modèles et accélère les cycles de développement de l’IA.
Utilisez InfiniBand pour les charges de travail GPU. Pour les charges de travail nécessitant une accélération GPU et un entraînement distribué sur plusieurs GPU, utilisez le réseau InfiniBand d’Azure. La fonctionnalité RDMA (accès direct à la mémoire à distance) GPUDirect d’InfiniBand prend en charge la communication directe entre GPU. Elle améliore la vitesse de transfert de données et l’efficacité de l’entraînement des modèles. Les solutions d’orchestration telles qu’Azure CycleCloud et Azure Batch gèrent la configuration réseau InfiniBand lorsque vous utilisez les références SKU de machine virtuelle appropriées.
Choisissez des VM optimisées pour GPU d’Azure. Sélectionnez des VM utilisant InfiniBand, comme les VM de la série ND, conçues pour une communication inter-GPU à haute bande passante et faible latence. Cette configuration est essentielle pour l’entraînement et l’inférence distribués et évolutifs, permettant des échanges de données plus rapides entre les GPU.
Optimisez pour le traitement de données à grande échelle
L’optimisation pour le traitement de données à grande échelle implique des stratégies pour gérer des transferts de données importants et des charges de calcul élevées. En utilisant le parallélisme de données et de modèles, vous pouvez mettre à l’échelle vos charges de travail d’IA et améliorer la vitesse de traitement. Utilisez les machines virtuelles optimisées pour GPU d’Azure pour gérer des charges de travail d’IA complexes et intensives en données.
Appliquez des techniques de parallélisme de données ou de modèles. Pour gérer des transferts de données importants sur plusieurs GPU, implémentez le parallélisme de données ou de modèles en fonction des besoins de votre charge de travail d’IA. Assurez l’utilisation de la mémoire à haute bande passante (HBM), idéale pour les charges de travail haute performance en raison de sa bande passante élevée, de sa faible consommation d’énergie et de son design compact. HBM prend en charge un traitement rapide des données, essentiel pour les charges de travail d’IA nécessitant le traitement de grands ensembles de données.
Utilisez des fonctionnalités de mise en réseau avancées pour GPU. Pour les scénarios d’IA exigeants, choisissez des VM Azure telles que NDH100v5 et NDMI300Xv5. Azure configure ces VM avec des connexions InfiniBand NVIDIA Quantum-2 CX7 de 400 Gb/s dédiées dans les ensembles de machines virtuelles. Ces connexions prennent en charge le GPU Direct RDMA, permettant des transferts de données directs entre GPU qui réduisent la latence et améliorent les performances globales du système.