Configurer InfiniBand
Cet article fait référence à CentOS, une distribution Linux proche de l’état EOL (End Of Life). Faites le point sur votre utilisation et organisez-vous en conséquence. Pour plus d’informations, consultez l’aide sur la fin de vie de CentOS.
S’applique aux : ✔️ Machines virtuelles Linux ✔️ Machines virtuelles Windows ✔️ Groupes identiques flexibles ✔️ Groupes identiques uniformes
Conseil
Essayez l’ outil de sélection des machines virtuelles pour trouver d’autres tailles mieux adaptées à votre charge de travail.
Cet article partage des informations sur les instances compatibles RDMA à utiliser sur un réseau InfiniBand (IB). L’architecture réseau InfiniBand présente une conception « fat-tree » complète (c’est-à-dire une topologie de réseau qui fournit une bande passante élevée et une faible latence), garantissant une symétrie en deux parties non bloquante. Cette configuration fournit une bande passante égale entre deux machines virtuelles (VM) au sein du même groupe de machines virtuelles identiques (VMSS).
Instances prenant en charge RDMA
La plupart des tailles de machines virtuelles HPC offrent une interface réseau pour la connectivité par accès direct à la mémoire à distance (RDMA). Les tailles sélectionnées de la série N désignées par « r » prennent également en charge la fonctionnalité RDMA. Cette interface s’ajoute à l’interface réseau Ethernet Azure standard disponible dans d’autres tailles de machine virtuelle.
Cette interface secondaire permet aux instances compatibles RDMA de communiquer sur un réseau InfiniBand, opérant à des vitesses HDR pour les machines virtuelles HBv4, HBv3, HBv2, EDR pour les machines virtuelles HB, HC, HX, NDv2, FDR pour les machines virtuelles H16r, H16mr et autres machines virtuelles de la série N compatibles RDMA. Ces fonctionnalités RDMA peuvent améliorer la scalabilité et les performances des applications basées sur une interface de passage de messages (Message Passing Interface, MPI).
Notes
Prise en charge de SR-IOV : sans Azure HPC, il existe actuellement deux classes de machines virtuelles, selon qu’elles sont ou non compatibles avec SR-IOV pour InfiniBand. À l’heure actuelle, presque toutes les machines virtuelles les plus récentes prenant en charge RDMA ou InfiniBand sur Azure sont compatibles avec SR-IOV, à l’exception de H16r, H16mr et NC24r. RDMA est activé uniquement sur le réseau InfiniBand et est pris en charge pour toutes les machines virtuelles compatibles RDMA. IP over IB est uniquement pris en charge sur les machines virtuelles compatibles SR-IOV. RDMA n’est pas activé sur le réseau Ethernet.
Système opérateur - Les distributions Linux telles que CentOS, RHEL, AlmaLinux, Ubuntu, SUSE sont couramment utilisées. Windows Server 2016 et versions ultérieures sont pris en charge sur toutes les machines virtuelles de la série HPC. Notez que Windows Server 2012 R2 n’est pas pris en charge sur les HBv2 et autres machines virtuelles dotées de plus de 64 cœurs (virtuels ou physiques). Consultez images de machine virtuelle pour obtenir la liste des images de machine virtuelle Linux prises en charge sur la Place de marché Azure et comment elles peuvent être configurées de manière appropriée. Les pages de taille de machine virtuelle respectives affichent également la prise en charge de la pile logicielle.
InfiniBand et pilotes : sur les machines virtuelles prenant en charge InfiniBand, certains pilotes sont requis pour activer la fonctionnalité RDMA. Consultez Activation d’InfiniBand pour découvrir les extensions de machine virtuelle ou l’installation manuelle des pilotes InfiniBand.
MPI : les tailles des machines virtuelles SR-IOV activées sur Azure permettent d’utiliser presque tous les qualificateurs de MPI avec Mellanox OFED. Pour plus d’informations sur la configuration de l’interface de passage de messages sur des machines virtuelles HPC sur Azure, consultez Configurer MPI pour HPC.
Notes
Espace d'adressage réseau RDMA : le réseau RDMA dans Azure réserve l'espace d’adressage 172.16.0.0/16. Si vous exécutez des applications MPI sur des instances déployées dans un réseau virtuel Azure, assurez-vous que l’espace d’adressage du réseau virtuel ne chevauche pas le réseau RDMA.
Options de configuration de cluster
Azure fournit plusieurs options pour créer des clusters de machines virtuelles HPC pouvant communiquer via le réseau RDMA, notamment :
Machines virtuelles : déployez les machines virtuelles HPC compatibles RDMA dans le même groupe de machines virtuelles identiques ou groupe à haute disponibilité (quand vous utilisez le modèle de déploiement Azure Resource Manager). Si vous utilisez le modèle de déploiement classique, déployez les machines virtuelles dans le même service cloud.
Groupes de machines virtuelles identiques : dans un groupe de machines virtuelles identiques, veillez à limiter le déploiement à un seul groupe de placements pour la communication InfiniBand au sein du groupe identique. Par exemple, dans un modèle Resource Manager, définissez la propriété
singlePlacementGroup
avec la valeurtrue
.
Notez que la taille d’un groupe identique qui peut être lancé avec singlePlacementGroup=true
est limitée par défaut à 100 machines virtuelles. Si vos besoins de mise à l’échelle des travaux HPC sont supérieurs à 100 machines virtuelles dans un seul locataire, vous pouvez demander une augmentation : ouvrez une demande de support client en ligne gratuitement. La limite du nombre de machines virtuelles dans un seul groupe identique peut être portée à 300. Notez que quand vous déployez des machines virtuelles à l’aide de groupes à haute disponibilité, la limite maximale est de 200 machines virtuelles par groupe à haute disponibilité.
De plus, VMSS sert de délimitation d’isolation entre les charges de travail au sein du même cluster, ce qui assure que les instances de différents groupes de machines virtuelles identiques restent isolées les unes des autres pour garantir la sécurité.
Remarque
MPI entre les machines virtuelles : si RDMA (par exemple en utilisant la communication MPI) est nécessaire entre les machines virtuelles, assurez-vous que les machines virtuelles figurent dans le même groupe de machines virtuelles identiques ou groupe à haute disponibilité.
Azure CycleCloud : Créez un cluster HPC utilisant Azure CycleCloud pour exécuter des travaux MPI.
Azure Batch : Créez un pool Azure Batch pour exécuter des charges de travail MPI. Pour utiliser des instances nécessitant beaucoup de ressources système lors de l’exécution d’applications MPI avec Azure Batch, consultez Utiliser les tâches multi-instances pour exécuter des applications MPI (Message Passing Interface) dans Azure Batch.
Microsoft HPC Pack - HPC Pack comprend un environnement d’exécution pour MS-MPI qui utilise le réseau RDMA Azure en cas de déploiement sur des machines virtuelles Linux compatibles RDMA. Pour des exemples de déploiement, voir Configuration d’un cluster RDMA Linux avec HPC Pack pour exécuter des applications MPI.
Points à prendre en considération pour le déploiement
Abonnement Azure : pour déployer un plus grand nombre d’instances de calcul intensif, envisagez de souscrire un abonnement de paiement à l’utilisation ou d’autres options d’achat. Si vous utilisez un compte gratuit Azure, vous pouvez seulement utiliser un nombre limité de cœurs de calcul Azure.
Tarification et disponibilité : vérifiez la tarification et la disponibilité des machines virtuelles par région Azure.
Quota de cœurs : vous devrez peut-être augmenter le quota de cœurs dans votre abonnement Azure à partir de la valeur par défaut. Votre abonnement peut également limiter le nombre de cœurs, que vous pouvez déployer dans certaines familles de taille de machine virtuelle, dont la série H. Pour demander une augmentation de quota, ouvrez une demande de service clientèle en ligne gratuitement. (Les limites par défaut peuvent varier en fonction de la catégorie de votre abonnement.)
Notes
Si vous avez des besoins de capacité à grande échelle, contactez le support Azure. Les quotas d’Azure sont des limites de crédit et non des garanties de capacité. Quel que soit votre quota, vous êtes facturé uniquement pour les cœurs que vous utilisez.
Réseau virtuel : un réseau virtuel Azure n’est pas requis pour utiliser les instances qui nécessitent beaucoup de ressources système. Cependant, pour bon nombre de scénarios de déploiement, vous avez besoin d’au moins un réseau virtuel Azure cloud ou d’une connexion de site à site si vous devez accéder à des ressources locales. Si nécessaire, créez un réseau virtuel avant de déployer les instances. L’ajout de machines virtuelles nécessitant beaucoup de ressources système à un réseau virtuel dans un groupe d’affinités n’est pas pris en charge.
Redimensionnement : en raison de leur matériel spécialisé, seules les instances nécessitant beaucoup de ressources système qui appartiennent à la même famille de taille (série H ou N) peuvent être redimensionnées. Par exemple, vous pouvez redimensionner une machine virtuelle de la série H uniquement d’une seule taille en une autre de cette même série. Des considérations supplémentaires concernant la prise en charge des pilotes InfiniBand et les disques NVMe peuvent se révéler nécessaires pour certaines machines virtuelles.
Étapes suivantes
- En savoir plus sur la configuration de vos machines virtuelles, l’activation d’InfiniBand, la configuration de MPI et l’optimisation des applications HPC pour Azure dans l’article relatif aux charges de travail HPC.
- Consultez la Présentation de la série HBv3 et la Présentation de la série HC.
- Consultez les dernières annonces, des exemples de charge de travail HPC et les résultats des performances sur les blogs de la communauté Azure Compute Tech.
- Pour une vision plus globale de l’architecture d’exécution des charges de travail HPC, consultez Calcul haute performance (HPC) sur Azure.