Aanbevelingen voor netwerken voor AI-workloads in Azure-infrastructuur (IaaS)
Dit artikel bevat aanbevelingen voor netwerken voor organisaties die AI-workloads uitvoeren op Azure-infrastructuur (IaaS). Het ontwerpen van een goed geoptimaliseerd netwerk kan de verwerkingssnelheid verbeteren, latentie verminderen en ervoor zorgen dat de netwerkinfrastructuur wordt geschaald naast groeiende AI-vereisten.
Zorg voor voldoende bandbreedte
Voldoende bandbreedte verwijst naar de capaciteit van een netwerk om grote hoeveelheden gegevens zonder vertragingen of onderbrekingen te verwerken. Hoge bandbreedte zorgt voor snelle, ononderbroken gegevensoverdracht tussen on-premises systemen en Azure, ter ondersteuning van snelle training van AI-modellen en het verminderen van downtime in de pijplijn. Voor organisaties die grote gegevenssets van on-premises overdragen naar de cloud voor ai-modeltraining, is een verbinding met hoge bandbreedte essentieel. Gebruik Azure ExpressRoute om een toegewezen, veilige en betrouwbare snelle verbinding tot stand te brengen tussen uw on-premises netwerk en Azure.
Latentie minimaliseren
Het minimaliseren van latentie omvat het verminderen van vertragingen in gegevensoverdracht tussen netwerkresources. Lagere latentie biedt snellere gegevensverwerking, waardoor realtime inzichten mogelijk zijn en de prestaties van latentiegevoelige workloads worden verbeterd.
Resourceplaatsing optimaliseren. Als u de latentie voor AI-workloads wilt minimaliseren, zoals gegevensvoorverwerking, modeltraining en deductie, implementeert u virtuele machines (VM's) binnen dezelfde Azure-regio of -beschikbaarheidszone. Colocatie van resources vermindert de fysieke afstand, waardoor de netwerkprestaties worden verbeterd.
Nabijheidsplaatsingsgroepen (PPG's) gebruiken. Voor latentiegevoelige workloads waarvoor realtime verwerking of snelle communicatie tussen processen is vereist, kunt u PPG's gebruiken om resources binnen een Azure-datacenter fysiek te koppelen. PPG's zorgen ervoor dat reken-, opslag- en netwerkresources dicht bij elkaar blijven, waardoor latentie voor veeleisende workloads wordt geminimaliseerd. Indelingsoplossingen en InfiniBand verwerken knooppuntnabijheid automatisch.
Vooraf geconfigureerde Linux-installatiekopieën van het besturingssysteem gebruiken. Vereenvoudig de clusterimplementatie door Installatiekopieën van Linux-besturingssystemen te selecteren in de Azure Marketplace die vooraf zijn verpakt met InfiniBand-stuurprogramma's, NVIDIA-stuurprogramma's, communicatiebibliotheken en bewakingshulpprogramma's. Deze installatiekopieën zijn geoptimaliseerd voor prestaties en kunnen worden geïmplementeerd met Azure CycleCloud voor snelle, efficiënte clustercreatie.
Krachtige netwerken implementeren
Netwerken met hoge prestaties maken gebruik van geavanceerde netwerkfuncties ter ondersteuning van grootschalige, intensieve AI-berekeningen, met name voor met GPU versnelde taken. Netwerken met hoge prestaties zorgen voor snelle, efficiënte gegevensuitwisseling tussen GPU's, waarmee modeltraining wordt geoptimaliseerd en AI-ontwikkelingscycli worden versneld.
Gebruik InfiniBand voor GPU-workloads. Gebruik het InfiniBand-netwerk van Azure voor workloads die afhankelijk zijn van GPU-versnelling en gedistribueerde training over meerdere GPU's. InfiniBand's GPUDirect REMOTE Direct Memory Access (RDMA) mogelijkheid ondersteunt directe GPU-naar-GPU-communicatie. Het verbetert de snelheid van gegevensoverdracht en de efficiëntie van modeltraining. Indelingsoplossingen zoals Azure CycleCloud en Azure Batch verwerken infiniBand-netwerkconfiguratie wanneer u de juiste VM-SKU's gebruikt.
Kies voor GPU geoptimaliseerde VM's van Azure. Selecteer VM's die gebruikmaken van InfiniBand, zoals VM's uit de ND-serie, die zijn ontworpen voor communicatie tussen GPU's met een hoge bandbreedte en lage latentie. Deze configuratie is essentieel voor schaalbare gedistribueerde training en deductie, waardoor snellere gegevensuitwisseling tussen GPU's mogelijk is.
Optimaliseren voor grootschalige gegevensverwerking
Optimalisatie voor grootschalige gegevensverwerking omvat strategieën voor het beheren van uitgebreide gegevensoverdrachten en hoge rekenkracht. Met behulp van parallelle uitvoering van gegevens en modellen kunt u uw AI-workloads schalen en de verwerkingssnelheid verbeteren. Gebruik de met GPU geoptimaliseerde virtuele machines van Azure om complexe, gegevensintensieve AI-workloads te verwerken.
Technieken voor parallelle uitvoering van gegevens of modellen toepassen. Als u uitgebreide gegevensoverdrachten tussen meerdere GPU's wilt beheren, implementeert u gegevensparallelisme of modelparallelisme, afhankelijk van de behoeften van uw AI-workload. Zorg voor het gebruik van HBM (High Bandwidth Memory), wat ideaal is voor workloads met hoge prestaties vanwege de hoge bandbreedte, het lage energieverbruik en het compacte ontwerp. HBM ondersteunt snelle gegevensverwerking, essentieel voor AI-workloads die grote gegevenssets moeten verwerken.
Gebruik geavanceerde GPU-netwerkfuncties. Voor veeleisende AI-scenario's kiest u Azure-VM's zoals NDH100v5 en NDMI300Xv5. Azure configureert deze VM's met toegewezen NVIDIA Quantum-2 CX7 InfiniBand-verbindingen van 400 Gb/s binnen virtuele-machineschaalsets. Deze verbindingen ondersteunen GPU Direct RDMA, waardoor directe GPU-naar-GPU-gegevensoverdrachten worden ingeschakeld die latentie verminderen en de algehele systeemprestaties verbeteren.