Nätverksrekommendationer för AI-arbetsbelastningar i Azure-infrastruktur (IaaS)
Den här artikeln innehåller nätverksrekommendationer för organisationer som kör AI-arbetsbelastningar i Azure-infrastrukturen (IaaS). Att utforma ett väloptimeerat nätverk kan förbättra databehandlingshastigheten, minska svarstiden och säkerställa att nätverksinfrastrukturen skalas vid sidan av växande AI-krav.
Se till att bandbredden är tillräcklig
Tillräcklig bandbredd avser nätverkets kapacitet för att hantera stora mängder data utan fördröjningar eller avbrott. Hög bandbredd säkerställer snabb, oavbruten dataöverföring mellan lokala system och Azure, vilket ger stöd för snabb AI-modellträning och minskar stilleståndstiden i pipelinen. För organisationer som överför stora datamängder från en lokal plats till molnet för AI-modellträning är det viktigt med en anslutning med hög bandbredd. Använd Azure ExpressRoute för att upprätta en dedikerad, säker och tillförlitlig höghastighetsanslutning mellan ditt lokala nätverk och Azure.
Minimera svarstiden
Att minimera svarstiden innebär att minska fördröjningarna i dataöverföringen mellan nätverksresurser. Kortare svarstider ger snabbare databehandling, aktivering av insikter i realtid och förbättrad prestanda för svarstidskänsliga arbetsbelastningar.
Optimera resursplacering. För att minimera svarstiden för AI-arbetsbelastningar, till exempel förbearbetning av data, modellträning och slutsatsdragning, distribuerar du virtuella datorer (VM) inom samma Azure-region eller tillgänglighetszon. Att samlokalisera resurser minskar det fysiska avståndet, vilket förbättrar nätverksprestandan.
Använd närhetsplaceringsgrupper (PPG:er). För svarstidskänsliga arbetsbelastningar som kräver realtidsbearbetning eller snabb kommunikation mellan processer använder du PPG:er för att fysiskt samlokalisera resurser i ett Azure-datacenter. PPG:er ser till att beräknings-, lagrings- och nätverksresurser förblir nära varandra, vilket minimerar svarstiden för krävande arbetsbelastningar. Orkestreringslösningar och InfiniBand hanterar nodnärhet automatiskt.
Använd förkonfigurerade Linux OS-avbildningar. Förenkla klusterdistributionen genom att välja Linux OS-avbildningar från Azure Marketplace som är förpaketerat med InfiniBand-drivrutiner, NVIDIA-drivrutiner, kommunikationsbibliotek och övervakningsverktyg. Dessa avbildningar är optimerade för prestanda och kan distribueras med Azure CycleCloud för snabb och effektiv klustergenerering.
Implementera högpresterande nätverk
Nätverk med höga prestanda använder avancerade nätverksfunktioner för att stödja storskaliga, intensiva AI-beräkningar, särskilt för GPU-accelererade uppgifter. Högpresterande nätverk säkerställer snabba och effektiva datautbyten mellan GPU:er, vilket optimerar modellträningen och påskyndar AI-utvecklingscykler.
Använd InfiniBand för GPU-arbetsbelastningar. För arbetsbelastningar som är beroende av GPU-acceleration och distribuerad träning över flera GPU:er använder du Azures InfiniBand-nätverk. InfiniBands rdma-funktion (GPUDirect remote direct memory access) stöder direkt GPU-till-GPU-kommunikation. Det förbättrar dataöverföringshastigheten och modellens träningseffektivitet. Orkestreringslösningar som Azure CycleCloud och Azure Batch hanterar InfiniBand-nätverkskonfiguration när du använder lämpliga VM-SKU:er.
Välj Azures GPU-optimerade virtuella datorer. Välj virtuella datorer som använder InfiniBand, till exempel virtuella datorer i ND-serien, som är utformade för kommunikation med hög bandbredd och låg latens mellan GPU:er. Den här konfigurationen är nödvändig för skalbar distribuerad träning och slutsatsdragning, vilket möjliggör snabbare datautbyte mellan GPU:er.
Optimera för storskalig databearbetning
Att optimera för storskalig databearbetning omfattar strategier för att hantera omfattande dataöverföringar och hög beräkningsbelastning. Genom att använda data och modellparallellitet kan du skala dina AI-arbetsbelastningar och förbättra bearbetningshastigheten. Använd Azures GPU-optimerade virtuella datorer för att hantera komplexa, dataintensiva AI-arbetsbelastningar.
Tillämpa data- eller modellparallellitetstekniker. Om du vill hantera omfattande dataöverföringar över flera GPU:er implementerar du dataparallellitet eller modellparallellitet beroende på dina AI-arbetsbelastningsbehov. Se till att du använder HBM (High Bandwidth Memory), vilket är idealiskt för arbetsbelastningar med höga prestanda på grund av hög bandbredd, låg strömförbrukning och kompakt design. HBM stöder snabb databearbetning, vilket är viktigt för AI-arbetsbelastningar som kräver bearbetning av stora datamängder.
Använd avancerade GPU-nätverksfunktioner. För krävande AI-scenarier väljer du virtuella Azure-datorer som NDH100v5 och NDMI300Xv5. Azure konfigurerar dessa virtuella datorer med dedikerade 400 Gb/s NVIDIA Quantum-2 CX7 InfiniBand-anslutningar i vm-skalningsuppsättningar. Dessa anslutningar stöder GPU Direct RDMA, vilket möjliggör direkta GPU-till-GPU-dataöverföringar som minskar svarstiden och förbättrar övergripande systemprestanda.