Lagringsrekommendationer för AI-arbetsbelastningar i Azure-infrastruktur (IaaS)

Artikel
10/22/2024

Den här artikeln innehåller lagringsrekommendationer för organisationer som kör AI-arbetsbelastningar i Azure-infrastrukturen (IaaS). En lagringslösning för AI-arbetsbelastningar i Azure-infrastrukturen måste kunna hantera kraven på datalagring, åtkomst och överföring som ingår i AI-modellträning och slutsatsdragning.

AI-arbetsbelastningar kräver högt dataflöde och låg svarstid för effektiv datahämtning och bearbetning. De behöver också mekanismer för dataversionshantering och konsekvens för att garantera korrekta och reproducerbara resultat i distribuerade miljöer. När du väljer lämplig lagringslösning bör du överväga faktorer som dataöverföringstider, svarstid, prestandakrav och kompatibilitet med befintliga system.

Använd ett filsystem för aktiva data. Implementera ett filsystem för att lagra "jobbspecifika/frekventa" data som aktivt används eller genereras av AI-jobb. Den här lösningen är perfekt för databearbetning i realtid på grund av dess låga svarstid och höga dataflödesfunktioner. Dessa funktioner är viktiga för att optimera prestandan för AI-arbetsflöden. Azure har tre huvudsakliga filsystemlösningar för att stödja utbildning och slutsatsdragning av AI-modeller i Azure-infrastrukturen. Följ dessa rekommendationer för att välja rätt filsystem:
- Använd Azure Managed Lustre för lägsta dataöverföringstider och minimerad svarstid. Azure Managed Lustre ger höga prestanda med parallella filsystemfunktioner och förenklar hanteringen med Azure-integrering. Det är kostnadseffektivt med användningsbaserade lagringskostnader och tillåter selektiv dataimport från Blob Storage, vilket optimerar datahanteringen.
- Använd Azure NetApp Files när du behöver funktioner i företagsklass och prestanda för AI-arbetsbelastningar. Azure NetApp Files erbjuder hög tillförlitlighet och prestanda, perfekt för verksamhetskritiska program. Azure NetApp Files är fördelaktigt om du har befintliga investeringar i NetApp-infrastrukturen. Det är fördelaktigt för hybridmolnfunktioner och när du behöver anpassa och finjustera lagringskonfigurationer.
- Använd lokala NVMe/SSD-filsystem när prestanda är högsta prioritet. Den aggregerar den lokala NVMe för beräkning (arbetsnoder) med hjälp av ett jobbdedikerat parallellt filsystem som BeeGFS On Demand (BeeOND). De fungerar direkt på beräkningsnoderna för att skapa ett tillfälligt filsystem med höga prestanda under jobbet. Dessa system erbjuder ultralåg svarstid och högt dataflöde, vilket gör dem idealiska för I/O-intensiva program som djupinlärningsträning eller slutsatsdragning i realtid.
Överföra inaktiva data till Azure Blob Storage. När du har slutfört ett jobb överför du inaktiva jobbdata från Azure Managed Lustre till Azure Blob Storage för långsiktig och kostnadseffektiv lagring. Blob Storage ger skalbara alternativ med olika åtkomstnivåer, vilket säkerställer effektiv lagring av inaktiva eller sällan använda data, samtidigt som den är lättillgänglig när det behövs.
Implementera kontrollpunkter för modellträning. Konfigurera en kontrollpunktsmekanism som sparar modellens tillstånd, inklusive träningsvikter och parametrar, med jämna mellanrum, till exempel var 500:e iteration. Lagra dessa kontrollpunktsdata i Azure Managed Lustre så att modellträningen kan startas om från ett tidigare sparat tillstånd, vilket förbättrar flexibiliteten och motståndskraften i dina AI-arbetsflöden.
Automatisera datamigrering till lagringsnivåer med lägre kostnad. Konfigurera livscykelhanteringsprinciper för Azure Blob Storage för att automatiskt migrera äldre, sällan använda data till lagringsnivåer med lägre kostnad, till exempel lågfrekvent lagringsnivå eller arkivnivå. Den här metoden optimerar lagringskostnaderna samtidigt som viktiga data förblir tillgängliga när det behövs.
Säkerställa datakonsekvens i distribuerade miljöer. Säkerställ datakonsekvens mellan distribuerade AI-arbetsbelastningar genom att konfigurera synkronisering mellan Azure Managed Lustre och Azure Blob Storage. Den här synkroniseringen säkerställer att alla noder som kommer åt data fungerar med samma, konsekventa version, vilket förhindrar fel och avvikelser i distribuerade miljöer.
Aktivera dataversionshantering för reproducerbarhet. Aktivera versionshantering i Azure Blob Storage för att spåra ändringar i datauppsättningar och modeller över tid. Den här funktionen underlättar återställning, förbättrar reproducerbarheten och stöder samarbete. Den har en detaljerad historik över ändringar av data och modeller och gör att du kan jämföra och återställa tidigare versioner efter behov.

Gå vidare

Nätverks-IaaS AI

Dela via

Lagringsrekommendationer för AI-arbetsbelastningar i Azure-infrastruktur (IaaS)

Gå vidare

Feedback

Ytterligare resurser