Aanbevelingen voor opslag voor AI-workloads in Azure-infrastructuur (IaaS)
Dit artikel bevat aanbevelingen voor opslag voor organisaties die AI-workloads uitvoeren op Azure-infrastructuur (IaaS). Een opslagoplossing voor AI-workloads in de Azure-infrastructuur moet in staat zijn om de vereisten voor gegevensopslag, toegang en overdracht te beheren die inherent zijn aan training en deductie van AI-modellen.
VOOR AI-workloads is een hoge doorvoer en lage latentie vereist voor het efficiƫnt ophalen en verwerken van gegevens. Ze hebben ook mechanismen nodig voor het versiebeheer en de consistentie van gegevens om nauwkeurige en reproduceerbare resultaten in gedistribueerde omgevingen te garanderen. Houd bij het selecteren van de juiste opslagoplossing rekening met factoren zoals gegevensoverdrachttijden, latentie, prestatievereisten en compatibiliteit met bestaande systemen.
Gebruik een bestandssysteem voor actieve gegevens. Implementeer een bestandssysteem voor het opslaan van 'taakspecifieke/dynamische' gegevens die actief worden gebruikt of gegenereerd door AI-taken. Deze oplossing is ideaal voor realtime gegevensverwerking vanwege de lage latentie en hoge doorvoermogelijkheden. Deze mogelijkheden zijn essentieel voor het optimaliseren van de prestaties van AI-werkstromen. Azure heeft drie belangrijkste bestandssysteemoplossingen ter ondersteuning van training en deductie van AI-modellen in de Azure-infrastructuur. Volg deze aanbevelingen om het juiste bestandssysteem te kiezen:
Gebruik Azure Managed Lustre voor de laagste gegevensoverdrachttijden en minimale latentie. Azure Managed Lustre biedt hoge prestaties met parallelle bestandssysteemmogelijkheden en vereenvoudigt het beheer met Azure-integratie. Het is rendabel, met opslagkosten op basis van gebruik en maakt selectief gegevens importeren uit Blob Storage mogelijk, waardoor gegevensverwerking wordt geoptimaliseerd.
Gebruik Azure NetApp Files wanneer u hoogwaardige functies en prestaties nodig hebt voor AI-workloads. Azure NetApp Files biedt hoge betrouwbaarheid en prestaties, ideaal voor bedrijfskritieke toepassingen. Azure NetApp Files is nuttig als u bestaande investeringen in de NetApp-infrastructuur hebt. Het is handig voor hybride cloudmogelijkheden en wanneer u opslagconfiguraties moet aanpassen en verfijnen.
Gebruik lokale NVMe/SSD-bestandssystemen wanneer de prestaties de hoogste prioriteit hebben. Hiermee wordt de lokale NVMe van rekenkracht (werkknooppunten) samengevoegd met behulp van een taakgebonden parallel bestandssysteem zoals BeeGFS On Demand (BeeOND). Ze werken rechtstreeks op de rekenknooppunten om tijdens de taak een tijdelijk bestandssysteem met hoge prestaties te maken. Deze systemen bieden ultra lage latentie en hoge doorvoer, waardoor ze ideaal zijn voor I/O-intensieve toepassingen, zoals deep learning-training of realtime deductie.
Inactieve gegevens overdragen naar Azure Blob Storage. Nadat u een taak hebt voltooid, brengt u inactieve taakgegevens van Azure Managed Lustre over naar Azure Blob Storage voor langetermijn- en rendabele opslag. Blob Storage biedt schaalbare opties met verschillende toegangslagen, waardoor efficiƫnte opslag van niet-actieve of onregelmatige gegevens wordt gegarandeerd, terwijl deze direct beschikbaar blijft wanneer dat nodig is.
Implementeer controlepunten voor modeltraining. Stel een controlepuntmechanisme in waarmee de status van het model wordt opgeslagen, inclusief trainingsgewichten en parameters, met regelmatige tussenpozen, zoals elke 500 iteraties. Sla deze controlepuntgegevens op in Azure Managed Lustre om de modeltraining vanuit een eerder opgeslagen status opnieuw te starten, waardoor de flexibiliteit en tolerantie van uw AI-werkstromen worden verbeterd.
Automatiseer gegevensmigratie naar lagere opslaglagen. Configureer het levenscyclusbeheerbeleid van Azure Blob Storage om oudere, onregelmatig geopende gegevens automatisch te migreren naar lagere opslaglagen, zoals de statische of archieflagen. Deze aanpak optimaliseert de opslagkosten en zorgt ervoor dat belangrijke gegevens toegankelijk blijven wanneer dat nodig is.
Zorg voor gegevensconsistentie in gedistribueerde omgevingen. Zorg voor gegevensconsistentie voor gedistribueerde AI-workloads door synchronisatie in te stellen tussen Azure Managed Lustre en Azure Blob Storage. Deze synchronisatie zorgt ervoor dat alle knooppunten die toegang hebben tot de gegevens werken met dezelfde, consistente versie, waardoor fouten en verschillen in gedistribueerde omgevingen worden voorkomen.
Gegevensversiebeheer inschakelen voor reproduceerbaarheid. Activeer versiebeheer in Azure Blob Storage om wijzigingen in gegevenssets en modellen in de loop van de tijd bij te houden. Deze functie vereenvoudigt terugdraaien, verbetert de reproduceerbaarheid en ondersteunt samenwerking. Het onderhoudt een gedetailleerde geschiedenis van wijzigingen aan gegevens en modellen en stelt u in staat om eerdere versies indien nodig te vergelijken en te herstellen.