Consigli sulla gestione per i carichi di lavoro di intelligenza artificiale nell'infrastruttura di Azure (IaaS)
Questo articolo fornisce raccomandazioni sulla gestione per le organizzazioni che eseguono carichi di lavoro di intelligenza artificiale nell'infrastruttura di Azure (IaaS). Una gestione efficace dei carichi di lavoro di intelligenza artificiale in Azure richiede monitoraggio continuo, procedure di ottimizzazione e una strategia di backup e ripristino avanzata. Questi sforzi riducono al minimo i tempi di inattività e garantiscono l'affidabilità nelle operazioni di intelligenza artificiale.
Monitorare l'infrastruttura di intelligenza artificiale
Il monitoraggio dell'infrastruttura di intelligenza artificiale implica il rilevamento e la valutazione delle prestazioni, dell'integrità e della disponibilità di tutti i componenti in una distribuzione di intelligenza artificiale in Azure IaaS. Il monitoraggio proattivo consente alle organizzazioni di rilevare e risolvere potenziali problemi prima di influire sulle operazioni.
Verificare il monitoraggio per impostazione predefinita. Distribuiscono gli agenti di Monitoraggio di Azure necessari per le macchine virtuali e i set di scalabilità di macchine virtuali di Azure, inclusi i server connessi ad Azure Arc. Li connettono all'area di lavoro Log Analytics centrale nella sottoscrizione di gestione. Prendere in considerazione l'uso degli avvisi di base di Monitoraggio di Azure (AMBA).
Usare Gestione aggiornamenti di Azure. È possibile monitorare la conformità degli aggiornamenti di Windows e Linux nei computer in Azure e in locale o in altre piattaforme cloud (connesse da Azure Arc) da un unico riquadro di gestione. Con il Gestore aggiornamenti di Azure è possibile installare aggiornamenti in tempo reale o pianificarli all'interno di una finestra di manutenzione definita.
Monitorare le macchine virtuali. Monitorare i dati host della macchina virtuale (host fisico) e i dati guest della macchina virtuale (sistema operativo e applicazione). Prendere in considerazione l'uso di Informazioni dettagliate macchina virtuale per semplificare l'onboarding, accedere ai grafici delle prestazioni predefiniti e usare il mapping delle dipendenze. Tenere traccia degli eventi di rimozione e manutenzione delle macchine virtuali spot per gestire in modo efficace le interruzioni. Altre informazioni sugli eventi pianificati.
Monitorare le reti. Monitorare e diagnosticare i problemi di rete senza accedere alle macchine virtuali. Ottenere informazioni sulle prestazioni in tempo reale a livello di pacchetto. Risolvere i problemi di prestazioni con lo strumento Diagnostica prestazioni. Tenere traccia della topologia, dell'integrità e delle metriche per tutte le risorse di rete distribuite.
Monitorare l'archiviazione. Monitorare le prestazioni dell'archiviazione, ad esempio unità SSD locali, dischi collegati, condivisioni file e account di archiviazione di Azure.
Usare le funzionalità di monitoraggio dell'agente di orchestrazione (se applicabile). Prendere in considerazione l'uso delle funzionalità di monitoraggio predefinite di agenti di orchestrazione come Azure CycleCloud, Azure Batch e servizio Azure Kubernetes (AKS). Seguire le indicazioni per l'agente di orchestrazione scelto:
Azure CycleCloud o l'area di lavoro di Azure CycleCloud per Slurm: tenere traccia delle metriche di CPU, disco e rete. Archiviare i dati dai cluster Azure CycleCloud a Log Analytics e creare dashboard di metriche personalizzati. Per altre informazioni, vedere Monitoraggio di Azure CycleCloud. I controlli di integrità dei nodi sono un set di test automatizzati per garantire che l'hardware HPC/AI sia integro. È possibile eseguire questo controllo in Azure CycleCloud come parte della distribuzione del cluster o separatamente usando le istruzioni del repository GitHub. Assicurarsi di prestare attenzione alla matrice di compatibilità nella documentazione. Eseguire laddove appropriato per assicurarsi di identificare eventuali nodi non integri prima di eseguire i carichi di lavoro di intelligenza artificiale.
Azure Batch: raccogliere metriche relative a processi e attività, ad esempio attività attive, durata attività, ora di inizio del processo, durata, ora di inizio attività. Raccogliere anche le metriche del pool, ad esempio i nodi inattive, i nodi in esecuzione, l'utilizzo della CPU, l'I/O del disco. Per altre informazioni, vedere Monitoraggio di Azure Batch.
Servizio Azure Kubernetes. Usare Monitoraggio di Azure per i contenitori. Monitorare le prestazioni dei pod, l'integrità dei nodi e l'utilizzo delle risorse. Configurare avvisi e dashboard personalizzati.
Gestire la continuità aziendale e il ripristino di emergenza
La gestione della continuità aziendale e del ripristino di emergenza per le applicazioni di intelligenza artificiale in Azure garantisce che le organizzazioni possano eseguire rapidamente il ripristino da interruzioni. Implementando strategie come la replica in tempo reale, il ripristino automatizzato e i backup regolari, le organizzazioni salvaguardano l'infrastruttura di intelligenza artificiale in caso di perdita di dati e tempi di inattività operativi.
Usare Azure Site Recovery. Site Recovery usa la replica in tempo reale e l'automazione del ripristino per replicare i carichi di lavoro tra aree. Le funzionalità integrate della piattaforma per i carichi di lavoro delle macchine virtuali soddisfano requisiti RPO e RTO bassi. È possibile usare Site Recovery per eseguire esercitazioni di ripristino senza influire sui carichi di lavoro di produzione. È anche possibile usare Criteri di Azure per abilitare la replica e controllare la protezione delle macchine virtuali.
Usare le funzionalità dell'agente di orchestrazione (se applicabile). Usare l'agente di orchestrazione per ripristinare i nodi di calcolo non riusciti. Ad esempio, configurare Azure Batch per ripetere automaticamente le attività in caso di errore.
Pianificare i backup. Determinare se è necessario eseguire il backup delle modifiche incrementali ai set di dati e ai modelli ogni giorno o settimanale. I backup possono includere anche database o interi set di dati.
Garantire la conformità dei dati. Assicurarsi che la strategia di backup sia conforme alle normative sulla protezione dei dati. Rispettare i requisiti di residenza dei dati e archiviare i backup in posizioni geografiche appropriate.
Creare snapshot. È possibile usare le funzionalità dell'utilità di pianificazione per creare snapshot. CycleCloud, ad esempio, può acquisire snapshot temporizzato dell'archivio dati dell'applicazione sottostante come punti di ripristino.