Empfehlungen für die Verwaltung von KI-Workloads in der Azure-Infrastruktur (IaaS)
Dieser Artikel enthält Verwaltungsempfehlungen für Organisationen, die KI-Workloads (künstliche Intelligenz) in der Azure-Infrastruktur (Infrastructure-as-a-Service, IaaS) ausführen. Zum effektiven Verwalten von KI-Workloads in Azure bedarf es einer kontinuierlichen Überwachung, Optimierungspraktiken und einer soliden Sicherungs- und Wiederherstellungsstrategie. Diese Maßnahmen tragen dazu bei, Downtimes zu minimieren und zuverlässige KI-Vorgänge zu gewährleisten.
Überwachen der KI-Infrastruktur
Die Überwachung der KI-Infrastruktur umfasst das Nachverfolgen und Bewerten der Leistung, Integrität und Verfügbarkeit aller Komponenten einer KI-Bereitstellung in Azure IaaS. Die proaktive Überwachung ermöglicht es Organisationen, potenzielle Probleme zu erkennen und zu beheben, bevor diese den Betrieb beeinträchtigen.
Stellen Sie eine standardmäßige Überwachung sicher. Stellen Sie die erforderlichen Azure Monitor-Agents für virtuelle Computer und Azure Virtual Machine Scale Sets bereit, einschließlich der über Azure Arc verbundenen Servern. Verbinden Sie sie mit dem zentralen Log Analytics-Arbeitsbereich im Verwaltungsabonnement. Erwägen Sie die Verwendung von Azure Monitor-Baselinewarnungen (Azure Monitor Baseline Alerts, AMBA).
Verwenden Sie Azure Update Manager. Sie können die Windows- und Linux-Updatecompliance auf Ihren Computern in Azure und lokal/auf anderen Cloudplattformen (verbunden durch Azure Arc) über einen einzigen Verwaltungsbereich überwachen. Sie können mit Update Manager auch Updates in Echtzeit durchführen oder innerhalb eines definierten Wartungsfensters planen.
Überwachen Sie VMs.Überwachen Sie VM-Hostdaten (physischer Host) und VM-Gastdaten (Betriebssystem und Anwendung). Erwägen Sie die Verwendung von VM Insights, um das Onboarding zu vereinfachen, auf vordefinierte Leistungsdiagramme zuzugreifen und die Abhängigkeitszuordnung zu nutzen. Verfolgen Sie Spot-VM-Entfernungen und Wartungsereignisse nach, um Unterbrechungen effektiv zu verwalten. Erfahren Sie mehr über geplante Ereignisse.
Überwachen Sie Netzwerke.Überwachen und diagnostizieren Sie Netzwerkprobleme, ohne sich bei Ihren VMs anmelden zu müssen. Rufen Sie in Echtzeit Leistungsinformationen auf Paketebene ab. Beheben Sie Leistungsprobleme mit dem Performance Diagnostics-Tool. Verfolgen Sie die Topologie, Integrität und Metriken aller bereitgestellten Netzwerkressourcen nach.
Überwachen Sie den Speicher. Überwachen Sie die Leistung von Speicher, z. B. lokale SSD-Datenträger (Solid State Drive), angefügte Datenträger, Dateifreigaben und Azure-Speicherkonten.
Verwenden Sie Orchestratorüberwachungsfunktionen (falls zutreffend). Erwägen Sie die Verwendung der integrierten Überwachungsfunktionen von Orchestratoren wie Azure CycleCloud, Azure Batch und Azure Kubernetes Service (AKS). Befolgen Sie die Anweisungen für den ausgewählten Orchestrator:
Azure CycleCloud oder Azure CycleCloud-Arbeitsbereich für SLURM: Verfolgen Sie CPU-, Datenträger- und Netzwerkmetriken nach. Speichern Sie Daten aus Azure CycleCloud-Clustern in Log Analytics, und erstellen Sie benutzerdefinierte Metrikdashboards. Weitere Informationen finden Sie im Artikel zum Überwachen von Azure CycleCloud. Knotenintegritätsüberprüfungen sind automatisierte Tests, die sicherstellen, dass Ihre HPC (High Performance Computing)-/KI-Hardware fehlerfrei ist. Sie können diese Überprüfung in Azure CycleCloud im Rahmen der Clusterbereitstellung oder separat mithilfe der Anweisungen im GitHub-Repository ausführen. Beachten Sie die Kompatibilitätsmatrix in der Dokumentation. Führen Sie die Überprüfung bei Bedarf aus, um fehlerhafte Knoten vor der Ausführung Ihrer KI-Workloads zu identifizieren.
Azure Batch: Sammeln Sie Auftrags- und Aufgabenmetriken wie aktive Aufgaben, Aufgabendauer, Startzeit des Auftrags, Dauer und Startzeit der Aufgabe. Erfassen Sie außerdem Poolmetriken, z. B. Knoten im Leerlauf, ausgeführte Knoten, CPU-Auslastung und Datenträger-E/A. Weitere Informationen finden Sie unter Überwachen von Azure Batch.
Azure Kubernetes Service Verwenden Sie Azure Monitor für Container. Überwachen Sie die Leistung des Pods, die Knotenintegrität und die Ressourcenverwendung. Richten Sie Warnungen und benutzerdefinierte Dashboards ein.
Verwalten von Business Continuity & Disaster Recovery (BCDR)
Die Verwaltung der Geschäftskontinuität und Notfallwiederherstellung (Business Continuity & Disaster Recovery) für KI-Anwendungen in Azure stellt eine schnelle Wiederherstellung und Fortsetzung des Betriebs nach Unterbrechungen für Organisationen sicher. Durch die Implementierung von Strategien wie Echtzeitreplikation, automatisierte Wiederherstellung und regelmäßige Sicherungen schützen Organisationen ihre KI-Infrastruktur vor Datenverlusten und Betriebsausfällen bzw. Downtimes.
Verwenden Sie Azure Site Recovery. Site Recovery verwendet Echtzeitreplikation und Wiederherstellungsautomatisierung, um Workloads regionsübergreifend zu replizieren. Integrierte Plattformfunktionen für VM-Workloads erfüllen Anforderungen im Hinblick auf niedrige RPO- und RTO-Werte. Sie können mit Site Recovery Wiederherstellungstestläufe ohne Auswirkung auf die Workloads in der Produktion ausführen. Sie können auch Azure Policy verwenden, um Replikation zu aktivieren und den Schutz Ihrer VMs zu überwachen.
Verwenden Sie Orchestratorfunktionen (falls zutreffend). Verwenden Sie Ihren Orchestrator, um fehlerhafte Computeknoten wiederherzustellen. Konfigurieren Sie Azure Batch beispielsweise zum automatischen Wiederholen von Aufgaben, bei denen ein Fehler aufgetreten ist.
Planen Sie Sicherungen. Bestimmen Sie, ob Sie inkrementelle Änderungen an Datasets und Modellen täglich oder wöchentlich sichern müssen. Sicherungen können auch Datenbanken oder ganze Datasets umfassen.
Stellen Sie die Datenkonformität sicher. Stellen Sie sicher, dass Ihre Sicherungsstrategie die Datenschutzbestimmungen erfüllt. Halten Sie die Datenresidenzanforderungen ein, und speichern Sie Sicherungen an geeigneten geografischen Standorten.
Erstellen Sie Momentaufnahmen. Sie können die Funktionen Ihres Planers verwenden, um Momentaufnahmen zu erstellen. Beispielsweise kann CycleCloud Momentaufnahmen des zugrundeliegenden Anwendungsdatenspeichers als Wiederherstellungspunkte aufnehmen.