Verwaltungsempfehlungen für KI-Workloads in der Azure-Infrastruktur (IaaS)
Dieser Artikel enthält Verwaltungsempfehlungen für Organisationen, die KI-Workloads auf der Azure-Infrastruktur (IaaS) ausführen. Eine effektive Verwaltung von KI-Workloads in Azure erfordert kontinuierliche Überwachung, Optimierungspraktiken und eine starke Sicherung und Wiederherstellungsstrategie. Diese Bemühungen minimieren Ausfallzeiten und sorgen für Zuverlässigkeit bei KI-Vorgängen.
Überwachen der KI-Infrastruktur
Die Überwachung der KI-Infrastruktur umfasst das Nachverfolgen und Bewerten der Leistung, Integrität und Verfügbarkeit aller Komponenten in einer KI-Bereitstellung auf Azure IaaS. Die proaktive Überwachung ermöglicht Es Organisationen, potenzielle Probleme zu erkennen und zu beheben, bevor sie sich auf Vorgänge auswirken.
Stellen Sie die Überwachung standardmäßig sicher. Stellen Sie die erforderlichen Azure Monitor-Agents für virtuelle Computer und Azure Virtual Machine Scale Sets bereit, einschließlich der über Azure Arc verbundenen Servern. Verbinden Sie sie mit dem zentralen Log Analytics-Arbeitsbereich im Verwaltungsabonnement. Erwägen Sie die Verwendung von Azure Monitor Baseline Alerts (AMBA).
Verwenden Sie Azure Update Manager. Sie können die Windows- und Linux-Updatecompliance auf Ihren Computern in Azure und lokal/auf anderen Cloudplattformen (verbunden durch Azure Arc) über einen einzigen Verwaltungsbereich überwachen. Sie können mit Update Manager auch Updates in Echtzeit durchführen oder innerhalb eines definierten Wartungsfensters planen.
Überwachen sie virtuelle Computer. Überwachen sie Hostdaten (VM)-Hostdaten (physischer Host) und VM-Gastdaten (Betriebssystem und Anwendung). Erwägen Sie die Verwendung von VM Insights , um das Onboarding zu vereinfachen, auf vordefinierte Leistungsdiagramme zuzugreifen und Abhängigkeitszuordnungen zu nutzen. Verfolgen Sie Spot VM-Evictions und Wartungsereignisse, um Unterbrechungen effektiv zu verwalten. Erfahren Sie mehr über geplante Ereignisse.
Überwachen von Netzwerken. Überwachen und diagnostizieren Sie Netzwerkprobleme, ohne sich bei Ihren virtuellen Computern anzumelden. Rufen Sie Echtzeitleistungsinformationen auf Paketebene ab. Behandeln von Leistungsproblemen mit dem Tool "Leistungsdiagnose". Verfolgen Sie Topologie, Integrität und Metriken für alle bereitgestellten Netzwerkressourcen.
Überwachen des Speichers. Überwachen Sie die Leistung des Speichers, z. B. lokale SSDs, angefügte Datenträger, Dateifreigaben und Azure-Speicherkonten.
Verwenden Sie Orchestratorüberwachungsfunktionen (falls zutreffend). Erwägen Sie die verwendung der integrierten Überwachungsfunktionen von Orchestratoren wie Azure CycleCloud, Azure Batch und Azure Kubernetes Service (AKS). Befolgen Sie die Anweisungen für den ausgewählten Orchestrator:
Azure CycleCloud- oder Azure CycleCloud-Arbeitsbereich für Slurm: Nachverfolgen von CPU-, Datenträger- und Netzwerkmetriken. Speichern Sie Daten aus Azure CycleCloud-Clustern in Log Analytics, und erstellen Sie benutzerdefinierte Metrikdashboards. Weitere Informationen finden Sie unter Monitoring Azure CycleCloud. Node Health Checks sind eine Reihe automatisierter Tests, um sicherzustellen, dass Ihre HPC/AI-Hardware fehlerfrei ist. Sie können diese Überprüfung in Azure CycleCloud als Teil der Clusterbereitstellung oder separat mithilfe der GitHub-Repositoryanweisungen ausführen. Stellen Sie sicher, dass Sie in der Dokumentation auf die Kompatibilitätsmatrix achten. Führen Sie nach Bedarf aus, um sicherzustellen, dass Sie fehlerhafte Knoten identifizieren, bevor Sie Ihre KI-Workloads ausführen.
Azure Batch: Sammeln Von Auftrags- und Vorgangsmetriken wie aktiven Vorgängen, Vorgangsdauer, Auftragsanfangszeit, Dauer, Vorgangsanfangszeit. Sammeln Sie außerdem Poolmetriken, z. B. Leerlaufknoten, ausgeführte Knoten, CPU-Auslastung, Datenträger-E/A. Weitere Informationen finden Sie unter Azure Batch-Überwachung.
Azure Kubernetes Service Verwenden Sie Azure Monitor für Container. Überwachen sie die Leistung des Pods, die Knotenintegrität und die Ressourcenauslastung. Richten Sie Warnungen und benutzerdefinierte Dashboards ein.
Verwalten von Geschäftskontinuität und Notfallwiederherstellung
Durch die Verwaltung von Geschäftskontinuität und Notfallwiederherstellung für KI-Anwendungen in Azure wird sichergestellt, dass Organisationen sich schnell von Unterbrechungen erholen können. Durch die Implementierung von Strategien wie Echtzeitreplikation, automatisierter Wiederherstellung und regelmäßigen Sicherungen schützen Organisationen ihre KI-Infrastruktur vor Datenverlust und Betriebsausfallzeiten.
Verwenden Sie Azure Site Recovery. Site Recovery verwendet Echtzeitreplikation und Wiederherstellungsautomatisierung, um Workloads regionsübergreifend zu replizieren. Integrierte Plattformfunktionen für VM-Workloads erfüllen Anforderungen im Hinblick auf niedrige RPO- und RTO-Werte. Sie können mit Site Recovery Wiederherstellungstestläufe ohne Auswirkung auf die Workloads in der Produktion ausführen. Sie können auch Azure Policy verwenden, um Replikation zu aktivieren und den Schutz Ihrer VMs zu überwachen.
Verwenden Sie Orchestratorfunktionen (falls zutreffend). Verwenden Sie Ihren Orchestrator, um fehlgeschlagene Computeknoten wiederherzustellen. Konfigurieren Sie beispielsweise Azure Batch so, dass Aufgaben automatisch erneut ausgeführt werden, wenn ein Fehler auftritt.
Planen Sie Sicherungen. Ermitteln Sie, ob Sie inkrementelle Änderungen an Datasets und Modellen täglich oder wöchentlich sichern müssen. Sicherungen können auch Datenbanken oder ganze Datasets enthalten.
Sicherstellen der Datenkonformität. Stellen Sie sicher, dass Ihre Sicherungsstrategie den Datenschutzbestimmungen entspricht. Einhaltung der Datenhaltungsanforderungen und Speichern von Sicherungen an geeigneten geografischen Standorten.
Erstellen Sie Momentaufnahmen. Sie können die Funktionen Ihres Schedulers verwenden, um Momentaufnahmen zu erstellen. So kann CycleCloud beispielsweise Punkt-in-Time-Momentaufnahmen des zugrunde liegenden Anwendungsdatenspeichers als Wiederherstellungspunkte erstellen.