Freigeben über


Empfehlungen für das Entwerfen einer zuverlässigen Überwachungs- und Warnstrategie

Gilt für diese Empfehlung für die Zuverlässigkeitsprüfliste des Azure Well-Architected Framework:

RE:10 Messen und veröffentlichen Sie die Integritätsindikatoren der Lösung. Erfassen Sie kontinuierlich Betriebszeit- und andere Zuverlässigkeitsdaten aus der gesamten Workload und auch aus einzelnen Komponenten und Schlüsselflüssen.

In diesem Leitfaden werden die Empfehlungen für das Entwerfen einer zuverlässigen Überwachungs- und Warnstrategie beschrieben. Implementieren Sie diese Strategie, um Ihre Betriebsteams über den Integritätsstatus Ihrer Umgebung zu informieren und sicherzustellen, dass Sie die etablierten Zuverlässigkeitsziele für Ihre Workload erfüllen.

Definitionen

Begriff Definition
Metriken Numerische Werte, die in regelmäßigen Abständen gesammelt werden. Metriken beschreiben einige Aspekte eines Systems zu einem bestimmten Zeitpunkt.
Ressourcenprotokolle Daten, die ein System generiert. Es stellt Informationen zum Zustand des Systems bereit.
Traces Daten, die Informationen über den Pfad bereitstellen, den eine Anforderung durch Dienste und Komponenten durchläuft.

Wichtige Entwurfsstrategien

Bevor Sie eine Überwachungs- und Warnstrategie erstellen, führen Sie die folgenden Aufgaben für Ihre Arbeitsauslastung im Rahmen Ihrer Zuverlässigkeitsplanung aus:

Erstellen Sie eine Überwachungs- und Warnstrategie, um sicherzustellen, dass Ihre Workload zuverlässig funktioniert. Eine Überwachungs- und Warnstrategie bietet Ihren Betriebsteams Sensibilisierung, damit sie über Änderungen an der Bedingung Ihrer Workload benachrichtigt werden und probleme schnell beheben können. Erstellen Sie eine robuste und zuverlässige Überwachungsstrategie, indem Sie ein Integritätsmodell für Ihre kritischen Flüsse und die Komponenten erstellen, aus denen diese kritischen Flüsse bestehen. Das Integritätsmodell definiert fehlerfreie, herabgestufte und ungesunde Zustände. Entwerfen Sie Ihren Betriebsstatus so, dass Änderungen in diesen Zuständen sofort erfasst werden. Wenn sich die Integritätszustände von "gesund" in "beeinträchtigt" oder "ungesund" ändern, lösen Warnungsmechanismen die automatischen Korrekturmaßnahmen aus und benachrichtigt entsprechende Teams.

Implementieren Sie die folgenden Empfehlungen, um eine Überwachungs- und Warnstrategie zu entwerfen, die den Anforderungen Ihres Unternehmens entspricht.

Implementieren einer Gesamtüberwachungsstrategie

  • Verstehen Sie den Unterschied zwischen Metriken, Protokollen und Ablaufverfolgungen.

  • Aktivieren Sie die Protokollierung für alle Cloudressourcen. Verwenden Sie Automatisierung und Governance in Ihren Bereitstellungen, um die Diagnoseprotokollierung in Ihrer gesamten Umgebung zu ermöglichen.

  • Leiten Sie alle Diagnoseprotokolle an eine zentrale Datensenke und Analyseplattform weiter, z. B. an einen Log Analytics-Arbeitsbereich. Wenn Sie regionale Anforderungen an die Datenhoheit haben, müssen Sie lokale Datensenken in den Regionen verwenden, die diesen Anforderungen unterliegen.

Kompromiss: Es gibt Kostenauswirkungen für das Speichern und Abfragen von Protokollen. Beachten Sie, wie sich Ihre Protokollanalyse und -aufbewahrung auf Ihr Budget auswirkt, und ermitteln Sie das beste Gleichgewicht der Auslastung, um Ihre Anforderungen zu erfüllen. Weitere Informationen finden Sie unter "Bewährte Methoden für die Kostenoptimierung".

  • Wenn Ihre Workloads einem oder mehreren Complianceframeworks unterliegen, unterliegen einige der Komponentenprotokolle, die vertrauliche Informationen verarbeiten, ebenfalls diesen Frameworks. Senden Sie die relevanten Komponentenprotokolle an ein SIEM-System (Security Information and Event Management), z . B. Microsoft Sentinel.

  • Erstellen Sie eine Protokollaufbewahrungsrichtlinie , die langfristige Aufbewahrungsanforderungen enthält, die vom Complianceframework für Ihre Workload auferlegt werden.

  • Verwenden Sie die strukturierte Protokollierung für alle Protokollnachrichten, um die Abfrage der Protokolldaten zu optimieren.

  • Konfigurieren Sie Warnungen, die ausgelöst werden, wenn Werte kritische Schwellenwerte übergeben, die mit einer Änderung des Integritätsmodellzustands korrelieren, z. B. Grün zu Gelb oder Rot.

    Die Schwellenwertkonfiguration ist eine Praxis der kontinuierlichen Verbesserung. Während sich Ihre Arbeitsauslastung weiterentwickelt, können sich die von Ihnen definierten Schwellenwerte ändern. In einigen Fällen sind dynamische Schwellenwerte eine gute Option für Ihre Überwachungsstrategie.

  • Erwägen Sie die Verwendung von Warnungen, wenn Status verbessert werden, z. B. Rot auf Gelb oder Rot auf Grün, sodass die Betriebsteams diese Ereignisse für zukünftige Verweise nachverfolgen können.

  • Visualisieren Sie die Echtzeitintegrität Ihrer Umgebung.

  • Verwenden Sie Daten, die während Vorfällen gesammelt werden, um Ihre Integritätsmodelle und Ihre Überwachungs- und Warnstrategie kontinuierlich zu verbessern.

  • Integrieren von Cloudplattformüberwachungs- und Warnungsdiensten, einschließlich:

  • Integrieren Sie zweckorientierte erweiterte Überwachung und Analyse, die Ihr Cloudanbieter bietet, z. B. Azure Monitor Insight-Tools.

  • Implementieren der Sicherungs- und Wiederherstellungsüberwachung zur Erfassung:

    • Der Datenreplikationsstatus, um sicherzustellen, dass Ihre Workload die Wiederherstellung innerhalb des Zielwiederherstellungspunktziels (RPO) erreicht.

    • Erfolgreiche und fehlgeschlagene Sicherungen und Wiederherstellungen.

    • Die Wiederherstellungsdauer, um Ihre Notfallwiederherstellungsplanung zu informieren.

Überwachen von Anwendungen

  • Erstellen Sie Integritätssonden, oder überprüfen Sie Funktionen , und führen Sie sie regelmäßig von außerhalb der Anwendung aus. Stellen Sie sicher, dass Sie von mehreren Standorten testen, die geografisch nah an Ihren Kunden liegen.

  • Protokollieren Sie Daten, während die Anwendung in der Produktionsumgebung ausgeführt wird. Sie benötigen ausreichende Informationen, um die Ursache von Problemen im Produktionszustand zu diagnostizieren.

  • Protokollieren Sie Ereignisse an den Dienstgrenzen. Binden Sie eine Korrelations-ID ein, die über Dienstgrenzen hinweg gilt. Wenn eine Transaktion über mehrere Dienste fließt und einer von ihnen fehlschlägt, hilft Ihnen die Korrelations-ID, Anforderungen in Ihrer Anwendung nachzuverfolgen und zu ermitteln, warum die Transaktion fehlgeschlagen ist.

  • Verwenden Sie die asynchrone Protokollierung. Synchrone Protokollierungsvorgänge blockieren manchmal Ihren Anwendungscode, was dazu führt, dass Anforderungen gesichert werden, wenn Protokolle geschrieben werden. Verwenden Sie die asynchrone Protokollierung, um die Verfügbarkeit während der Anwendungsprotokollierung aufrecht zu erhalten.

  • Trennen Sie die Anwendungsprotokollierung von der Überwachung. Überwachungsdatensätze werden üblicherweise aufgrund von Compliance- oder regulatorischen Anforderungen gepflegt und müssen vollständig sein. Um verworfene Transaktionen zu vermeiden, verwalten Sie Überwachungsprotokolle getrennt von Diagnoseprotokollen.

  • Verwenden Sie die Telemetriekorrelation , um sicherzustellen, dass Sie Transaktionen über die End-to-End-Anwendung und kritische Systemflüsse zuordnen können. Dieser Prozess ist für die Durchführung der Ursachenanalyse (Root Cause Analysis, RCA) für Fehler unerlässlich. Sammeln Sie Metriken und Protokolle auf Plattformebene, z. B. CPU-Prozentsatz, Netzwerk in, Netzwerkausgang und Datenträgervorgänge pro Sekunde, von der Anwendung, um ein Integritätsmodell zu informieren und Probleme zu erkennen und vorherzusagen. Dieser Ansatz kann dabei helfen, zwischen vorübergehenden und nichttransparenten Fehlern zu unterscheiden.

  • Mithilfe der Whiteboxüberwachung können Sie die Anwendung mit semantischen Protokollen und Metriken instrumentieren. Sammeln Sie Metriken und Protokolle auf Anwendungsebene, z. B. Arbeitsspeicherverbrauch oder Anforderungslatenz, von der Anwendung, um ein Integritätsmodell zu informieren und Probleme zu erkennen und vorherzusagen.

  • Verwenden Sie black box Monitoring, um Plattformdienste und die resultierende Kundenerfahrung zu messen. Die Blackboxüberwachung prüft das von außen sichtbare Verhalten der Anwendung ohne Berücksichtigung der internen Systemabläufe. Dieser Ansatz ist üblich für die Messung von kundenorientierten Leistungsindikatoren (SLIs), ServiceLevel-Zielen (SLOs) und Vereinbarungen auf Servicelevel (Service Level Agreements, SLAs).

Hinweis

Weitere Informationen zur Anwendungsüberwachung finden Sie im Integritätsendpunktüberwachungsmuster.

Überwachen von Daten und Speicherung

  • Überwachen Sie die Verfügbarkeitsmetriken Ihrer Speichercontainer. Wenn diese Metrik unter 100 Prozent fällt, gibt sie fehlerhafte Schreibvorgänge an. Vorübergehende Verfügbarkeitsverluste können auftreten, wenn Ihr Cloudanbieter die Last verwaltet. Verfolgen Sie die Verfügbarkeitstrends, um festzustellen, ob ein Problem mit Ihrer Workload besteht.

    In einigen Fällen gibt ein Rückgang der Verfügbarkeitsmetriken für einen Speichercontainer einen Engpass in der Computeebene an, die dem Speichercontainer zugeordnet ist.

  • Es gibt viele Metriken, die für Datenbanken überwacht werden sollen. Im Kontext der Zuverlässigkeit umfassen die wichtigen Metriken, die überwacht werden sollen:

    • Abfragedauer

    • Timeouts

    • Wartezeiten

    • Hohe Arbeitsspeicherauslastung

    • Locks

Umsetzung in Azure

  • Azure Monitor ist eine umfassende Überwachungslösung, die verwendet wird, um Überwachungsdaten aus Ihrer Cloud und lokalen Umgebungen zu sammeln, zu analysieren und darauf zu reagieren.

  • Log Analytics ist ein Tool im Azure-Portal, das zum Bearbeiten und Ausführen von Protokollabfragen für Daten im Log Analytics-Arbeitsbereich verwendet wird.

  • Application Insights ist eine Erweiterung von Azure Monitor. Es stellt APM-Features (Application Performance Monitoring) bereit.

  • Azure Monitor Insights sind erweiterte Analysetools, mit denen Azure-Dienste wie virtuelle Computer, Anwendungsdienste und Container überwacht werden. Insights basieren auf Azure Monitor und Log Analytics.

  • Azure Monitor für SAP-Lösungen ist ein natives Azure-Produkt zur Überwachung von SAP-Landschaften, die in Azure ausgeführt werden.

  • Azure Policy hilft bei der Durchsetzung von Organisationsstandards und bei der Bewertung der Compliance im großen Stil.

  • Azure Business Continuity Center bietet Ihnen Einblicke in Ihre Geschäftskontinuitätsfläche. Wenn Sie die Ansätze für Geschäftskontinuität und Notfallwiederherstellung (BcDR) anwenden, verwenden Sie Azure Business Continuity Center, um die Verwaltung des Geschäftskontinuitätsschutzes in Azure- und Hybridarbeitslasten zu zentralisieren. Azure Business Continuity Center heftet Ressourcen an, die keinen ordnungsgemäßen Schutz (über Sicherung oder Notfallwiederherstellung) haben und Korrekturmaßnahmen ergreifen. Das Tool erleichtert die einheitliche Überwachung und ermöglicht es Ihnen, die Governance- und Überwachungscompliance über Azure-Richtlinie einzurichten, die alle bequem an einem Ort zugänglich sind.

  • Bewährte Methoden für mehrere Arbeitsbereiche finden Sie unter Entwerfen einer Log Analytics-Arbeitsbereichsarchitektur.

Beispiel

Beispiele für reale Monitoring-Lösungen finden Sie unter Webanwendungsüberwachung in Azure und Baseline-Architektur für einen Azure Kubernetes-Dienstcluster.

  • Azure Monitor Baseline Alerts (AMBA) ist ein zentrales Repository von Warnungsdefinitionen, die Kunden und Partner verwenden können, um ihre Beobachtbarkeit durch die Einführung von Azure Monitor zu verbessern.

Zuverlässigkeitsprüfliste

Lesen Sie den vollständigen Satz von Empfehlungen.