Freigeben über


Bewährte Methoden für die Zuverlässigkeit in Azure Monitor

In der Cloud muss leider mit Fehlern gerechnet werden. Es geht nicht darum, Fehler vollständig zu verhindern, sondern darum, die Auswirkungen einer einzelnen fehlerhaften Komponente zu minimieren. Verwenden Sie die folgenden Informationen, um Ihre virtuellen Computer und deren Client-Workloads auf Fehler zu überwachen.

In diesem Artikel wird die Zuverlässigkeit für Azure Monitor als Teil des Azure Well-Architected Framework beschrieben. Das Azure Well-Architected Framework umfasst verschiedene Grundsätze, mit denen die Qualität einer Workload verbessert werden kann. Das Framework besteht aus fünf Säulen der Architekturexzellenz:

  • Zuverlässigkeit
  • Sicherheit
  • Kostenoptimierung
  • Optimaler Betrieb
  • Effiziente Leistung

Azure Monitor-Protokolle

Log Analytics-Arbeitsbereiche bieten ein hohes Maß an Zuverlässigkeit. Die Erfassungspipeline, die gesammelte Daten an den Log Analytics-Arbeitsbereich sendet, überprüft, ob der Log Analytics-Arbeitsbereich jeden Protokolldatensatz erfolgreich verarbeitet, bevor sie den Datensatz aus der Pipe entfernt. Wenn die Erfassungspipeline nicht verfügbar ist, werden die Agents, die Daten senden, gepuffert und wiederholen viele Stunden lang den Sendevorgang für die Protokolle.

Features für Azure Monitor-Protokolle zur Verbesserung der Resilienz

Azure Monitor-Protokolle bieten verschiedene Features, die die Resilienz von Arbeitsbereichen bei unterschiedlichen Arten von Problemen verbessern. Sie können diese Features je nach Ihren Anforderungen einzeln oder in Kombination verwenden.

Dieses Video bietet eine Übersicht über Zuverlässigkeits- und Resilienzoptionen für Log Analytics-Arbeitsbereiche:

Regionsinterner Schutz mithilfe von Verfügbarkeitszonen

Jede Azure-Region, die Verfügbarkeitszonen unterstützt, enthält mehrere Rechenzentren, deren Stromversorgung, Kühlung und Netzwerkinfrastruktur unabhängig funktionieren.

Verfügbarkeitszonen für Azure Monitor-Protokolle sind redundant. Dies bedeutet, dass Microsoft Dienstanforderungen verteilt und Daten in verschiedenen Zonen in unterstützten Regionen repliziert. Wenn sich ein Vorfall auf eine Zone auswirkt, verwendet Microsoft stattdessen automatisch eine andere Verfügbarkeitszone in der Region. Sie müssen keine Maßnahmen ergreifen, da der Wechsel zwischen Zonen nahtlos erfolgt.

In den meisten Regionen unterstützen Verfügbarkeitszonen von Azure Monitor-Protokollen Datenresilienz. Das bedeutet, dass Ihre gespeicherten Daten vor Datenverlust im Zusammenhang mit Zonenausfällen geschützt sind, aber Dienstvorgänge können weiterhin von regionalen Vorfällen betroffen sein. Wenn der Dienst keine Abfragen ausführen kann, können Sie die Protokolle erst anzeigen, wenn das Problem behoben wurde.

Eine Teilmenge der Verfügbarkeitszonen, die Dienstresilienz unterstützen, können zudem Dienstresilienz unterstützen. Das bedeutet, dass Dienstvorgänge der Azure Monitor-Protokolle (z. B. Protokollerfassung, Abfragen und Warnungen) im Falle eines Zonenausfalls fortgesetzt werden können.

Verfügbarkeitszonen schützen vor Vorfällen im Zusammenhang mit der Infrastruktur, z. B. vor Speicherfehlern. Sie schützen nicht vor Problemen auf Anwendungsebene, z. B. fehlerhafte Codebereitstellungen oder Zertifikatfehler, die sich auf die gesamte Region auswirken.

Sicherung von Daten aus bestimmten Tabellen mithilfe des fortlaufenden Exports

Sie können Daten, die an bestimmte Tabellen in Ihrem Log Analytics-Arbeitsbereich gesendet werden, kontinuierlich in Azure-Speicherkonten exportieren.

Das Speicherkonto, aus dem Sie Daten exportieren, muss sich in derselben Region wie der Log Analytics-Arbeitsbereich befinden. Auch wenn die Arbeitsbereichsregion ausgefallen ist, verwenden Sie zum Schutz und für den Zugriff auf Ihre erfassten Protokolle ein georedundantes Speicherkonto, wie unter Konfigurationsempfehlungen erläutert.

Der Exportmechanismus bietet keinen Schutz vor Vorfällen, die sich auf die Erfassungspipeline oder den Exportprozess selbst auswirken.

Hinweis

Sie können über Azure Monitor-Protokolle auf Daten in einem Speicherkonto zugreifen, indem Sie den externaldata-Operator verwenden. Die exportierten Daten werden jedoch in Blobs von fünf Minuten gespeichert, und die Analyse von Daten, die mehrere Blobs umfassen, kann umständlich sein. Daher ist das Exportieren von Daten in ein Speicherkonto ein guter Datensicherungsmechanismus. Die Sicherung von Daten in einem Speicherkonto ist allerdings nicht ideal, wenn Sie sie für die Analyse in Azure Monitor-Protokollen benötigen. Sie können große Mengen von Blobdaten mithilfe von Azure Data Explorer, Azure Data Factory oder eines beliebigen anderen Speicherzugriffstools abfragen.

Datenschutz und Dienstresilienz über Regionen hinweg mithilfe der Arbeitsbereichsreplikation (Vorschau)

Die Arbeitsbereichsreplikation (Vorschau) ist die umfassendste Resilienzlösung, da sie den Log Analytics-Arbeitsbereich und eingehende Protokolle in einer anderen Region repliziert.

Die Arbeitsbereichsreplikation schützt sowohl Ihre Protokolle als auch die Dienstvorgänge und ermöglicht es Ihnen, Ihre Systeme im Falle von regionsweiten Infrastruktur- oder Anwendungsvorfällen weiterhin zu überwachen.

Im Gegensatz zu Verfügbarkeitszonen, für die Microsoft die End-to-End-Verwaltung übernimmt, müssen Sie die Integrität Ihres primären Arbeitsbereichs überwachen und entscheiden, wann zum Arbeitsbereich in der sekundären Region und wieder zurück gewechselt werden soll.

Prüfliste für den Entwurf

  • Aktivieren Sie die Arbeitsbereichsreplikation, um Dienst- und Datenresilienz für regionsweite Vorfälle sicherzustellen.
  • Erstellen Sie Ihren Arbeitsbereich in einer Region, die Verfügbarkeitszonen unterstützt, um regionsinternen Schutz vor Rechenzentrumsfehlern zu gewährleisten.
  • Verwenden Sie für die regionsübergreifende Sicherung von Daten in bestimmten Tabellen das Feature für den fortlaufenden Export, um Daten an ein georepliziertes Speicherkonto zu senden.
  • Überwachen Sie die Integrität Ihrer Log Analytics-Arbeitsbereiche.

Konfigurationsempfehlungen

Empfehlung Vorteil
Aktivieren Sie die Arbeitsbereichsreplikation, um den größten Grad an Resilienz sicherzustellen. Regionsübergreifende Resilienz für Arbeitsbereichsdaten und Dienstvorgänge

Arbeitsbereichsreplikation (Vorschau) stellt Hochverfügbarkeit sicher, indem eine sekundäre Instanz Ihres Arbeitsbereichs in einer anderen Region erstellt wird und Ihre Protokolle in beiden Arbeitsbereichen erfasst werden.

Wechseln Sie bei Bedarf zu Ihrem sekundären Arbeitsbereich, bis die Probleme behoben wurden, die sich auf den primären Arbeitsbereich auswirken. Sie können weiterhin Protokolle erfassen, Daten abfragen und Dashboards, Warnungen und Sentinel in Ihrem sekundären Arbeitsbereich verwenden. Sie haben außerdem Zugriff auf Protokolle, die vor dem Regionswechsel erfasst wurden.

Dies ist ein kostenpflichtiges Feature. Überlegen Sie daher, ob Sie alle eingehenden Protokolle oder nur einige Datenströme replizieren möchten.
Erstellen Sie nach Möglichkeit Ihren Arbeitsbereich in einer Region, die die Dienstresilienz von Azure Monitor unterstützt. Regionsinterne Resilienz von Arbeitsbereichsdaten- und Dienstvorgängen im Falle von Rechenzentrumsproblemen

Verfügbarkeitszonen, die die Dienstresilienz unterstützen, unterstützen auch die Datenresilienz. Das bedeutet Folgendes: Selbst wenn ein gesamtes Rechenzentrum ausfällt, ermöglicht die Redundanz zwischen Zonen, dass Azure Monitor-Dienstvorgänge wie Erfassung und Abfrage weiterhin funktionieren, und Ihre erfassten Protokolle bleiben verfügbar.

Verfügbarkeitszonen bieten regionsinternen Schutz, schützen aber nicht vor Problemen, die sich auf die gesamte Region auswirken.

Informationen dazu, welche Regionen die Datenresilienz unterstützen, finden Sie unter Verbessern der Daten- und Dienstresilienz in Azure Monitor-Protokollen mit Verfügbarkeitszonen.
Erstellen Sie Ihren Arbeitsbereich in einer Region, die Datenresilienz unterstützt. Regionsinterner Schutz vor dem Verlust der Protokolle in Ihrem Arbeitsbereich im Falle von Rechenzentrumsproblemen

Das Erstellen Ihres Arbeitsbereichs in einer Region, die Datenresilienz unterstützt, bedeutet, dass ihre erfassten Protokolle auch dann sicher sind, wenn das gesamte Rechenzentrum ausfällt.
Wenn der Dienst keine Abfragen ausführen kann, können Sie die Protokolle erst anzeigen, wenn das Problem behoben wurde.

Informationen dazu, welche Regionen die Datenresilienz unterstützen, finden Sie unter Verbessern der Daten- und Dienstresilienz in Azure Monitor-Protokollen mit Verfügbarkeitszonen.
Konfigurieren Sie den Datenexport aus bestimmten Tabellen in ein Speicherkonto, das in allen Regionen repliziert wird. Verwalten einer Sicherungskopie Ihrer Protokolldaten in einer anderen Region

Mit dem Datenexportfeature von Azure Monitor können Sie Daten, die an bestimmte Tabellen gesendet werden, kontinuierlich zu Azure Storage exportieren, wo sie über einen längeren Zeitraum aufbewahrt werden können. Verwenden Sie ein GRS-Konto (georedundantes Speicherkonto) oder ein GZRS-Konto (geozonenredundanter Speicher), um Ihre Daten zu schützen, auch wenn eine gesamte Region ausfällt. Damit Ihre Daten aus den anderen Regionen lesbar sind, konfigurieren Sie Ihr Speicherkonto für den Lesezugriff auf die sekundäre Region. Weitere Informationen finden Sie unter Azure Storage-Redundanz in einer sekundären Region und Azure Storage-Lesezugriff auf Daten in der sekundären Region.

Für Tabellen, die den fortlaufenden Datenexport nicht unterstützen, können Sie andere Methoden zum Exportieren von Daten verwenden, einschließlich Logic Apps, um Ihre Daten zu schützen. Dies ist in erster Linie eine Lösung, um die Compliance für die Datenaufbewahrung zu erfüllen, da es schwierig sein kann, die Daten zu analysieren und im Arbeitsbereich wiederherzustellen.

Der Datenexport ist anfällig für regionale Vorfälle, da er auf der Stabilität der Azure Monitor-Aufnahmepipeline in Ihrer Region basiert. Er bietet keine Resilienz gegen Vorfälle, die sich auf die regionale Aufnahmepipeline auswirken.
Überwachen Sie die Integrität Ihrer Log Analytics-Arbeitsbereiche. Nutzen Sie Erkenntnisse zum Log Analytics-Arbeitsbereich, um nicht erfolgreiche Abfragen nachzuverfolgen und eine Integritätsstatuswarnung zu erstellen, damit Sie proaktiv benachrichtigt werden, wenn ein Arbeitsbereich aufgrund eines Rechenzentrums- oder Regionsausfalls nicht mehr verfügbar ist.

Vergleich der Resilizenfeatures von Azure Monitor-Protokollen

Funktion Dienstresilienz Datensicherung Hochverfügbarkeit Schutzumfang Einrichten Kosten
Arbeitsbereichsreplikation Regionsübergreifender Schutz vor regionsweiten Vorfällen Aktivieren sie die Replikation des Arbeitsbereichs und zugehöriger Datensammlungsregeln. Wechseln Sie nach Bedarf zwischen Regionen. Basierend auf der Anzahl der replizierten GBs und der Region
Verfügbarkeitszonen
In unterstützten Regionen
Regionsinterner Schutz vor Rechenzentrumsproblemen In unterstützten Regionen automatisch aktiviert Kostenlos
Kontinuierlicher Datenexport Schutz vor Datenverlust aufgrund eines regionalen Ausfalls 1 Pro Tabelle aktivieren. Kosten für den Datenexport + Speicher-BLOB oder Event Hubs

1 Der Datenexport bietet regionsübergreifenden Schutz, wenn Sie Protokolle in ein georepliziertes Speicherkonto exportieren. Im Falle eines Vorfalls werden zuvor exportierte Daten gesichert und sofort verfügbar; je nach Art des Vorfalls kann jedoch ein weiterer Export fehlschlagen.

Alerts

Azure Monitor-Benachrichtigungen bieten ein hohes Maß an Zuverlässigkeit ohne Entwurfsentscheidungen. Bedingungen, bei denen ein vorübergehender Verlust von Warnungsdaten auftreten kann, werden häufig durch Features anderer Azure Monitor-Komponenten gemindert.

Prüfliste für den Entwurf

  • Konfigurieren von Warnungsregeln für Dienstintegrität.
  • Konfigurieren von Warnungsregeln für die Ressourcenintegrität.
  • Vermeiden Sie Dienstgrenzwerte für Warnungsregeln, die umfangreiche Benachrichtigungen erzeugen.

Konfigurationsempfehlungen

Empfehlung Vorteil
Konfigurieren von Warnungsregeln für Dienstintegrität. Dienststatuswarnungen senden Ihnen Benachrichtigungen über Ausfälle, Dienstunterbrechungen, geplante Wartungen und Sicherheitsempfehlungen. Siehe Erstellen oder Bearbeiten einer Warnungsregel.
Konfigurieren von Warnungsregeln für die Ressourcenintegrität. Resource Health-Warnungen können Sie nahezu in Echtzeit informieren, wenn sich der Integritätsstatus dieser Ressourcen ändert. Siehe Erstellen oder Bearbeiten einer Warnungsregel.
Vermeiden Sie Dienstgrenzwerte für Warnungsregeln, die umfangreiche Benachrichtigungen erzeugen. Wenn Sie Über Warnungsregeln verfügen, die eine große Anzahl von Benachrichtigungen senden würden, erreichen Sie möglicherweise Ihre Dienstgrenzwerte für den Dienst, den Sie zum Senden von E-Mails oder SMS-Benachrichtigungen verwenden. Konfigurieren Sie programmgesteuerte Aktionen, oder wählen Sie eine alternative Benachrichtigungsmethode oder einen alternativen Anbieter für die Verarbeitung umfangreicher Benachrichtigungen aus. Siehe Dienstgrenzwerte für Benachrichtigungen.

Virtuelle Computer

Prüfliste für den Entwurf

  • Erstellen Sie Verfügbarkeitswarnungsregeln für Azure-VMs.
  • Erstellen Sie eine Warnungsregel für den Agent-Takt, um die Agentintegrität zu überprüfen.
  • Konfigurieren Sie die Datenerfassung und Warnungen zur Überwachung der Zuverlässigkeit von Clientworkflows.

Konfigurationsempfehlungen

Empfehlung BESCHREIBUNG
Erstellen Sie Verfügbarkeitswarnungsregeln für Azure-VMs. Verwenden Sie die Verfügbarkeitsmetrik (Vorschau), um nachzuverfolgen, wann eine Azure-VM ausgeführt wird. Während Sie mithilfe empfohlener Warnungen schnell eine Verfügbarkeitswarnregel für einen einzelnen Computer aktivieren können, ermöglicht eine einzelne Warnungsregel für eine Ressourcengruppe oder ein Abonnement Verfügbarkeitswarnungen für alle VMs in diesem Bereich für eine bestimmte Region. Dies ist einfacher zu verwalten als das Erstellen einer Warnungsregel für jeden einzelnen virtuellen Computer und stellt sicher, dass alle in diesem Bereich erstellten neuen VMs automatisch überwacht werden. Diese Warnungsregel erfordert nicht, dass der Azure Monitor-Agent auf dem virtuellen Computer installiert ist, aber sie ist nicht für VMs außerhalb von Azure verfügbar.
Erstellen Sie eine Warnungsregel für den Agent-Takt, um die Agentintegrität zu überprüfen. Der Azure Monitor-Agent sendet jede Minute einen Heartbeat an den Log Analytics-Arbeitsbereich. Verwenden Sie eine Protokollsuchwarnungsregel, die den Agent-Takt verwendet, um benachrichtigt zu werden, wenn ein Agent das Senden von Takten beendet. Dies ist ein Indikator dafür, dass entweder der virtuelle Computer ausgefallen oder der Agent fehlerhaft ist und die Client-Workloads nicht überwacht werden. Diese Warnungsregel erfordert, dass der Azure Monitor-Agent auf dem virtuellen Computer installiert ist und sowohl für Azure- als auch für Nicht-Azure-VMs gilt.
Konfigurieren Sie die Datenerfassung und Warnungen zur Überwachung der Zuverlässigkeit von Clientworkflows. Verwenden Sie die Informationen unter Überwachen virtueller Computer mit Überwachen virtueller Computer mit Azure Monitor: Sammeln von Daten zum Konfigurieren der Clientereignissammlung, die potenzielle Probleme mit Ihren Client-Workloads anzeigt. Verwenden Sie die Informationen unter Überwachen virtueller Computer mit Überwachen virtueller Computer mit Azure Monitor: Warnungen, um Warnungsregeln zu erstellen, die Sie proaktiv über potenzielle betriebsbedingte Probleme mit Ihren Client-Workloads benachrichtigen.

Container

Prüfliste für den Entwurf

  • Aktivieren Sie das Scraping von Prometheus-Metriken für Ihren Cluster.
  • Aktivieren Sie Container Insights für die Erfassung von Protokollen und Leistungsdaten von Ihrem Cluster.
  • Erstellen Sie Diagnoseeinstellungen zum Sammeln von Protokollen auf Steuerungsebene für AKS-Cluster.
  • Aktivieren Sie empfohlene Prometheus-Warnungen.
  • Stellen Sie sicher, dass der Log Analytics-Arbeitsbereich für Container Insights verfügbar ist.

Konfigurationsempfehlungen

Empfehlung Vorteil
Aktivieren Sie das Scraping von Prometheus-Metriken für Ihren Cluster. Aktivieren Sie Prometheus in Ihrem Cluster mit dem verwalteten Azure Monitor-Dienst für Prometheus, wenn Sie noch keine Prometheus-Umgebung haben. Verwenden Sie Azure Managed Grafana, um die gesammelten Prometheus-Daten zu analysieren. Weitere Informationen zum Sammeln zusätzlicher Metriken über die Standardkonfiguration hinaus finden Sie unter Anpassen des Scrapings von Prometheus-Metriken im verwalteten Azure Monitor-Dienst für Prometheus.
Aktivieren Sie Container Insights für die Erfassung von Protokollen und Leistungsdaten von Ihrem Cluster. Container Insights sammelt stdout/stderr-Protokolle, Leistungsmetriken und Kubernetes-Ereignisse von jedem Knoten in Ihrem Cluster. Es stellt Dashboards und Berichte zur Analyse dieser Daten bereit, einschließlich der Verfügbarkeit Ihrer Knoten und anderer Komponenten. Verwenden Sie Log Analytics, um Verfügbarkeitsfehler in Ihren gesammelten Protokollen zu identifizieren.
Erstellen Sie Diagnoseeinstellungen zum Sammeln von Protokollen auf Steuerungsebene für AKS-Cluster. AKS implementiert Protokolle auf Steuerungsebene als Ressourcenprotokolle in Azure Monitor. Erstellen Sie eine Diagnoseeinstellung, um diese Protokolle an Ihren Log Analytics-Arbeitsbereich zu senden, damit Sie Protokollabfragen verwenden können, um Fehler und Probleme zu identifizieren, die sich auf die Verfügbarkeit auswirken.
Aktivieren Sie empfohlene Prometheus-Warnungen. Über Warnungen in Azure Monitor können Sie sich proaktiv benachrichtigen lassen, wenn Probleme erkannt werden. Beginnen Sie mit einigen der empfohlenen Prometheus-Warnungsregeln, die die häufigsten Verfügbarkeits- und Leistungsprobleme in Ihrem Cluster erkennen. Sie können auch Protokollsuchwarnungen auf der Grundlage der von Container Insights gesammelten Daten hinzufügen.
Stellen Sie sicher, dass der Log Analytics-Arbeitsbereich für Container Insights verfügbar ist. Container Insights erfordert einen Log Analytics-Arbeitsbereich. In den bewährten Methoden für Azure Monitor-Protokolle finden Sie Empfehlungen, um die Zuverlässigkeit des Arbeitsbereichs sicherzustellen.

Nächster Schritt