Empfehlungen für die Entwicklung einer zuverlässigen Überwachungs- und Warnstrategie
Gilt für diese Empfehlungen bezüglich der Power Platform Zuverlässigkeits-Checkliste:
RE:08 | Messen und veröffentlichen Sie die Integritätsindikatoren der Lösung. Erfassen Sie kontinuierlich Betriebszeit- und andere Zuverlässigkeitsdaten aus dem gesamten Workload sowie von einzelnen Komponenten und wichtigen Flows. |
---|
In dieser Anleitung werden die Empfehlungen zur Konzeption einer zuverlässigen Überwachungs- und Warnstrategie beschrieben. Implementieren Sie diese Strategie, um Ihre Betriebsteams über den Integritätsstatus Ihrer Umgebung auf dem Laufenden zu halten und sicherzustellen, dass Sie die festgelegten Zuverlässigkeitsziele für Ihre Workload erreichen.
Definitionen
Begriff | Definition |
---|---|
Metriken | Zahlenwerte, die in regelmäßigen Abständen erhoben werden. Metriken beschreiben bestimmte Aspekte eines Systems zu einem bestimmten Zeitpunkt. |
Ressourcenprotokolle | Daten über einen Status, die ein System generiert. |
Ablaufverfolgungen | Daten, die Aufschluss über den Weg einer Anforderung durch Dienste und Komponenten geben. |
Wichtige Designstrategien
Bevor Sie eine Überwachungs- und Warnstrategie erstellen, führen Sie im Rahmen Ihrer Zuverlässigkeitsplanung die folgenden Aufgaben für Ihre Workload aus:
Identifizieren Sie kritische und nicht kritische Flows.
Führen Sie eine Fehlermöglichkeitsanalyse (FMA) für Ihre Flows durch.
Identifizieren Sie Zuverlässigkeitsziele.
Entwerfen Sie eine robuste Teststrategie.
Erstellen Sie eine Überwachungs- und Warnstrategie, um Ihre Betriebsteams auf dem Laufenden zu halten, sodass sie bezüglich Änderungen am Status Ihrer Workload informiert werden und Probleme schnell beheben können. Das Integritätsmodell für Ihre kritischen Flows und für Workloads, die kritische Flows enthalten, sollte fehlerfreie, heruntergestufte und fehlerhafte Zustände definieren. Gestalten Sie Ihre Überwachung so, dass Sie Änderungen in diesen Zuständen sofort erkennen. Wenn sich der Integritätsstatus von „fehlerfrei“ auf „heruntergestuft“ oder „fehlerhaft“ ändert, sollten Warnmechanismen automatische Wiederherstellungsmaßnahmen und Warnungen an die zuständigen Teams auslösen.
Setzen Sie die folgenden Empfehlungen um, um eine Überwachungs- und Warnstrategie zu entwickeln, die den Anforderungen Ihres Unternehmens entspricht.
Allgemeine Hinweise
Machen Sie sich mit den Unterschieden zwischen Metriken, Protokollen und Ablaufverfolgungen vertraut.
Aktivieren Sie die Protokollierung für alle Cloud-Ressourcen. Nutzen Sie Automatisierung und Governance in Ihren Bereitstellungen, um die Diagnoseprotokollierung in Ihrer gesamten Umgebung zu ermöglichen.
Leiten Sie alle Diagnoseprotokolle an eine zentrale Datensenke und Analyseplattform weiter, beispielsweise einen Log Analytics-Arbeitsbereich. Wenn für Sie regionale Anforderungen bezüglich der Datensouveränität gelten, müssen Sie in den Regionen, für die diese Anforderungen gelten, lokale Datensenken verwenden.
Nachteil: Für die Speicherung und Abfrage von Protokollen entstehen Kosten. Sehen Sie sich an, wie sich Ihre Protokollanalyse und -aufbewahrung auf Ihr Budget auswirkt, und ermitteln Sie das optimale Nutzungsgleichgewicht, um Ihren Anforderungen gerecht zu werden.
Wenn für Ihre Workloads ein oder mehrere Compliance-Rahmen gelten, unterliegen auch einige der Komponentenprotokolle, die vertrauliche Informationen verarbeiten, diesen Rahmen. Senden Sie die relevanten Komponentenprotokolle an ein SIEM-System (Security Information & Event Management), z. B. Microsoft Sentinel.
Erstellen Sie eine Richtlinie zur Protokollaufbewahrung, die Anforderungen an die langfristige Aufbewahrung festlegt, die Ihre Workload laut den Compliance-Rahmen erfüllen müssen.
Verwenden Sie für alle Protokollmeldungen eine strukturierte Protokollierung, um die Abfrage der Protokolldaten zu optimieren.
Konfigurieren Sie Warnungen, die ausgelöst werden, wenn Werte kritische Schwellenwerte überschreiten, die mit einer Statusänderung des Integritätsmodells korrelieren, z. B. von Grün zu Gelb oder Rot. Die Schwellenwertkonfiguration ist ein Verfahren zur kontinuierlichen Verbesserung. Wenn sich Ihre Workload weiterentwickelt, können sich mit der Zeit auch die von Ihnen festgelegten Schwellenwerte ändern.
Erwägen Sie, Warnmeldungen auch bei Statusverbesserungen zu verwenden, z. B. von Rot zu Gelb oder von Rot zu Grün, damit die Betriebsteams in Zukunft auf diese Ereignisse zurückgreifen können
Visualisieren Sie die Integrität Ihrer Umgebung mithilfe benutzerdefinierter Dashboards in Echtzeit.
Nutzen Sie die während Vorfällen gesammelten Daten, um Ihre Integritätsmodelle kontinuierlich zu verbessern.
Integrieren Sie die Überwachungs- und Warndienste von Cloud-Plattformen, einschließlich der Integrität auf Plattformebene.
Integrieren Sie speziell entwickelte erweiterte Überwachungs- und Analysefunktionen Ihres Cloudanbieters, beispielsweise die Tools zum Erkenntnisgewinn von Azure Monitor.
Implementieren Sie eine Sicherungs- und Wiederherstellungsüberwachung, um Folgendes zu erfassen:
- Den Datenreplikationsstatus, um sicherzustellen, dass Ihre Workload innerhalb des angestrebten Recovery Point Objectives (RPO) wiederhergestellt werden kann.
- Erfolgreiche und fehlgeschlagene Sicherungen und Wiederherstellungen.
- Die Wiederherstellungsdauer, was in Ihre Notfallwiederherstellungsplanung einfließen sollte.
Anwendungen und Agenten überwachen
Protokollieren Sie Daten, während die Anwendung oder der Agent in der Produktionsumgebung ausgeführt wird. Sie benötigen ausreichende Informationen, um die Ursache von Problemen im Produktionszustand diagnostizieren zu können.
Protokollieren Sie Ereignisse an Dienstgrenzen. Nehmen Sie eine Korrelations-ID mit auf, die über Dienstgrenzen hinweg läuft. Wenn eine Transaktion mehrere Dienste durchläuft und einer davon fehlschlägt, können Sie mithilfe der Korrelations-ID die Anforderungen in Ihrer Anwendung nachverfolgen und die Ursache für das Fehlschlagen der Transaktion ermitteln.
Separate Anwendung und Agent-Protokollierung von der Überwachung. Überwachungsaufzeichnungen werden üblicherweise aus Compliance- oder behördlichen Gründen aufbewahrt und müssen vollständig sein. Um zu verhindern, dass Transaktionen abgebrochen werden, bewahren Sie Überwachungsprotokolle von Diagnoseprotokollen getrennt auf.
Verwenden Sie die Whiteboxüberwachung, um die Anwendung oder den Agenten mit semantischen Protokollen und Metriken zu instrumentieren. Erfassen Sie Metriken und Protokolle auf Anwendungs- und Agentenebene, z. B. Speicherverbrauch oder Anforderungslatenz, aus der Anwendung oder dem Agenten, um sie in ein Integritätsmodell einfließen zu lassen und Probleme zu erkennen und vorherzusagen.
Verwenden Sie Black-Box-Überwachung, um Plattformdienste und das daraus resultierende Kundenerlebnis zu messen. Blackboxüberwachung testet extern sichtbares Anwendungs- oder Agentenverhalten, ohne den inneren Aufbau des Systems zu kennen. Dieser Ansatz wird häufig zum Messen kundenorientierter Servicelevelindikatoren (SLIs), Servicelevelziele (SLOs) und Vereinbarungen zum Servicelevel (SLAs) verwendet.
Daten und Speicher überwachen
Überwachen Sie die Verfügbarkeitsmetriken Ihrer Speichercontainer. Wenn diese Metrik unter 100 % fällt, liegen eventuell fehlgeschlagene Schreibvorgänge vor. Wenn Ihr Cloudanbieter die Last verwaltet, kann es zu vorübergehenden Verfügbarkeitseinbußen kommen. Verfolgen Sie die Verfügbarkeitstrends nach, um festzustellen, ob ein Problem mit Ihrer Workload vorliegt. In einigen Fällen deutet ein Abfall der Verfügbarkeitsmetriken für einen Speichercontainer auf einen Engpass in der mit dem Speichercontainer verbundenen Rechenschicht hin.
Es gibt viele Metriken, die für Datenbanken überwacht werden müssen. Im Zusammenhang mit der Zuverlässigkeit sind folgende Metriken wichtig:
- Abfragedauer
- Timeouts
- Wartezeiten
- Speicherauslastung
- Sperren
Umsetzung in Power Platform
Power Platform ist Teil des Application Insights, einen Teil des Azure Monitor-Ökosystems. Sie können diese Integration verwenden, um:
Sie können abonnieren, um Telemetriedaten zu Vorgängen zu erhalten, die Anwendungen in Ihrer Dataverse-Datenbank in Application Insights in der Dataverse-Datenbank und in Modellgesteuerten Apps ausführen. Diese Telemetrie stellt Informationen bereit, mit denen Sie Probleme im Zusammenhang mit Fehlern und Leistung diagnostizieren und beheben können.
Verbinden Sie Ihre Canvas-Apps mit Application Insights, um diese Analysen zum Diagnostizieren von Problemen zu nutzen, um zu verstehen, was Benutzer tatsächlich mit Ihren Apps machen, um bessere Geschäftsentscheidungen zu treffen und um die Qualität Ihrer Apps zu verbessern.
Konfigurieren Sie die Power Automate Telemetrie für den Flow in Application Insights. Sie können mit dieser Telemetrie Cloud-Flow-Ausführungen überwachen und Warnungen bei Fehlern bei der Ausführung von Cloud-Flows erstellen.
Erfassen Sie Telemetriedaten von Ihrem Microsoft Copilot Studio Agent für die Verwendung in Azure Application Insights. Sie können diese Telemetrie verwenden, um protokollierte Nachrichten und Ereignisse zu überwachen, die an und von Ihrem Agent gesendet werden, Themen, die während Benutzerunterhaltungen ausgelöst werden sollen, und benutzerdefinierte Telemetrieereignisse, die von Ihren Themen gesendet werden können.
Protokolle von Power Platform-Aktivitäten im Microsoft Purview Compliance Portal. Die meisten Ereignisse sind innerhalb von 24 Stunden nach der Aktivität verfügbar. Verwenden Sie diese Informationen nicht zur Echtzeitüberwachung. Für weitere Informationen zu Protokollierungsaktivitäten in Power Platform:
- Power Apps
- Power Automate
- Copilot Studio
- Power Pages
- Power Platform-Connectors
- Verhinderung von Datenverlusten
- Power Platform administrative Protokollierug
- Dataverse-Überwachung
Zu Ihrer Power Platform-Workload können Azure-Ressourcen gehören. Weitere Informationen zu Überwachungsempfehlungen für Azure-Ressourcen finden Sie unter Empfehlungen für die Konzeption und Erstellung eines Überwachungssystems.
Das Power Platform CoE Starter Kit ist eine Verweisimplementierung, die eine Sammlung von Komponenten und Tools enthält, die den Einstieg in die Entwicklung einer Strategie zur Einführung und Unterstützung der Power Platform erleichtern soll. Das Kit bietet Automatisierungs- und Tooling-Funktionen, um Teams beim Aufbau der Überwachung und Automatisierung zu unterstützen, die zur Unterstützung eines CoE erforderlich sind.
Verwandte Informationen
Wie überprüfe ich den Status meiner Onlinedienste?
Zuverlässigkeitscheckliste
Lesen Sie die vollständigen Empfehlungen.