Empfehlungen für die Konzeption und Erstellung eines Überwachungssystems
Gilt für die Empfehlungen dieser Power Platform Well-Architected Operational Excellence-Checkliste
OE:06 | Entwerfen und implementieren Sie ein Überwachungssystem, um Designentscheidungen zu validieren und zukünftige Design- und Geschäftsentscheidungen zu treffen. Dieses System erfasst betriebliche Telemetriedaten, Metriken und Protokolle, die der Workload ausgibt, und macht sie verfügbar. |
---|
In dieser Anleitung werden die Empfehlungen zur Konzeption und Erstellung eines Überwachungssystems beschrieben. Um Ihre Workload effektiv hinsichtlich Sicherheit, Leistung und Zuverlässigkeit zu überwachen, benötigen Sie ein umfassendes System mit einem eigenen Stapel, der die Grundlage für alle Überwachungs-, Erkennungs- und Warnfunktionen bietet.
Definitionen
Begriff | Definition |
---|---|
Protokolle | Aufgezeichnete Systemereignisse. Protokolle können unterschiedliche Datentypen in einem strukturierten oder Freihandtextformat enthalten. Sie enthalten einen Zeitstempel. |
Metriken | Zahlenwerte, die in regelmäßigen Abständen erhoben werden. Metriken beschreiben bestimmte Aspekte eines Systems zu einem bestimmten Zeitpunkt. |
Wichtige Designstrategien
Um ein umfassendes Überwachungssystem für Ihre Workload zu implementieren, halten Sie sich an diese Grundprinzipien:
Nutzen Sie, wann immer möglich, die von der Plattform bereitgestellten Überwachungstools, die in der Regel nur wenig Konfiguration erfordern und umfassende Einblicke in Ihren Workload bieten können, die sonst vielleicht nur schwer möglich sind.
Sammeln Sie Protokolle und Metriken aus dem gesamten Workload-Stapel. Alle Low-Code- und Code-First-Komponenten und -Ressourcen sollten so konfiguriert werden, dass sie standardisierte, aussagekräftige Daten erzeugen. Diese Daten müssen dann erfasst werden.
Speichern Sie die erfassten Daten in einer standardisierten, zuverlässigen und sicheren Speicherlösung.
Bereiten Sie gespeicherte Daten so auf, dass sie von Analyse- und Visualisierungslösungen verarbeitet werden können.
Analysieren Sie verarbeitete Daten, um den Status der Workload genau zu bestimmen.
Visualisieren Sie den Status der Workload in aussagekräftigen Dashboards oder Berichten für Workload-Teams und andere Stakeholder.
Konfigurieren Sie umsetzbare Warnungen und andere automatische Reaktionen auf intelligent festgelegte Schwellenwerte, um Workload-Teams bei auftretenden Problemen zu benachrichtigen.
Integrieren Sie Überwachungs- und Warnsysteme in Ihre allgemeinen Workload-Testverfahren.
Stellen Sie sicher, dass Überwachungs- und Warnsysteme kontinuierlich verbessert werden können. Das Anwendungs- und Konfigurationsverhalten in der Produktion bietet Gelegenheit zum kontinuierlichen Lernen. Integrieren Sie diese Erkenntnisse in Ihre Überwachungs- und Warnkonzepte.
Verknüpfen Sie die von Ihnen gesammelten und analysierten Überwachungsdaten mit Ihren System- und Benutzerflows, um die Gesundheit der Flows mit den Daten sowie die Gesamtgesundheit der Workload zu korrelieren. Die Analyse dieser Daten in Bezug auf die Flows hilft Ihnen, Ihre Einblick-Strategie mit Ihrem Integritätsmodell in Einklang zu bringen.
Minimieren Sie die Speicherung identifizierbarer Informationen, um sicherzustellen, dass Sie nicht gegen Gesetze und Vorschriften verstoßen. Wenn Sie identifizierbare Informationen speichern müssen, stellen Sie sicher, dass Sie beim Entwerfen Ihrer Lösung Anforderungen berücksichtigen, mit denen Personen die Löschung ihrer Informationen beantragen können.
Zeichnen Sie niemals Benutzerkennwörter oder andere Informationen auf, die für Identitätsbetrug verwendet werden könnten. Löschen Sie diese Details aus den Daten, bevor sie gespeichert werden. Eventuell ist es gesetzlich vorgeschrieben, dass für Prüf- und Sicherheitszwecke erfasste Informationen archiviert und gespeichert werden müssen. Auch diese Daten sind vertraulich und müssen möglicherweise verschlüsselt oder anderweitig geschützt werden, um mögliche Manipulationen zu verhindern.
Sie sollten alle Funktionen des Überwachungssystems so weit wie möglich automatisieren und alle Funktionen sollten kontinuierlich – rund um die Uhr – ausgeführt werden.
Diese Workflow-Pipeline veranschaulicht das Überwachungssystem:
Sammlung
Sie sollten alle Workloadkomponenten konfigurieren, unabhängig davon, ob es sich um Low-Code- oder Code-First-Komponenten oder Plattformeinstellungen wie Umgebungen und Richtlinien handelt, damit Telemetriedaten und Ereignisse wie Protokolle und Metriken erfasst werden.
Protokolle sind vor allem beim Erkennen und Untersuchen von Anomalien hilfreich. In der Regel werden Protokolle von der Workloadkomponente erstellt und dann an die Überwachungsplattform gesendet oder sie werden durch eine Automatisierung von der Überwachungsplattform abgerufen.
Metriken sind vor allem für den Aufbau eines Integritätsmodells und das Erkennen von Trends bei der Workload-Leistung und -Zuverlässigkeit hilfreich. Darüber hinaus sind Metriken hilfreich, um Trends im Nutzungsverhalten Ihrer Benutzenden zu erkennen. Diese Trends können aus Kundensicht als Entscheidungshilfe für Verbesserungen dienen. Normalerweise werden Metriken in der Überwachungsplattform festgelegt und die Überwachungsplattform und andere Tools fragen die Workload ab, um Metriken zu erfassen.
Workloaddaten
Verwenden Sie zum Erfassen von Daten die Standard-Integration mit Application Insights. Nach der Aktivierung von Application Insights erhalten Sie einen klaren Einblick in wichtige Ereignisse und zwar sowohl in Echtzeit als auch in historische Ereignisse.
Anwendungsprotokolle unterstützen den End-to-End-Anwendungslebenszyklus. Die Protokollierung ist wichtig, um zu verstehen, wie die Anwendung in unterschiedlichen Umgebungen funktioniert, welche Ereignisse auftreten und unter welchen Bedingungen.
Wir empfehlen Ihnen, Anwendungsprotokolle und Ereignisse in allen wichtigen Umgebungen zu erfassen. Trennen Sie die Daten zwischen den Umgebungen so weit wie möglich, indem Sie (sofern praktikabel) für jede Umgebung einen eigenen Datenspeicher verwenden. Verwenden Sie Filter, um sicherzustellen, dass nicht kritische Umgebungen die Interpretation von Produktionsprotokollen nicht erschweren. Zu guter Letzt sollten entsprechende Protokolleinträge in der gesamten Anwendung eine Korrelations-ID für die jeweiligen Transaktionen erfassen.
Infrastruktur und Konfigurationsdaten
Stellen Sie im Hinblick auf die Infrastrukturressourcen in Ihrer Workload sicher, dass Sie sowohl Protokolle als auch Metriken erfassen. Da Power Platform Platform-as-a-Service (Paas) Angebot ist, sind Sie möglicherweise nur eingeschränkt in der Lage, Protokolle im Zusammenhang mit der zugrunde liegenden Infrastruktur zu erfassen. Sie können jedoch Protokolle und Analysen zu Konfigurations- und Richtlinienänderungen im Zusammenhang mit der Workload-Integrität und mit Vorfällen erfassen.
Erfassen Sie aus Ihrer Cloud-Plattform so viele Protokolle wie möglich. Möglicherweise können Sie Aktivitätsprotokolle für Ihr Abonnement und Diagnoseprotokolle für die Verwaltungsebene erfassen.
Überlegungen zur Leistung
Komplexe und hoch skalierbare Anwendungen können riesige Datenmengen erzeugen. Die Datenmenge kann, je nachdem, wie ausführlich die Nachverfolgung auf Anwendungsebene ist, Leistungsprobleme verursachen. Die Telemetrielösung darf nicht als Engpass fungieren und muss skalierbar sein, wenn das System ausgeweitet wird.
Analyse
Nachdem Sie Daten aus verschiedenen Quellen gesammelt haben, analysieren Sie sie, um den Gesamtzustand des Systems zu bewerten. Für diese Analyse müssen Sie sich über Folgendes im Klaren sein:
- Wie Sie Daten basierend auf Key Performance Indicators (KPIs) und anderen von Ihnen festgelegten Leistungskennzahlen strukturieren.
- Wie Sie die in verschiedenen Metriken und Protokolldateien erfassten Daten korrelieren. Diese Korrelation ist wichtig, wenn Sie aufeinanderfolgende Ereignisse nachverfolgen, und kann Ihnen bei der Diagnose von Problemen helfen.
In den meisten Fällen verfügt Ihre Workload über verschiedenen Komponenten und Protokolle oder Ereignisse werden in unterschiedlichen Formaten oder Tabellen erfasst. Sie müssen die Daten präzise kombinieren, um sich ein Bild von der grundsätzlichen Integrität der Workload zu machen.
Ihre Power Platform Lösung könnte beispielsweise aus den folgenden Komponenten bestehen:
- Einer Canvas-App, die Benutzenden die Interaktion mit den Daten ermöglicht
- Einer modellgesteuerten App, mit der Administrierende Einstellungen für die Anwendung konfigurieren können
- Einem Cloud-Flow, der Datenvorgänge durchführt
- Einer Dataverse-Instanz, die mit dem Vorgang verknüpfte Daten speichert
- Einer Azure-Funktion, die Daten aus dem Azure Table Storage abruft und von der Anwendung aufgerufen wird
Die Nutzungsdaten für einen einzelnen Geschäftsvorgang können sich über alle Komponenten der Workload erstrecken. Diese Informationen müssen korreliert werden, um einen Gesamtüberblick über die Ressourcen- und Verarbeitungsnutzung durch den Vorgang zu erhalten.
Empfehlungen für die Datenanalyse
Korrelieren Sie Protokolle auf Anwendungs- und Ressourcenebene. Werten Sie Daten auf beiden Ebenen aus, um die Erkennung und Behebung von Problemen zu optimieren.
Legen Sie klare Aufbewahrungszeiten für die Speicherung für eine kalte Analyse fest. Wir empfehlen dieses Vorgehen, um eine historische Analyse über einen bestimmten Zeitraum zu ermöglichen. Darüber hinaus können Sie damit die Speicherkosten kontrollieren. Implementieren Sie Prozesse, die sicherstellen, dass Daten auf kostengünstigeren Speichermedien archiviert werden, und aggregieren Sie Daten für eine langfristige Trendanalyse.
Analysieren Sie langfristige Trends, um betriebliche Probleme vorherzusagen. Werten Sie Langzeitdaten aus, um betriebliche Strategien zu entwickeln und um vorherzusagen, welche betrieblichen Probleme wahrscheinlich auftreten werden und wann. Beispielsweise stellen Sie möglicherweise fest, dass die durchschnittlichen Antwortzeiten mit der Zeit immer mehr zunehmen und sich dem Höchstwert nähern.
Visualisierung
Die Visualisierung ist bei der Systemüberwachung für das Verständnis des Zustands der Workload von entscheidender Bedeutung. Die Visualisierung kann Ihnen helfen, Probleme und Trends schnell zu erkennen und die Auswirkungen von Änderungen zu verstehen, die Sie an dem Workload vornehmen.
Dashboards
Die gebräuchlichste Methode zum Visualisieren von Daten ist die Verwendung von Dashboards, die Informationen in Form von Diagrammen oder Grafiken anzeigen können. Diese Elemente können parametrisiert werden, und Analsefachkräfte können die wichtigen Parameter, beispielsweise den Zeitraum, für jede einzelne Situation auswählen.
Richten Sie Ihre Dashboards an Ihrem Integritätsmodell aus, sodass sie anzeigen, wann die Workload oder Komponenten der Workload fehlerfrei, beeinträchtigt oder fehlerhaft sind.
Damit ein Dashboardsystem effektiv funktioniert, muss es für das Workload-Team Aussagekraft haben. Visualisieren Sie Informationen, die sich auf die Integrität der Workload beziehen und umsetzbar sind. Wenn die Workload oder eine Komponente beeinträchtigt oder fehlerhaft ist, sollten die Mitglieder des Workload-Teams problemlos feststellen können, wo in der Workload das Problem seinen Ursprung hat, und die entsprechenden Korrekturmaßnahmen oder Untersuchungen einleiten können. Umgekehrt kann das Dashboard durch das Einbeziehen von Informationen, die nicht umsetzbar sind oder nicht mit der Workloadintegrität zusammenhängen, unnötig komplex und für Teammitglieder frustrierend werden, die versuchen, Hintergrundrauschen von nutzbaren Daten zu unterscheiden.
Möglicherweise verfügen Sie über Dashboards für Stakeholder oder Entwicklungsfachkräfte, die so angepasst sind, dass nur die Daten zur Workload angezeigt werden, die sie für relevant erachten. Stellen Sie sicher, dass das Workload-Team versteht, welche Arten von Datenpunkten für andere Teams von Interesse sind, und sich die Dashboards vor der Freigabe in der Vorschau ansieht, um sie auf Klarheit zu prüfen. Das Bereitstellen von Dashboards über Ihren Workload für Stakeholder ist eine gute Möglichkeit, diese über die Workloadintegrität auf dem Laufenden zu halten, kann jedoch auch kontraproduktiv sein, wenn die Stakeholder die Daten nicht eindeutig verstehen.
Beschränken Sie den Dashboard-Zugriff auf befugte Personen. Die Informationen auf den Dashboards sind eventuell vertraulich. Sie sollten auch die zugrunde liegenden Daten schützen, damit Benutzende sie nicht ändern können.
Berichterstellung
Durch die Berichterstellung entsteht ein Gesamtüberblick über das System. Berichte können historische Daten und aktuelle Informationen enthalten. Die Berichtsanforderungen lassen sich in zwei große Kategorien einteilen: betriebliche und Sicherheitsberichterstattung.
Die betriebliche Berichterstellung umfasst typischerweise:
- Aggregierte Statistiken, die Ihnen helfen, die Ressourcennutzung im Gesamtsystem oder in bestimmten Teilsystemen während eines angegebenen Zeitfensters zu verstehen.
- Erkennen von Trends in der Ressourcennutzung im Gesamtsystem oder bestimmten Teilsystemen während eines angegebenen Zeitraums.
- Überwachen von Ausnahmen, die im gesamten System oder in bestimmten Teilsystemen während eines angegebenen Zeitraums aufgetreten sind.
- Die Effizienz der Anwendung für die eingesetzten Ressourcen bestimmen und verstehen, ob das Ressourcenvolumen und die damit verbundenen Kosten reduziert werden können, ohne die Leistung unnötig zu beeinträchtigen.
Sicherheitsberichte verfolgen die Nutzung des Systems durch Kundschaft. Dazu kann Folgendes gehören:
- Überwachen von Benutzervorgängen. Für diese Aufgabe müssen die einzelnen Anfragen, die Benutzende stellen, zusammen mit Datum und Uhrzeit aufgezeichnet werden. Die Daten sollten so strukturiert sein, dass Administrierende die Abfolge der Vorgänge, die Benutzende während eines bestimmten Zeitraums ausführen, schnell rekonstruieren können.
- Nachverfolgung der Ressourcennutzung durch Benutzende. Für diese Aufgabe muss aufgezeichnet werden, wie und wie lange jede Anforderung von Benutzenden auf die verschiedenen Ressourcen im System zugreift. Administrierende können diese Daten verwenden, um einen Nutzungsbericht pro Benutzendem für einen angegebenen Zeitraum zu erstellen, was zum Beispiel für die Abrechnung notwendig sein kann.
Warnungen
Um sicherzustellen, dass das System weiterhin fehlerfrei, reaktionsfähig und sicher ist, legen Sie Warnungen fest, damit die bedienenden Fachkräfte rechtzeitig darauf reagieren können. Eine Warnung kann ausreichend Kontextinformationen enthalten, um schnell mit der Diagnose zu beginnen.
Empfehlungen für Warnungen
- Legen Sie einen Prozess zum Umfang mit Warnungen fest, der die Verantwortlichen und die Maßnahmen umfasst.
- Konfigurieren Sie Warnungen für einen klar definierten Bereich und achten Sie im Hinblick auf die Ausführlichkeit darauf, dass kein Hintergrundrauschen entsteht.
- Verwenden Sie eine automatisierte Warnlösung wie Splunk oder Azure Monitor, anstatt von Mitarbeitenden zu verlangen, dass sie aktiv nach Problemen suchen.
- Verwenden Sie Warnungen, um Korrekturprozesse zu operationalisieren. Erstellen Sie beispielsweise automatisch Tickets, um Probleme und Lösungen nachzuverfolgen.
Schwellenwerte
Wenn Ihr Überwachungssystem feststellt, dass bestimmte Schwellenwerte überschritten werden, werden Warnungen ausgelöst. Stellen Sie sicher, dass die von Ihnen festgelegten Schwellenwerte Ihnen grundsätzlich genügend Zeit lassen, um die erforderlichen Änderungen an Ihrer Workload vorzunehmen und so eine Verschlechterung oder Ausfälle zu vermeiden. Sie sollten auch die erforderliche Fehlerbehandlung implementieren und bekannte Fehler in Ihrer Workload abfangen, um die Anzahl der Warnungen zu reduzieren. Konfigurieren Sie beispielsweise Wiederholungsrichtlinien für Ihre Aktionen in Cloud-Flows, sodass im Rahmen der Flowausführung eine Wiederholung versucht wird und nur dann, wenn dies mehrmals fehlschlägt, ein Flowfehler erfasst und eine Warnung gesendet wird. Mehr erfahren unter Empfehlung für das Entwerfen einer zuverlässigen Überwachungs- und Warnstrategie.
Umsetzung in Power Platform
Power Platform ist Teil des Application Insights, einen Teil des Azure Monitor-Ökosystems. Verwenden Sie diese Integration für Folgendes:
Empfangen Sie Telemetriedaten zu Diagnose und Leistung, die von der Dataverse-Plattform in Application Insights erfasst werden. Sie können abonnieren, um Telemetriedaten zu Vorgängen zu erhalten, die Anwendungen in Ihrer Dataverse-Datenbank und in Modellgesteuerten Apps ausführen. Diese Telemetrie stellt Informationen bereit, mit denen Sie Probleme im Zusammenhang mit Fehlern und Leistung diagnostizieren und beheben können.
Canvas-Apps mit Application Insights verbinden. Mithilfe dieser Analysen können Sie Probleme diagnostizieren und verstehen, was Benutzer mit Ihren Apps machen. Sie können Informationen sammeln, um bessere Geschäftsentscheidungen zu treffen und die Qualität Ihrer Apps zu verbessern.
Konfigurieren Sie die Power Automate Telemetrie für den Flow in Application Insights. Sie können z. B. Cloud-Flowausführungen überwachen und Warnungen für fehlgeschlagene Cloud-Flowausführungen erstellen.
Erfassen Sie Telemetriedaten von Ihrem Microsoft Copilot Studio Agent für die Verwendung in Azure Application Insights. Sie können diese Telemetrie verwenden, um protokollierte Nachrichten und Ereignisse zu überwachen, die an und von Ihrem Agent gesendet werden, Themen, die während Benutzerunterhaltungen ausgelöst werden sollen, und benutzerdefinierte Telemetrieereignisse, die von Ihren Themen gesendet werden können.
Protokolle von Power Platform-Aktivitäten im Microsoft Purview Compliance Portal. Die meisten Ereignisse sind innerhalb von 24 Stunden nach der Aktivität verfügbar. Verwenden Sie diese Informationen nicht zur Echtzeitüberwachung. Für weitere Informationen zu Protokollierungsaktivitäten in Power Platform:
- Power Apps
- Power Automate
- Copilot Studio
- Power Pages
- Power Platform-Connectors
- Verhinderung von Datenverlust
- Power Platform administrative Protokollierug
- Dataverse-Überwachung
Ihre Power Platform Workload kann Azure Ressourcen enthalten. Weitere Informationen finden Sie unter Empfehlungen zum Entwerfen und Erstellen eines Überwachungssystems.
Das Power Platform CoE Starter Kit ist eine Verweisimplementierung, die eine Sammlung von Komponenten und Tools enthält, die den Einstieg in die Entwicklung einer Strategie zur Einführung und Unterstützung der Power Platform erleichtern soll. Im CoE Starter Kit ist eine Vielzahl von Dashboards enthalten. Mehr erfahren unter Tiefe Einblicke in die Microsoft Power Platform-Akzeptanz mithilfe des CoE Power BI-Dashboards.
Das Power Platform Automation Kit besteht aus einer Reihe von Tools, die die Verwendung und die Unterstützung von Power Automate für Desktop für Automatisierungsprojekte beschleunigen. Das Kit bietet Tools, mit denen Sie Automationsprojekte verwalten und überwachen können, um die eingesparten Kosten und den Return on Investment (ROI) abzuschätzen. Teil des Automation-Kits ist das Steuerungscenter, das die vorhandene Funktion Desktop-Flowausführungen überwachen ergänzt. Der Schwerpunkt des Kontrollzentrums liegt auf einer Orchestrator-Ansicht für Support-Analysten und Organisationen, um bei Bedarf zu überwachen, Maßnahmen zu ergreifen und Warnungen auszugeben.
Verwandte Informationen
- Empfehlungen für die Entwicklung einer zuverlässigen Überwachungs- und Warnstrategie
- Empfehlungen zur Überwachung und Bedrohungserkennung