Empfehlungen zur Durchführung einer Fehlermöglichkeitsanalyse

Artikel
01/15/2025

Gilt für diese Empfehlungen bezüglich der Power Platform Zuverlässigkeits-Checkliste:

RE:03	Verwenden Sie die Fehlerartanalyse, um potenzielle Fehler in Ihren Lösungskomponenten zu identifizieren und zu priorisieren. Führen Sie eine Fehlerartanalyse durch, um das Risiko und die Auswirkungen der einzelnen Fehlerarten zu beurteilen. Ermitteln Sie, wie der Workload reagiert und sich wiederherstellt.

In diesem Handbuch werden die Best Practices zum Durchführen einer Fehlermöglichkeitsanalyse (FMA) für Ihre Arbeitslast beschrieben. Mit FMA identifizieren Sie potenzielle Fehlerquellen in Ihrer Arbeitslast und den zugehörigen Abläufen und planen entsprechende Gegenmaßnahmen. Bei jedem Schritt des Ablaufs ermitteln Sie den Explosionsradius mehrerer Fehlertypen. Dies hilft Ihnen dabei, eine neue Arbeitslast zu entwerfen oder eine vorhandene Arbeitslast umzugestalten, um die weitreichenden Auswirkungen von Fehlern zu minimieren.

Ein zentraler Grundsatz von FMA besteht darin, dass Fehler auftreten, unabhängig davon, wie viele Ausfallsicherheitsebenen Sie anwenden. Komplexere Umgebungen sind mehr Arten von Fehlern ausgesetzt. Vor diesem Hintergrund können Sie mit FMA Ihre Arbeitslast so gestalten, dass sie den meisten Fehlerarten standhält und bei einem Fehler eine reibungslose Wiederherstellung erfolgt.

Wenn Sie FMA vollständig überspringen oder eine unvollständige Analyse durchführen, besteht für Ihre Arbeitslast das Risiko unvorhergesehenen Verhaltens und potenzieller Ausfälle aufgrund eines nicht optimalen Designs.

Definitionen

Begriff	Definition
Fehlermodus	Ein Problemtyp, der dazu führen kann, dass eine oder mehrere Workload-Komponenten derart beeinträchtigt werden oder so stark beeinträchtigt werden, dass sie nicht mehr verfügbar sind.
Abhilfe	Die Aktivitäten, die Sie identifiziert haben, um Probleme proaktiv oder reaktiv anzugehen.
erkennung	Ihre Prozesse und Verfahren zur Daten- und App-Überwachung sowie Warnmeldungen.

Wichtige Designstrategien

Im Zusammenhang mit FMA ist das Verständnis der Voraussetzungen von entscheidender Bedeutung. Beginnen Sie mit der Überprüfung und Implementierung von Empfehlungen zur Identifizierung von Flows und priorisieren Sie diese nach Kritikalität. Ihre Datenartefakte spielen eine entscheidende Rolle bei der Beschreibung der Datenpfade innerhalb dieser Flows. Konzentrieren Sie sich bei der Vertiefung in den FMA-Ansatz auf die Planung von Komponenten für kritische Flows, die Ermittlung von Abhängigkeiten (sowohl interne als auch externe) und die Entwicklung von Minderungsstrategien.

Anforderungen

Überprüfen und implementieren Sie die Empfehlungen zum Identifizieren und Bewerten von Flows. Es wird davon ausgegangen, dass Sie Benutzer- und Systemflüsse basierend auf der Kritikalität identifiziert und priorisiert haben.

Die von Ihnen gesammelten Daten und die Artefakte, die Sie bei Ihrer Arbeit erstellt haben, liefern Ihnen eine konkrete Beschreibung Ihrer Datenpfade entlang der gesamten Flüsse. Für den Erfolg Ihrer FMA-Arbeit ist die Genauigkeit und Gründlichkeit Ihrer Artefakte von entscheidender Bedeutung.

FMA-Vorgehensweise

Nachdem Sie die kritischen Flows ermittelt haben, können Sie die dafür erforderlichen Komponenten planen. Als Nächstes folgen Sie jedem Ablauf Schritt für Schritt, um Abhängigkeiten (einschließlich Dienste von Drittanbietern und potenzielle Fehlerquellen) zu identifizieren, und planen Sie Ihre Minderungsstrategien.

Workload zerlegen

Beim Übergang von der Ideenfindung zum Entwurf müssen Sie die Komponententypen ermitteln, die zur Unterstützung Ihrer Arbeitslast erforderlich sind. Ihr Arbeitsaufwand bestimmt die notwendigen Komponenten, die Sie einplanen müssen.

Nachdem Sie Ihren anfänglichen Architekturentwurf erstellt haben, können Sie Ihre Flows überlagern, um die in diesen Flows verwendeten diskreten Komponenten zu identifizieren und Listen oder Workflow-Diagramme zu erstellen, die die Flows und ihre Komponenten beschreiben. Um die Kritikalität der Komponenten zu verstehen, verwenden Sie die Kritikalitätsdefinitionen, die Sie den Flows zugewiesen haben. Berücksichtigen Sie die Auswirkungen einer Komponentenfehlfunktion auf Ihre Abläufe.

Abhängigkeiten identifizieren

Identifizieren Sie Ihre Workload-Abhängigkeiten, um Ihre Single-Point-of-Failure-Analyse durchzuführen. Durch die Zerlegung Ihrer Workload und die Überlagerung von Flows erhalten Sie Einblick in interne und externe Abhängigkeiten der Workload.

Interne Abhängigkeiten sind Komponenten im Workload-Umfang, die für die Funktion des Workloads erforderlich sind. Typische interne Abhängigkeiten sind APIs oder Lösungen zur Geheimnis-/Schlüsselverwaltung wie Azure Key Vault. Erfassen Sie für diese Abhängigkeiten die Zuverlässigkeitsdaten, wie etwa Service-Level-Agreements (SLAs) zur Verfügbarkeit und Skalierungsgrenzen. Externe Abhängigkeiten sind erforderliche Komponenten außerhalb des Umfangs der Workload, z. B. eine andere Anwendung oder ein Drittanbieterdienst. Typische externe Abhängigkeiten umfassen Authentifizierungslösungen wie Microsoft Entra ID und Power Platform Infrastruktur.

Identifizieren und dokumentieren Sie die Abhängigkeiten in Ihrer Workload und nehmen Sie sie in Ihre Flowdokumentationsartefakte auf.

Fehlerpunkte

Berücksichtigen Sie in den kritischen Flows Ihrer Workload jede Komponente und ermitteln Sie, wie diese Komponente und ihre Abhängigkeiten von einem Fehlermodus betroffen sein könnten. Bedenken Sie, dass bei der Planung von Ausfallsicherheit und Wiederherstellung zahlreiche Fehlerarten zu berücksichtigen sind. Jede Komponente kann zu einem bestimmten Zeitpunkt von mehreren Fehlerarten betroffen sein. Zu diesen Fehlermodi gehören:

Regionaler Ausfall: Eine ganze Power Platform oder Azure-Region ist nicht verfügbar
Dienstausfall: Ein oder mehrere Power Platform Azure-Dienste sind nicht verfügbar
Distributed Denial-of-Service (DDoS) oder andere bösartige Angriffe
Falsche App- oder Komponentenkonfiguration
Bedienfehler
Geplanter Wartungsausfall
Komponenten-Overload

Berücksichtigen Sie die Wahrscheinlichkeit der einzelnen Fehlerarten. Manche davon, wie etwa Ausfälle in mehreren Zonen oder Regionen, sind sehr unwahrscheinlich, und eine zusätzliche Risikominderungsplanung über die Redundanz hinaus ist weder eine sinnvolle Nutzung von Ressourcen noch Zeit.

Abhilfe

Minderungsstrategien lassen sich grob in zwei Kategorien einteilen: Verbesserung der Ausfallsicherheit und Entwicklung für eine Verschlechterung der Leistung.

Um die Ausfallsicherheit zu erhöhen, müssen Sie sicherstellen, dass Ihr Anwendungsdesign den Best Practices für Langlebigkeit entspricht. Dazu gehört beispielsweise die Aufteilung monolithischer Anwendungen in isolierte Apps und Microservices und die Verwendung von der Plattform bereitgestellten Ausfallsicherheitskonfigurationen wie Wiederholungsrichtlinien. Weitere Informationen finden Sie unter Empfehlungen zur Entlassung und Empfehlungen zur Selbsterhaltung.

Um eine verminderte Leistung zu vermeiden, identifizieren Sie potenzielle Fehlerpunkte, die eine oder mehrere Komponenten Ihres Flows deaktivieren könnten, deaktivieren Sie den Flow jedoch nicht vollständig. Um die Funktionalität des End-to-End-Flows aufrechtzuerhalten, müssen Sie möglicherweise einen oder mehrere Schritte auf andere Komponenten umleiten oder akzeptieren, dass eine ausgefallene Komponente eine Funktion ausführt, sodass die Funktion in der Benutzererfahrung nicht mehr verfügbar ist. Um auf das Beispiel der E-Commerce-Anwendung zurückzukommen: Eine ausgefallene Komponente wie ein Microservice kann dazu führen, dass Ihre Empfehlungs-Engine nicht verfügbar ist, die Kunden jedoch weiterhin nach Produkten suchen und ihre Transaktion abschließen können.

Sie müssen auch Maßnahmen zur Abschwächung von Abhängigkeiten planen. Starke Abhängigkeiten spielen für die Funktion und Verfügbarkeit von Anwendungen eine entscheidende Rolle. Fehlen sie oder weisen sie eine Störung auf, kann dies erhebliche Auswirkungen haben. Das Fehlen schwacher Abhängigkeiten wirkt sich möglicherweise nur auf bestimmte Funktionen aus und hat keinen Einfluss auf die allgemeine Verfügbarkeit. Diese Unterscheidung spiegelt die Kosten wider, die zur Aufrechterhaltung der Hochverfügbarkeitsbeziehung zwischen dem Dienst und seinen Abhängigkeiten entstehen. Klassifizieren Sie Abhängigkeiten als stark oder schwach, um zu ermitteln, welche Komponenten für die Anwendung wichtig sind.

Wenn die Anwendung starke Abhängigkeiten aufweist, ohne die sie nicht ausgeführt werden kann, sollten die Verfügbarkeits- und Wiederherstellungsziele dieser Abhängigkeiten mit den Zielen der Anwendung selbst übereinstimmen. Wenn der Lebenszyklus einer Anwendung eng mit dem Lebenszyklus ihrer Abhängigkeiten verknüpft ist, kann die betriebliche Agilität der Anwendung eingeschränkt sein, insbesondere bei neuen Versionen.

erkennung

Die Fehlererkennung ist wichtig, um sicherzustellen, dass Sie die Fehlerpunkte in Ihrer Analyse richtig identifiziert und Ihre Minderungsstrategien richtig geplant haben. In diesem Zusammenhang bedeutet Erkennung die Überwachung Ihrer Infrastruktur, Daten und Anwendungen sowie die Meldung, wenn Probleme auftreten. Automatisieren Sie die Erkennung so weit wie möglich und bauen Sie Redundanz in Ihre Betriebsabläufe ein, um sicherzustellen, dass Warnungen immer erkannt und schnell genug darauf reagiert wird, um Ihren Geschäftsanforderungen gerecht zu werden. Weitere Informationen finden Sie unter: Empfehlungen für Überwachung.

Ergebnis

Erstellen Sie als Ergebnis Ihrer Analyse eine Reihe von Dokumenten, die Ihre Erkenntnisse, die von Ihnen in Bezug auf die Flusskomponenten und Schadensbegrenzung getroffenen Entscheidungen sowie die Auswirkungen des Fehlers auf Ihre Arbeitslast effektiv kommunizieren.

Priorisieren Sie in Ihrer Analyse die von Ihnen identifizierten Fehlerarten und Minderungsstrategien basierend auf Schweregrad und Wahrscheinlichkeit. Nutzen Sie diese Priorisierung, um Ihre Dokumentation auf diejenigen Fehlermodi zu konzentrieren, die häufig und schwerwiegend genug sind, um den Aufwand an Zeit, Mühe und Ressourcen für die Entwicklung von Minderungsstrategien zu rechtfertigen. Beispielsweise kann es Fehlerarten geben, die sehr selten auftreten oder erkannt werden. Es lohnt sich nicht, entsprechende Minderungsstrategien zu entwickeln.

Einen Ausgangspunkt für die Dokumentation finden Sie in der Beispieltabelle.

Während Ihrer ersten FMA-Übung werden die von Ihnen erstellten Dokumente größtenteils aus theoretischen Planungen bestehen. Die FMA-Dokumente sollten regelmäßig überprüft und aktualisiert werden, um sicherzustellen, dass sie hinsichtlich Ihres Arbeitspensums immer auf dem neuesten Stand sind. Chaostests und Erfahrungen aus der Praxis helfen Ihnen dabei, Ihre Analysen im Laufe der Zeit zu verfeinern.

Beispiel

Die folgende Tabelle zeigt ein FMA-Beispiel für eine Spesenabrechnungsanwendung, die als Power Apps Canvas-App mit einem Microsoft Dataverse Backend und in APIM gehosteten APIs gehostet wird, um mit einem Drittanbietersystem zu interagieren.

Benutzerflow: Benutzeranmeldung, Einreichen der Spesenabrechnung und Interaktion mit dem Spesenbericht

Komponente	Risiko	Wahrscheinlichkeit	Auswirkung/Milderung/Hinweis	Ausfall
Microsoft Entra-ID	Dienstausfall	Niedrig	Vollständiger Arbeitsausfall. Abhängig von der Behebung des Problems durch Microsoft.	Vollständig
Microsoft Entra-ID	Falsche Konfiguration	Mäßig	Benutzer können sich nicht anmelden. Keine nachgelagerten Auswirkungen. Der Helpdesk meldet das Konfigurationsproblem dem Identitätsteam.	Nein
Power Apps	Dienstausfall	Niedrig	Vollständiger Ausfall für externe Benutzer. Abhängig von der Behebung des Problems durch Microsoft.	Vollständig
Power Apps	Regionaler Ausfall	Sehr gering	Vollständiger Ausfall für externe Benutzer. Abhängig von der Behebung des Problems durch Microsoft.	Vollständig
Power Apps	DDoS-Angriff	Mäßig	Störungspotenzial. Microsoft verwaltet den DDoS-Schutz (L3 und L4).	Möglicher Teilausfall
Dataverse	Dienstausfall	Niedrig	Vollständiger Arbeitsausfall. Abhängig von der Behebung des Problems durch Microsoft.	Vollständig
Dataverse	Regionaler Ausfall	Sehr gering	Das Failover der Auto-Failover-Gruppe erfolgt in die sekundäre Region. Möglicher Ausfall während des Failovers. Die Recovery Time Objectives (RTOs) und Recovery Point Objectives (RPOs) müssen während der Zuverlässigkeitstests ermittelt werden.	Potenzial voll
Dataverse	Böswilliger Angriff (Injektion)	Mäßig	Minimales Risiko.	Potentielles Risiko: niedrig
API Management	Dienstausfall	Niedrig	Vollständiger Ausfall für externe Benutzer. Abhängig von der Behebung des Problems durch Microsoft.	Vollständig
API Management	Regionaler Ausfall	Sehr gering	Vollständiger Ausfall für externe Benutzer. Abhängig von der Behebung des Problems durch Microsoft.	Vollständig
API Management	DDoS-Angriff	Mäßig	Störungspotenzial. Microsoft verwaltet den DDoS-Schutz (L3 und L4).	Möglicher Teilausfall
Ihre Power Platform-Lösung	Falsche Konfiguration	Mäßig	Fehlkonfigurationen sollten während der Bereitstellung erkannt werden. Wenn dies während einer Konfigurationsaktualisierung geschieht, müssen Administratoren die Änderungen rückgängig machen. Eine Konfigurationsaktualisierung verursacht einen kurzen externen Ausfall.	Möglicher Komplettausfall

Power Platform: schnellere Durchführung

Power Platform ist Teil des Application Insights, einen Teil des Azure Monitor-Ökosystems. Sie können diese Integration verwenden, um:

Sie können abonnieren, um Telemetriedaten zu Vorgängen zu erhalten, die Anwendungen in Ihrer Dataverse-Datenbank in Application Insights in der Dataverse-Datenbank und in Modellgesteuerten Apps ausführen. Diese Telemetrie stellt Informationen bereit, mit denen Sie Probleme im Zusammenhang mit Fehlern und Leistung diagnostizieren und beheben können.
Verbinden Sie Ihre Canvas-Apps mit Application Insights, um diese Analysen zum Diagnostizieren von Problemen zu nutzen, um zu verstehen, was Benutzer tatsächlich mit Ihren Apps machen, um bessere Geschäftsentscheidungen zu treffen und um die Qualität Ihrer Apps zu verbessern.
Konfigurieren Sie die Power Automate Telemetrie für den Flow in Application Insights. Sie können mit dieser Telemetrie Cloud-Flow-Ausführungen überwachen und Warnungen bei Fehlern bei der Ausführung von Cloud-Flows erstellen.
Erfassen Sie Telemetriedaten von Ihrem Microsoft Copilot Studio Agent für die Verwendung in Azure Application Insights. Sie können diese Telemetrie verwenden, um protokollierte Nachrichten und Ereignisse zu überwachen, die an und von Ihrem Agent gesendet werden, Themen, die während Benutzerunterhaltungen ausgelöst werden sollen, und benutzerdefinierte Telemetrieereignisse, die von Ihren Themen gesendet werden können.

Protokolle von Power Platform-Aktivitäten im Microsoft Purview Compliance Portal. Die meisten Ereignisse sind innerhalb von 24 Stunden nach der Aktivität verfügbar. Verwenden Sie diese Informationen nicht zur Echtzeitüberwachung. Für weitere Informationen zu Protokollierungsaktivitäten in Power Platform:

Zuverlässigkeitscheckliste

Lesen Sie die vollständigen Empfehlungen.

Zuverlässigkeitscheckliste

Freigeben über

Empfehlungen zur Durchführung einer Fehlermöglichkeitsanalyse

Wichtige Designstrategien

Anforderungen

FMA-Vorgehensweise

Workload zerlegen

Abhängigkeiten identifizieren

Fehlerpunkte

Abhilfe

erkennung

Ergebnis

Beispiel

Power Platform: schnellere Durchführung

Zuverlässigkeitscheckliste

Feedback

Zusätzliche Ressourcen