Freigeben über


Empfehlungs-Checkliste für Zuverlässigkeit

Diese Checkliste enthält eine Reihe von Empfehlungen, die Sie zur Bewertung der Zuverlässigkeit, Resilienz und Strategien zur Fehlerbehebung in Ihrem Architekturdesign verwenden können. Um die Zuverlässigkeit zu gewährleisten, ermitteln Sie die beste Infrastruktur und das beste Anwendungsdesign für Ihren Workload. Treffen Sie diese Entscheidungen auf der Grundlage Ihrer Geschäftsanforderungen, die den Zielmetriken für Verfügbarkeit und Wiederherstellbarkeit zugeordnet sind.

Um ein zuverlässiges Design zu implementieren, bedenken Sie die Entscheidungspunkte in Ihrem Design gründlich und seien Sie sich bewusst, wie sich diese Entscheidungen auf Ihren Workload auswirken. Diese Checkliste und die dazugehörigen Anleitungen bieten Ressourcen, die Sie bei diesen Entscheidungen unterstützen. Bedenken Sie in jeder Phase des Workload-Entwurfs, der Entwicklung und des Betriebslebenszyklus die Workload-Zuverlässigkeit.

Prüfliste

Konzentrieren Sie sich bei Ihrem Entwurf auf die Zuverlässigkeit, um sicherzustellen, dass Sie einen Workload entwerfen, die belastbar, verwaltbar und wiederholbar ist. Wenn Sie keine Zuverlässigkeitspraktiken einbeziehen und die Kompromisse nicht bedenken, ist Ihr Design möglicherweise gefährdet. Berücksichtigen Sie alle in der Checkliste aufgeführten Punkte sorgfältig, um Vertrauen in den Erfolg Ihres Systems zu schaffen.

  Code Empfehlung
Antwort:01 Gestalten Sie Ihren Arbeitsaufwand so, dass er Ihren Geschäftszielen entspricht und vermeiden Sie unnötige Komplexität oder Mehraufwand. Treffen Sie mit einem praktischen und ausgewogenen Ansatz Designentscheidungen, die die gewünschten Ergebnisse bereitstellen. Beschränken Sie Ihr Design auf das Notwendigste, um Ineffizienzen und potenzielle Probleme zu reduzieren.
Antwort:02 Identifizieren und bewerten Sie Benutzer- und Systemflows. Verwenden Sie zur Priorisierung der Flows eine Kritikalitätsskala basierend auf Ihren Geschäftsanforderungen.
Antwort:03 Verwenden Sie die Fehlerartanalyse, um potenzielle Fehler in Ihren Lösungskomponenten zu identifizieren und zu priorisieren. Führen Sie eine Fehlerartanalyse durch, um das Risiko und die Auswirkungen der einzelnen Fehlerarten zu beurteilen. Ermitteln Sie, wie der Workload reagiert und sich wiederherstellt.
AW:04 Definieren Sie Zuverlässigkeits- und Wiederherstellungsziele für die Komponenten, die Flows und die Gesamtlösung. Visualisieren Sie die Ziele, um zu verhandeln, einen Konsens zu erzielen, Erwartungen festzulegen und Maßnahmen einzuleiten, um den Idealzustand zu erreichen. Verwenden Sie die definierten Ziele, um das Integritätsmodell zu erstellen. Das Integritätmodell definiert, wie fehlerfreie, verschlechterte und fehlerhafte Zustände aussehen.
Antwort:05
Antwort:05
Stärken Sie die Ausfallsicherheit Ihrer Workload durch die Implementierung der Fehlerbehandlung und der Behandlung vorübergehender Fehler. Integrieren Sie Funktionen zur Handhabung von Komponentenausfällen und vorübergehenden Fehlern in die Lösung.
Antwort:06 Testen Sie Ausfallsicherheits- und Verfügbarkeitsszenarien, indem Sie die Prinzipien des Chaos Engineering in Ihren Test- und Produktionsumgebungen anwenden. Stellen Sie durch Tests mit aktiven Störungstests und simulierten Auslastungstests sicher, dass Ihre Implementierungsstrategien für eine schrittweise Verschlechterung wirksam sind.
Antwort:07 Implementieren Sie strukturierte, getestete und dokumentierte Pläne für Geschäftskontinuität und Notfallwiederherstellung (BCDR), die ausrichten mit den Wiederherstellungszielen übereinstimmen. Die Pläne müssen alle Komponenten und das Gesamtsystem abdecken.
AW:08 Messen und veröffentlichen Sie die Integritätsindikatoren der Lösung. Erfassen Sie kontinuierlich Betriebszeit- und andere Zuverlässigkeitsdaten aus dem gesamten Workload sowie von einzelnen Komponenten und wichtigen Flows.

Nächste Schritte,