Empfehlungen zum Entwerfen einer Notfallwiederherstellungsstrategie
Hierfür gilt die Empfehlung der Power Platform Well-Architected Reliability-Checkliste:
Antwort:07 | Implementieren Sie strukturierte, getestete und dokumentierte Business Continuity & Disaster Recovery(BCDR)-Pläne, die mit den Wiederherstellungszielen übereinstimmen. Die Pläne müssen alle Komponenten und das Gesamtsystem abdecken. |
---|
In dieser Anleitung werden Empfehlungen zum Entwerfen einer zuverlässigen Notfallwiederherstellungsstrategie für einen Workload beschrieben. Um interne Service-Level-Ziele (SLOs) oder sogar eine Vereinbarung zum Servicelevel (SLA) zu erreichen, das Sie Ihrer Kundschaft garantiert haben, müssen Sie über eine robuste und zuverlässige Notfallwiederherstellungsstrategie verfügen. Es muss mit Ausfällen und anderen schwerwiegenden Problemen gerechnet werden. Ihre Vorbereitungen zum Umgang mit diesen Vorfällen bestimmen, wie sehr Ihre Kundschaft darauf vertrauen kann, dass Ihr Unternehmen ihr zuverlässige Leistungen liefert. Eine Notfallwiederherstellungsstrategie ist das Rückgrat der Vorbereitung auf größere Vorfälle.
Definitionen
Begriff | Definition |
---|---|
Failover | Die automatische und/oder manuelle Verlagerung des Produktions-Workload-Datenverkehrs aus einer nicht verfügbaren Region in eine nicht betroffene Region. |
Failback | Die automatische und/oder manuelle Verlagerung des Produktions-Workload-Datenverkehrs aus einer Failover-Region zurück in die primäre Region. |
Wichtige Designstrategien
In dieser Anleitung wird davon ausgegangen, dass Sie die folgenden Aufgaben im Rahmen Ihrer Zuverlässigkeitsplanung bereits ausgeführt haben:
Identifizieren Sie kritische und nicht kritische Flows.
Führen Sie eine Fehlermöglichkeitsanalyse (FMA) für Ihre Flows durch.
Identifizieren Sie Zuverlässigkeitsziele.
Entwerfen Sie eine robuste Teststrategie.
Eine zuverlässige Workload-Architektur ist die Grundlage für eine zuverlässige Notfallwiederherstellungsstrategie. Berücksichtigen Sie bei der Erstellung Ihrer Workload in jeder Phase die Zuverlässigkeit, um sicherzustellen, dass Sie über die erforderlichen Komponenten für eine effiziente Wiederherstellung verfügen, bevor Sie mit der Planung Ihrer Notfallwiederherstellungsstrategie beginnen. Diese Grundlage stellt sicher, dass die Zuverlässigkeitsziele Ihrer Workload, wie z. B. Wiederherstellungszeitziel und Wiederherstellungspunktziel, praktisch und erreichbar sind.
Notfallwiederherstellungsplan bereithalten
Der Schlüssel zu einer zuverlässigen DR-Strategie für einen Workload ist der DR-Plan. Ihr Plan sollte ein dynamisches Dokument sein, das regelmäßig überarbeitet und aktualisiert wird, wenn sich Ihre Umgebung ändert. Geben Sie den Plan regelmäßig (beispielsweise alle sechs Monate) an die relevanten Teams weiter (Vorgang, Technologieführung und Geschäfts-Stakeholder). Bewahren Sie es in einem hochverfügbaren, sicheren Datenspeicher wie OneDrive auf.
Befolgen Sie diese Empfehlungen zur Entwicklung Ihres DR-Plans:
Definieren Sie klar, was einen Notfall darstellt und die Aktivierung des DR-Plans erfordert.
Katastrophen sind Probleme großen Ausmaßes. Dabei kann es sich um regionale Ausfälle, Ausfälle von Diensten wie Microsoft Entra ID oder Azure DNS oder um schwerwiegende bösartige Angriffe wie Ransomware-Angriffe oder DDoS-Angriffe handeln.
Nehmen Sie in Ihren DR-Plan Beispiele für Fehlermodi auf, die nicht als Katastrophen gelten, etwa die Nichtverfügbarkeit oder der Ausfall einer einzelnen Ressource, damit die Bedienenden nicht versehentlich ihre DR-Eskalationen auslösen.
Erstellen Sie den DR-Plan auf Grundlage Ihrer FMA-Dokumentation. Stellen Sie sicher, dass Ihr DR-Plan die Fehlermodi und Risikominderungsstrategien für Ausfälle erfasst, die als Katastrophen definiert sind. Wenn Aktualisierungen erforderlich sind, aktualisieren Sie sowohl Ihren DR-Plan als auch Ihre FMA-Dokumente gleichzeitig, damit sie bei Umgebungsänderungen oder beim Aufdecken unerwarteter Verhaltensweisen beim Testen noch genau sind.
Definieren Sie Rollen und Verantwortlichkeiten innerhalb des Workload-Teams klar und machen Sie sich mit allen damit verbundenen externen Rollen innerhalb Ihrer Organisation vertraut. Wenn der Notfall durch den Ausfall eines externen Dienstes wie Microsoft Entra ID verursacht wird, stellen Sie sicher, dass Sie eine Rolle definiert haben, die für die Kommunikation mit der externen Partei verantwortlich ist und Updates an das Workload-Team weitergeben kann. Zu den Rollen sollten gehören:
- Die Partei, die für die Erklärung einer Katastrophe verantwortlich ist
- Die Partei, die für die Erklärung der Schließung eines Vorfalls verantwortlich ist
- Vorgangsrollen
- Test- und Prüfregeln
- Interne und externe Kommunikationsrollen
- Retrospektive und Ursachenanalyse – leitende Rollen
Definieren Sie die Eskalationspfade, die das Workload-Team befolgen muss, um sicherzustellen, dass der Wiederherstellungsstatus den Stakeholdern mitgeteilt wird.
Geben Sie die vorgeschriebene Reihenfolge an, in der die Komponenten des Workloads wiederhergestellt werden sollten, um die geringsten Auswirkungen zu verursachen. Stellen Sie beispielsweise Datenbanken wieder her und starten Sie Cloud-Flows neu, bevor Sie die Anwendung wiederherstellen.
Beschreiben Sie das Wiederherstellungsverfahren für jede Komponente detailliert als Schritt-für-Schritt-Anleitung. Fügen Sie nach Möglichkeit Screenshots und Voraussetzungen für die Durchführung des Verfahrens ein. Listen Sie beispielsweise die erforderlichen Skripts oder Anmeldeinformationen auf, die erfasst werden müssen.
Definieren Sie die Verantwortlichkeiten Ihres Teams im Vergleich zu den Verantwortlichkeiten Ihres Cloud-Hosting-Anbieters. Beispielsweise ist Microsoft für die Wiederherstellung einer PaaS (Platform as a Service) verantwortlich, Sie sind jedoch für die Rehydrierung der Daten und die Anwendung Ihrer Konfiguration auf den Dienst verantwortlich.
Erfassen Sie die Ursache des Vorfalls und führen Sie eine Risikominderung durch, bevor Sie mit der Wiederherstellung beginnen. Wenn die Ursache des Vorfalls beispielsweise ein Sicherheitsproblem ist, beheben Sie dieses Problem, bevor Sie die betroffenen Systeme in Ihrer Failover-Umgebung wiederherstellen.
Wenn Sie Ihre App in der Failover-Umgebung erneut bereitstellen müssen, verwenden Sie Tools, um den Bereitstellungsprozess so weit wie möglich zu automatisieren. Stellen Sie sicher, dass Ihre Azure Pipelines in den Failover-Umgebungen vorab bereitgestellt und richtig konfiguriert sind, damit Sie sofort mit Ihren Bereitstellungen beginnen können. Verwenden Sie automatisierte End-to-End-Bereitstellungen, bei Bedarf mit manuellen Genehmigungsgates, um einen konsistenten und effizienten Bereitstellungsprozess sicherzustellen. Wenn eine Phase des Bereitstellungsprozesses ein manuelles Eingreifen erfordert, dokumentieren Sie die manuellen Schritte. Definieren Sie die Rollen und Verantwortlichkeiten klar.
Automatisieren Sie den Vorgang so weit wie möglich. Verwenden Sie eine Wiederholungslogik, um zu vermeiden, dass Sie Zeit mit Skripten verschwenden, die bei einer unterbrochenen Aufgabe hängen bleiben. Da Sie diese Skripte nur im Notfall ausführen, möchten Sie nicht, dass falsch entwickelte Skripte weiteren Schaden anrichten oder Ihren Wiederherstellungsprozess verlangsamen.
Anmerkung
Die Automatisierung birgt Risiken. Geschulte Bedienende müssen die automatisierten Prozesse sorgfältig überwachen und eingreifen, wenn bei einem Prozess Probleme auftreten. Um das Risiko zu minimieren, dass die Automatisierung auf falsch positive Ergebnisse reagiert, sollten Sie Ihre DR-Drilldowns gründlich durchführen. Testen Sie alle Phasen des Plans. Simulieren Sie die Erkennung, um eine Warnung zu generieren, und führen Sie dann das gesamte Wiederherstellungsverfahren durch.
Notfallwiederherstellungs-Drilldowns durchführen
Für einen guten DR-Plan ist eine DR-Testpraxis unerlässlich. In vielen Branchen gelten Compliance-Frameworks, die regelmäßige DR-Drilldowns erfordern. Unabhängig von Ihrer Branche sind regelmäßige DR-Drilldowns entscheidend für Ihren Erfolg.
Befolgen Sie diese Empfehlungen für erfolgreiche DR-Drilldowns:
Führen Sie mindestens einen Produktions-Drilldown pro Jahr durch. Probeläufe oder Drilldowns außerhalb der Produktion tragen dazu bei, dass die beteiligten Parteien mit ihren Rollen und Verantwortlichkeiten vertraut sind. Diese Drilldowns helfen den Bedienenden auch dabei, sich mit den Wiederherstellungsprozessen vertraut zu machen. Aber nur Produktionsübungen können die Gültigkeit des DR-Plans und der RTO- und RPO-Metriken wirklich testen. Nutzen Sie Ihre Produktions-Drilldowns, um die Wiederherstellungsprozesse für Komponenten und Flows zeitlich zu planen und sicherzustellen, dass die für Ihren Workload definierten Wiederherstellungszeitziele (Recovery Time Objective, RTO) und Wiederherstellungspunktziele (Recovery Point Objective, RPO) erreichbar sind. Für Funktionen, die außerhalb Ihrer Kontrolle liegen, wie Microsoft Entra ID-Ausfällen, stellen Sie sicher, dass die RTO- und RPO-Ziele für die Flows, an denen diese Funktionen beteiligt sind, mögliche Verzögerungen außerhalb Ihrer Kontrolle berücksichtigen.
Nutzen Sie Drilldowns, um neue Bedienende mit DR-Prozessen und -Verfahren vertraut zu machen. Erfahrene Bedienende sollten sich Zeit nehmen, neuen Bedienenden die Ausführung ihrer Aufgaben zu ermöglichen und auf Verbesserungsmöglichkeiten achten. Wenn ein neuer Bedienender bei einem Verfahrensschritt zögert oder verwirrt ist, überprüfen Sie das Verfahren noch einmal, um sicherzustellen, dass es klar formuliert ist.
Überlegungen
Das Durchführen von DR-Drilldowns in der Produktion kann zu unerwarteten katastrophalen Ausfällen führen. Denken Sie bei Ihren ersten Bereitstellungen unbedingt daran, die Wiederherstellungsverfahren in Nichtproduktionsumgebungen zu testen.
Geben Sie Ihrem Team während der Drilldowns so viel Wartungszeit wie möglich. Verwenden Sie bei der Planung der Wartungszeit die Wiederherstellungsmetriken, die Sie während des Tests erfassen, als Zuteilungen mit minimalem Zeitaufwand.
Mit der Weiterentwicklung Ihrer DR-Drilldown-Praktiken lernen Sie, welche Verfahren Sie parallel ausführen können und welche Sie nacheinander ausführen müssen. Gehen Sie bei Ihren ersten Drilldowns davon aus, dass alle Verfahren der Reihe nach ausgeführt werden müssen und dass Sie für jeden Schritt zusätzliche Zeit benötigen, um unvorhergesehene Probleme bewältigen zu können.
Failover-Funktionen
Microsoft Geschäftsanwendungen bieten Funktionen für Geschäftskontinuität und Notfallwiederherstellung (BCDR) für alle Produktionsumgebungen in Dynamics 365- und Power Platform Software-as-a-Service-Anwendungen (SAAS). Erfahren Sie, wie Sie Microsoft sicherstellen, dass Ihre Produktionsdaten bei regionalen Ausfällen ausfallsicher sind.
Zuverlässigkeitscheckliste
Lesen Sie die vollständigen Empfehlungen.