Freigeben über


Vorfallverwaltung für SaaS-Workloads in Azure

Unabhängige Softwareanbieter (ISVs) für Software as a Service (SaaS)-Lösungen müssen die Lösung für ihre Kunden betreiben. Dies erfordert eine Organisationseinrichtung und -kultur, die unerwartete Produktionssituationen reibungslos verarbeitet. Als Architekt müssen Sie Managementprozesse und Tools entsprechend entwerfen.

Dieser Artikel führt Sie beim Ausrichten der Kultur, Prozesse und Tools Ihrer Organisation zur Unterstützung der Vorfallverwaltung einer SaaS-Produktionslösung.

Verstehen Ihrer Zuständigkeiten als Dienstanbieter

Das Betreiben einer SaaS-Lösung bedeutet, dass Sie die IT- und Betriebsabteilung Ihrer Kunden sind. Sie müssen mit den richtigen Mitarbeitern, Kultur, Prozessen und Tools vorbereitet sein.

Überlegungen zum Entwurf

  • Übernehmen Sie die Verantwortung für den Support von 24x7x365. Das Betreiben einer SaaS-Lösung erfordert, dass Ihre Organisation immer auf die Reaktion auf Vorfälle vorbereitet ist. Diese Vorbereitung umfasst immer die Verfügbarkeit von Teammitgliedern, da Vorfälle außerhalb der Geschäftszeiten auftreten können.

    Die Live-Site-Unterstützung umfasst echtzeitbasierte Überwachung und Reaktion auf Vorfälle, die sich auf die Systemverfügbarkeit, Sicherheit, Leistung oder Bereitstellung auswirken. Sie oder Ihre Kunden können diese Vorfälle erkennen. Um solche Vorfälle zu bewältigen, benötigen Sie spezifische Fähigkeiten, einschließlich der Fähigkeit, Probleme unter Druck zu analysieren und zu lösen.

    Live-Site-Support kann stressig sein, und es ist wichtig, Ihre Teammitglieder zu unterstützen. Wenn das Team neu in dieser Verantwortung ist, planen Sie den Übergang sorgfältig. Behandeln Sie Bedenken hinsichtlich der On-Call-Aufgaben, der Entschädigung und der Verwaltung der Nichtverfügbarkeit bei Vorfällen.

    Risiko: Qualifikations- und Erwartungsmanagement. Nicht alle Ingenieure eignen sich für eine 24x7x365-Supportrolle. Stellen Sie beim Übergang eines bereits vorhandenen Teams zur Unterstützung einer SaaS-Lösung sicher, dass die richtigen Erwartungen festgelegt und Bildungsmöglichkeiten bereitgestellt werden.

  • Institute a live-site culture. Überlegen Sie, wie Sie Supportfälle und Vorfälle verwalten und wie Eskalationen auftreten. Ziel ist es, sicherzustellen, dass Teammitglieder ihre Verantwortlichkeiten verstehen und über die erforderlichen Fähigkeiten und Tools für die Behandlung von Vorfällen verfügen.

    Startups und kleinere Organisationen haben möglicherweise einen einfachen Plan für Live-Site-Probleme. Techniker können zunächst als Frontline-Support dienen, indem sie auf Kundensupportfälle reagieren. Reife Organisationen oder SaaS-Anbieter mit Unternehmenskunden benötigen strukturiertere Unterstützung und dedizierte Teams.

    Kompromiss: Operative Exzellenz und Kosten. Das Verwalten von Livewebsiteereignissen kann die Entwicklungszeit für neue Features oder Fehlerbehebungen beeinträchtigen. Wenn die Entwicklungsgeschwindigkeit ein Problem darstellt, sollten Sie dedizierte Live-Site-Ressourcen einstellen.

Entwurfsempfehlungen

Empfehlung Vorteil
Stellen Sie ein Frontlineteam für die Behandlung von Supportfällen vor.

In komplexen Fällen sammelt dieses Team die Informationen, die das Entwicklungsteam für seine Untersuchung benötigt. Ein Anbieter kann als Supportteam in Service und Produktion dienen und erste Problemanalyse durchführen und einfache Probleme lösen.
Sie vermeiden die Überlastung des Entwicklungsteams mit verantwortlichen Verantwortlichkeiten für die Behandlung von Vorfällen und den Umgang mit Unterbrechungen ihrer regelmäßigen Aufgaben.
Investieren Sie in eine On-Call-Funktion für Ingenieure, um komplexe Fälle zu behandeln, zu untersuchen und Maßnahmen zu ergreifen.

Wenn möglich, drehen Sie die Verantwortlichkeiten bei Anrufen zwischen Teammitgliedern, wobei jeder Techniker mehrere Tage lang im Gespräch ist.
Mit klar definierten Verantwortlichkeiten und Eskalationspfaden können Sie Probleme schnell identifizieren und beheben, ohne Ihren Engineering-Workflow zu unterbrechen.
Beschaffen Sie Tools, die auf die Vorfallverwaltung spezialisiert sind.

Stellen Sie sicher, dass alle Antwortenden Zugriff haben und verstehen, wie sie diese Tools effektiv nutzen können.

Wählen Sie Tools aus, die den Systemstatus überwachen, vom Kunden gemeldete Probleme verfolgen, Probleme identifizieren, an Anruftechniker eskalieren, nicht reagierende Techniker verwalten und Änderungen an der Produktion ermöglichen können.
Mit den richtigen Tools können Sie Ihr On-Call-Team Vorfälle schnell erkennen und beheben und gleichzeitig die Sicherheit und betriebliche Kontrolle behalten.
Verbessern Sie Ihre Überwachung, Bereitstellungen, Updates und andere reguläre Verwaltungsvorgänge. Indem Sie in die operative Reife investieren, reduzieren Sie die Wahrscheinlichkeit von Problemen mit live-Site. Wenn Probleme auftreten, wird die Lösungszeit durch gut definierte Vorgänge verkürzt.

Definieren Des Antwortplans

Erkennen Sie an, dass Vorfälle unvermeidlich sind und sich darauf vorbereiten, indem Sie einen Plan für die Reaktion auf Vorfälle definieren. Dieser proaktive Ansatz verhindert, dass Sie während Ihres ersten Vorfalls eine Reaktionsstrategie entwickeln müssen.

Planen Sie voraus für wichtige Vorfälle, die sich in der Regel auf die Fähigkeit Ihrer Kunden auswirken, Ihren Dienst zu verwenden. Diese Vorbereitung trägt dazu bei, Stress und Komplexität zu minimieren, wenn Sie Vorfälle bei deren Auftreten verwalten.

Überlegungen zum Entwurf

  • Definieren Sie den Eskalationspfad. Stellen Sie sicher, dass Teams den Eskalationsprozess für Supportaufgaben verstehen. In vielen SaaS-Lösungen wenden sich Kunden an ein Frontline-Supportteam, das dann mit dem Entwicklungsteam kommuniziert. Stellen Sie sicher, dass Kunden wissen, mit wem sie interagieren sollen und warum sie diese Prozesse nicht umgehen sollten. Stellen Sie außerdem sicher, dass Ihr Entwicklungsteam weiß, wann und wie Sie Hilfe von Anbietern anfordern können, einschließlich Supportteams bei Microsoft.

  • Definieren Sie Schweregrade. Verschiedene Vorfälle sind für Sie und Ihre Kunden von Bedeutung. Die Behandlung eines großen Produktionsausfalls unterscheidet sich von der Behandlung eines kleineren Fehlers. Definieren Sie Schweregrade basierend auf den Auswirkungen der Kunden, und legen Sie geeignete Erwartungen und Zeitachsen für jede Stufe fest.

  • Dokumentinformationen, die Sie für die Triage benötigen. Die Dokumentation auf dem neuesten Stand zu halten ist für eine effektive Reaktion auf Vorfälle unerlässlich. Diese Dokumentation umfasst das Architekturlayout des Systems, Details auf Komponentenebene, Besitzer und wichtige Kontakte. Ungenaue oder veraltete Informationen können dazu führen, dass das Vorfallreaktionsteam wertvolle Zeit verschwendet, um Systemvorgänge, Verantwortlichkeiten und die potenziellen Auswirkungen des Vorfalls zu ermitteln.

  • Planen Sie eine effektive Kommunikation mit Kunden. Die Bereitstellung von Statusupdates ist der Schlüssel zur Vorfallverwaltung. Statusupdates helfen Ihren Kunden, die Art eines Vorfalls zu verstehen und die Anzahl der Supportfälle von Kunden zu verringern, die ähnliche Probleme haben.

Entwurfsempfehlungen

Empfehlung Vorteil
Stellen Sie ihren Kunden einen klaren Vorfallberichtsprozess bereit, z. B. das Öffnen eines Supportfalls mit Ihrem Supportteam in Service und Produktion. Sie stellen die Konsistenz bei der Ermittlung und Reaktion auf Vorfälle sicher, wodurch die Zeit für die Lösung reduziert und verhindert wird, dass Informationen verloren gehen oder übersehen werden.
Dokumentieren Sie das Architekturlayout, Details auf Komponentenebene, Datenschutz- oder Sicherheitsklassifizierungen, Besitzer und wichtige Kontakte. Das Triageteam verfügt über die verfügbaren Informationen und kann sich auf Untersuchungen und die Bewertung der Auswirkungen konzentrieren.
Stellen Sie sicher, dass Ihr Vorfallreaktionsteam auf die erforderlichen Ressourcen und Systeme zugreifen kann, z. B. Protokolle. Sie müssen auch in der Lage sein, Produktionsänderungen durch einen sicheren und kontrollierten Prozess vorzunehmen. Sie stellen Vorgänge schneller wieder her, indem Sie sicherstellen, dass Ihr Team keine Zeit verschwenden wird.
Verwenden Sie eine Kommerzielle Statusseite, anstatt Eigenes zu erstellen. Sparen Sie Zeit mithilfe einer Kommerziellen Statusseite. Eine Statusseite, die von einer anderen Organisation gehostet wird, bleibt auch während eines Ausfalls ihres Systems für Kunden zugänglich.

Methodenweises Verwalten von Vorfällen

Die Einhaltung des definierten Plans ist von entscheidender Bedeutung, um während der Reaktionszeit eine Improvisierung zu vermeiden. Dieser Ansatz trägt dazu bei, den Stress und die Komplexität der Verwaltung dieser Situationen zu minimieren.

Überlegungen zum Entwurf

  • Schweregrad des Vorfalls zuweisen. Verwenden Sie Ihren Vorfallreaktionsplan, um den Schweregrad des Vorfalls zu ermitteln. Kunden sind bei Vorfällen oft frustriert. Es ist wichtig, dass Sie die Auswirkungen verstehen, die sie sehen, damit Sie priorisieren können. Kommunizieren Sie den Schweregrad des Vorfalls deutlich, damit Kunden realistische Erwartungen haben.

  • Bleiben Sie ruhig und denken Sie klar. Vorfälle können stressig und mehrdeutig sein, mit mehreren Beteiligten, die Aufmerksamkeit fordern. Haben Sie einen klaren Prozess dafür, wer die Führung innerhalb eines Vorfalls übernimmt. Triage incidents as best as you can während der Bestätigung, dass Sie möglicherweise mit unvollkommenen Informationen arbeiten müssen. Versuchen Sie, die Kontrolle über die Situation zu behalten.

    Organisationsleiter können helfen, indem sie die Teammitglieder abschirmen, die aktiv einen Vorfall untersuchen oder mildern.

  • Kommunizieren Sie ihren Kunden den Status. Aktualisieren Sie die Statusseite, um nur genügend Informationen zu veröffentlichen. Kommunizieren Sie umgehend und stellen Sie erforderliche Informationen wie geschätzte Auflösungszeiten bereit. Bieten Sie Kunden häufige Updates, um ihr Vertrauen aufrechtzuerhalten.

Entwurfsempfehlungen

Empfehlung Vorteil
Priorisieren Sie während eines Vorfalls die Wiederherstellung gegenüber der Ermittlung.

Wenn ein Vorfall auftritt, priorisieren Sie die Wiederherstellung von Vorgängen schnell, um Unterbrechungen für Ihre Kunden zu minimieren.
Möglicherweise können Sie wiederherstellen, indem Sie eine betroffene Komponente umleiten oder ein Rollback eines Updates durchführen, auch wenn Sie nicht verstehen, was das Problem verursacht hat.
Stellen Sie rechtzeitige, klare und häufige Updates während Ausfällen bereit. Sie können das Vertrauen der Kunden stärken und den Aufwand für Ihr Supportteam in Service und Produktion reduzieren.
Festlegen eines Kommunikationsmanagers während eines aktiven Vorfalls. Dieser Vorgesetzte kann eine einzelne Person sein, oder Sie können die Verantwortung zwischen Teammitgliedern zwischen Vorfällen drehen. Wenn Sie eine Stimme für Ihr Entwicklungsteam haben, zentralisieren Sie Unterhaltungen und reduzieren Ablenkungen für andere Teammitglieder. Außerdem verhindern Sie, dass konfliktereiche Informationen während eines chaotischen Vorfalls Kunden oder Projektbeteiligte erreichen.
Stellen Sie sicher, dass Sie über einen unternehmenskritischen Supportplan für Anbieter wie Microsoft verfügen. Wenn ein Ausfall auftritt, benötigen Sie eine reaktionsfähige Kommunikation mit Ihren Plattformanbietern wie Microsoft, um zu ermitteln, wo sich ein Problem befindet und um die Dauer des Ausfalls zu verkürzen.

Durchführen von Überprüfungen nach Vorfällen

Nachdem Sie einen Vorfall wiederhergestellt haben, überprüfen Und analysieren Sie, was passiert ist, um daraus zu lernen. Implementieren Sie Wartungsaktionen, die technische Änderungen, Prozessanpassungen oder mehr Schulungen umfassen können.

Überlegungen zum Entwurf

  • Erfahren Sie mehr über Vorfälle. Ausfälle bieten wertvolle Lernmöglichkeiten. Führen Sie gründliche Überprüfungen nach Vorfällen durch, um Lektionen zu identifizieren und Verbesserungen zu implementieren. Wichtige Vorfälle haben häufig mehrere Ursachen. Bewerten Sie, ob andere Ebenen Ihrer Lösung, z. B. betriebliche Prozesse, das Problem verhindern oder erkennen können, bevor eskaliert wird. Suchen Sie auch an anderer Stelle in Ihrer Lösung nach ähnlichen Mustern, die möglicherweise auch das gleiche Problem gefährden.

  • Kommunizieren Sie mit Ihren Kunden. Viele ISVs bieten Post-Incident-Kommunikation, insbesondere für Unternehmenskunden, die qualitativ hochwertige Updates erwarten. Seien Sie transparent und stellen Sie genügend Informationen bereit, um die Schritte zur Problem- und Entschärfung zu verstehen. Um jedoch Sicherheit und Integrität aufrechtzuerhalten, vermeiden Sie die Freigabe übermäßiger interner Details zu Ihrer Lösungsarchitektur oder -komponenten.

Entwurfsempfehlungen

Empfehlung Vorteil
Erstellen Sie einen Prozess, um interne Überprüfungen nach dem Vorfall durchzuführen.

Konzentrieren Sie sich auf die Identifizierung der Gründe, die zu dem Problem beigetragen haben. Berücksichtigen Sie technische Ursachen, wie Ihre Prozesse zum Ausfall beigetragen haben und wie Sie auf den Vorfall geantwortet haben.
Interne Überprüfungen nach dem Vorfall helfen Ihnen, aus Produktionsausfällen zu lernen und das Risiko ähnlicher Probleme zu minimieren.
Erstellen Sie einen strukturierten Plan, um alle Elemente zu behandeln, die Eine Wartung benötigen. Schließen Sie klare Rechenschaftspflicht und Zeitachsen ein. Durch klare Rechenschaftspflicht können Sie sicherstellen, dass jede Rolle ihre funktionalen Erwartungen erfüllt, Klarheit verbessert und transparente Berichte auf den gewünschten Ebenen ermöglicht.
Veröffentlichen Sie kundenbezogene Überprüfungen nach dem Vorfall.

Stellen Sie Den Kunden genügend Details zur Verfügung, um die Problem- und Entschärfungsschritte zu verstehen, ohne unnötige interne Details oder Systemarchitektur offenzulegen.

Post-Incident-Kommunikation sollte immer von Menschen geschrieben und veröffentlicht werden. Technische und nicht technische Interessenträger sollten die Mitteilungen auf Genauigkeit und Klarheit überprüfen.
Dieser Ansatz trägt dazu bei, das Vertrauen der Kunden aufrechtzuerhalten und ihnen zu versichern, dass Sie aus dem Vorfall gelernt haben und die identifizierten Probleme beheben.

Nächster Schritt

Fahren Sie nach der Überprüfung der Entwurfsbereiche mit dem Bewertungstool fort, um Ihr Design zu bewerten.