Handlungsrelevante Warnungen
In diesem Modul haben wir bisher Möglichkeiten untersucht, die Zuverlässigkeit unserer Systeme zu überdenken, diese zu messen und damit zu interagieren. Aber es gibt auch einen Weg, über den die Zuverlässigkeit mit uns interagiert: Warnungen. Azure Monitor und andere Tools sind problemlos einzurichten, um Warnungen basierend auf verschiedenen Metriken und Signalen zu senden, einschließlich der SLIs und SLOs, die wir zuvor behandelt haben. Azure kann außerdem Warnungen auf der Grundlage von Dienstproblemen über das Feature Azure Service Health senden.
Das einfache Senden von Warnungen birgt auch ein potenzielles Risiko. Und hier kommt das Wort nachhaltig aus der SRE-Definition ins Spiel, die wir zuvor besprochen haben:
Beim Site Reliability Engineering handelt es sich um einen Aufgabenbereich der Entwicklung, der Organisationen dabei unterstützen soll, nachhaltig einen angemessenen Grad an Zuverlässigkeit ihrer Systeme, Dienste und Produkte zu erzielen.
Warnungen sind so konzipiert, dass Sie benachrichtigt werden, wenn ein Problem mit Ihren Systemen vorliegt. Wenn jedoch Warnungen nicht ordnungsgemäß konfiguriert sind, kann dies das Ziel der Schaffung eines nachhaltigen Vorgangs untergraben. Sämtliche Anstrengungen zum Implementieren von SLIs und SLOs in Ihre Organisation können entgleisen, wenn es Warnungen an Ihre Mitarbeiter hagelt. Warnungsmüdigkeit ist ein bekanntes Problem in der Operations-Community. Diese Einheit soll dabei helfen, dies in Ihrer Organisation zu verhindern.
Ein wichtiger Faktor der Warnungsmüdigkeit sind Warnungen, die nicht handlungsrelevant sind. Sehen wir uns an, wie sich ihre Erstellung vermeiden lässt.
Was Warnungen sind (und was sie nicht sind)
Um zu verstehen, warum eine fehlerhafte Warnung ein Problem verursachen kann, müssen Sie sich Gedanken über den Zweck von Warnungen machen und wissen, inwiefern sie sich von anderen operativen Signalen unterscheiden.
Folgendes sind keine handlungsrelevanten Warnungen:
Protokolle: Warnungen sind keine Datensätze von Ereignissen. Dies obliegt Protokollen. Wenn Sie lediglich versuchen, zu erfassen, dass ein Ereignis aufgetreten ist, schreiben Sie es in eine Protokolldatei und nicht in einen Pager.
Benachrichtigungen: Warnungen sind nicht für die Ankündigung nicht kritischer Vorkommen wie den Abschluss eines Softwarebuilds vorgesehen. Sie sollten niemanden unterbrechen oder in seiner Konzentration und seinem Fokus stören müssen, nur um eine Nachricht zu überbringen.
Heartbeats: Warnungen sollten nicht als Erinnerung daran verwendet werden, dass das System noch ausgeführt wird. Es gibt Situationen, in denen Menschen sagen: „Wenn ich nicht jede Stunde wenigstens eine Seite von diesem System erhalte, weiß ich, dass etwas nicht stimmt und ich mich darum kümmern muss.“ Diese Auffassung ist unvorteilhaft.
Handlungsrelevante Warnungen sind Situationen vorbehalten, in denen Sie eine Person benötigen, die ein Problem untersucht und eingreift, um es zu beheben. Bei Warnungen sollte es sich um Kommunikationen darüber handeln, dass etwas Außergewöhnliches oder Unerwartetes eingetreten ist und dass sich jemand darum kümmern muss.
Wenn es sich bei dem Ereignis um ein Problem handelt, das vom System durch automatisierte Prozesse verarbeitet werden kann, z. B. das Skalieren von Ressourcen innerhalb eines vordefinierten Limits, ist keine Warnung erforderlich. Das System sollte es einfach handhaben und eine Zeile in ein Protokoll schreiben. Es sollte Sie nicht um 2 Uhr morgens wecken, um Sie darüber zu informieren, dass eine Situation erfolgreich gehandhabt wurde.
Erstellen handlungsrelevanter Warnungen
Damit eine Warnung handlungsrelevant ist, muss Folgendes gegeben sein:
Einfachheit: Sie sollten keine Warnung erstellen, bei der der Empfänger Rätsel lösen muss, bevor er weiß, was zu tun ist. Wenn die Warnung zu komplex ist, verliert die arme Person, die gerade mitten in der Nacht aufgeweckt wurde, wertvolle Zeit dabei, herauszufinden, was sie bedeutet.
Geltungsbereich: Einer der ersten Schritte, die der Empfänger der Meldung beim effektiven Selektieren durchführen muss, ist die Bestimmung des Geltungsbereichs für das Problem. Liegt ein Problem bei einem einzelnen Server vor? Einem Dienst? Einer ganzen Region? Weltweit? Fügen Sie diese Informationen in die Warnung ein, um es dem Empfänger leichter zu machen.
Kontext: Was muss die Person, die diese Warnung erhalten soll, wissen, um darauf reagieren zu können? Sehen wir uns diesen Teil näher an.
Bereitstellen von Kontext in der Warnung
Betrachten wir einige Elemente, die eine handlungsrelevante Warnung immer enthalten sollte, damit die Empfänger über den nötigen Kontext verfügen:
Woher kommt die Warnung? Viele Organisationen verwenden jeweils mehrere Überwachungssysteme und eine große Anzahl verbundener Systeme. Es kann eine enorme Zeitersparnis darstellen, wenn die Warnung besagt: „Diese Warnung für das Gehaltssystem THX-1138 stammt aus dem Azure Monitor-Abonnement ‚Prod‘“.
Welche Erwartung wurde verletzt? Eine Warnung, die lediglich den aktuellen Zustand der Dinge beschreibt, ist nicht einmal annähernd so hilfreich, wie sie sein könnte. Vergleichen Sie die Aussagen „Der Datenbankserver wird mit einer Auslastung von 80 Prozent ausgeführt.“ und „Der Datenbankserver wurde in den letzten zwei Stunden mit einer Auslastung von 80 Prozent ausgeführt, obwohl die Auslastung nur 60 Prozent oder weniger betragen sollte.“
Warum ist das ein Problem (für den Kunden)? Informationen zu den bisherigen oder künftigen Auswirkungen der Situation auf den Kunden bieten Ihnen die Möglichkeit, deren Bedeutung zu ermitteln und die Reaktion entsprechend darauf abzustimmen.
Was sind die nächsten Schritte, die Sie ausführen müssen? Die Warnung sollte nach Möglichkeit die nächste Aktion für die reagierende Person enthalten, sei es in Form eines Verweises auf einen Leitfaden zur Problembehebung oder eine andere Dokumentation, in der sich hilfreiche Informationen zur Diagnose und Behebung dieses Problems finden.
Wenn Sie einen solchen nützlichen Kontext einschließen und ihre Warnungen handlungsrelevant gestalten möchten, können die Betriebspraktiken nachhaltiger sein und die Reaktionen auf diese Warnungen vereinfacht werden.