Wichtige SRE-Prinzipien und -Methoden: die menschliche Komponente bei SRE

Abgeschlossen

Ein erfolgreicher Betriebsprozess zeichnet sich dadurch aus, dass er die gewünschte Zuverlässigkeit erreicht und aufrechterhält. Ein solcher Prozess hängt ebenso sehr davon ab, wie die für diese Umgebung verantwortlichen Menschen behandelt werden, wie auch davon, wie Computer gehandhabt werden. Site Reliability Engineering (SRE) erkennt dieses Prinzip auf mehrere Arten an, die für seine Umsetzung entscheidend sind.

Arbeitsaufwand

Zunächst steht das Konzept „Toil“, der Arbeitsaufwand, im Mittelpunkt. In einem SRE-Kontext bezieht sich Toil auf Betriebsvorgänge, die von einem Menschen ausgeführt werden und bestimmte Merkmale aufweisen. Mühsal hat keinen langfristigen kompensierenden Wert. Sie bringt den Dienst in keiner sinnvollen Weise voran. Es ist häufig wiederkehrend und weitgehend manuell (auch wenn es automatisiert sein könnte). Da der Dienst oder die Systeme im Laufe der Zeit immer größer werden, wird wahrscheinlich auch die Anzahl der Anforderungen an dieses System proportional ansteigen und noch mehr manuelle Tätigkeiten erfordern.

So kann ein Dienst beispielsweise verlangen, dass das SRE-Team Betriebslasten wie die folgenden auf sich nimmt, die als Arbeitsaufwand betrachtet werden:

  • Wöchentliches Zurücksetzen bestimmter Einstellungen
  • Manuelles Bereitstellen von neuen Konten und Speicherplatz
  • Wiederholtes manuelles Neustarten eines Prozesses

Das Erledigen dieser Aufgaben verbessert den Dienst weder langfristig und noch dauerhaft. Es ist auch wahrscheinlich, dass diese Aufgaben immer wieder wiederholt werden müssen.

Hinweis

Auch wenn Sie Anforderungen wie diese in einer Art Ticketsystem verfolgen, wie es bei vielen Unternehmen üblich ist, gelten die Ausführung der Aktion und das Lösen eines Tickets nach wie vor als Arbeitsaufwand. Es ist lediglich gut nachverfolgter Arbeitsaufwand.

Site Reliability Engineers lehnen Mühsal ab. Sie arbeiten daran, sie zu beseitigen, wann immer dies möglich und angemessen ist. Dieses Ziel ist eine der Stellen, an der in SRE Automatisierung ins Spiel kommt. Wenn diese Anforderungen automatisch bearbeitet werden können, kann das Team an lohnenswerteren und wirkungsvolleren Dingen arbeiten, statt die Warteschlange für Anforderungen abzuarbeiten.

Das Wort „angemessen“ in Bezug auf Arbeitsaufwand ähnelt seiner Bedeutung im Zusammenhang mit Zuverlässigkeit. Es gibt Situationen, in denen die Beseitigung von Arbeitsaufwand von geringerer Priorität ist als andere Arbeiten. Allgemein ist das Vermeiden von Arbeitsaufwand für einen Dienst jedoch ein wichtiger SRE-Aspekt.

Projektarbeit im Vergleich zu reaktiver „Betriebsarbeit“

Um die notwendigen Aufgaben zur Beseitigung von Arbeitsaufwand oder zur Verbesserung der Zuverlässigkeit eines Systems zu erledigen, muss die Zeit eines SRE angemessen zugeteilt werden. Sie möchten sicherstellen, dass sie nicht ihre gesamte Zeit mit der Fehlerbehebung, dem Beantworten von Anfragen oder dem Abarbeiten einer Ticketwarteschlange verbringen. Es muss Zeit vorhanden sein zum Schreiben von Code zur Eliminierung von Arbeitsaufwand, zum Erstellen von Self-Service-Automatisierung, damit keine Tickets erforderlich sind, und zum Erstellen von Projekten, die zur Effizienzsteigerung von Diensten und Mitarbeitern beitragen. In der Abbildung, die normalerweise genannt wird (aus dem ursprünglichen Google-Modell), beträgt die betriebliche Auslastung in einem Team nicht mehr als 50 %.

Hinweis

50 % ist eine mehr oder weniger willkürlich Zahl, in der Praxis scheint dies jedoch häufig ein angemessenes Ziel zu sein.

Es gibt Momente im Leben eines SRE, in denen er sich nur mit Erste Hilfe-Maßnahmen befasst. Das darf jedoch kein Dauerzustand sein. Wenn die reaktive „Betriebsarbeit“ (vieles davon gilt als Arbeitsaufwand) eines Teams für einen längeren Zeitraum mehr als 50 % seiner Zeit beansprucht, ist dies der Vorbote für ein Burnout und mangelhafte Zuverlässigkeit. In dieser Situation können die positiven Kreisläufe, die wir zuvor besprochen haben, nicht funktionieren oder entstehen. SRE achtet in ähnlicher Weise auf eine schlecht ausbalancierte Rufbereitschaft, denn auch dies hat potenziell einen starken negativen Einfluss auf das Team.

Nun, da wir einige der grundlegenden Methoden und Prinzipien von SRE kennengelernt haben, können wir uns mit den ersten Schritten beschäftigen.

Überprüfen Sie Ihr Wissen

1.

Welches dieser Merkmale ist kein Merkmal des sogenannten „Toil“, des Arbeitsaufwandes (im SRE-Kontext)?

2.

In welchem Verhältnis steht SRE zu Arbeitsaufwand?

3.

Wie sollte sich die Arbeit eines SRE anteilig zusammensetzen?