En incidents egenskaper och livscykel

Slutförd

Som du lärde dig i den senaste lektionen är en incident en tjänststörning som påverkar dina kunder och slutanvändare. Incidenter finns i många former, allt från långsammare prestanda som frustrerar användare ("slow is the new down") till systemkrascher som gör tjänsten eller webbplatsen helt otillgänglig under en tidsperiod.

En incidents egenskaper

Incidenter är vanligtvis oväntade och verkar inträffa vid värsta möjliga tidpunkt (till exempel 02:00 eller när du är djupt nedsänkt i ett viktigt projekt). Det är därför incidenter ofta fruktas och undviks, även till den grad att människor ibland tonar ned betydelsen av en incident. Det interna trycket i en organisation är ibland så stort att det finns en frestelse att rapportera ett avbrott felaktigt eller inte alls pga. fruktan av en påföljd.

Incidenter skapar åtminstone oplanerat arbete, och eftersom du tillbringar större delen av din tid med att utföra planerat arbete med en bra uppfattning om vad du ska göra, tänker du förmodligen på incidenter som dåliga saker. Det finns dock ett annat sätt att se på det: incidenter är verkligen investeringar* för att ge det värde du försöker leverera till slutanvändarna. Oavsett vad som orsakade incidenten eller hur stor omfattningen blev så har alla incidenter en sak gemensam – de kan vara värdefulla möjligheter till inlärning.

Du bör visa incidenter som pulsen i dina system. De berättar mer om systemet än vad du tidigare förstod, och den kunskapen är bra. När du har en stark grund för övervakning och vet mer om vad som händer i systemet kommer det oundvikligen att generera fler aviseringar och incidenter och möjligheter att svara. Incidenter berättar åtminstone vad som händer och ökar därmed din operativa medvetenhet. I en tidigare modul om övervakning nämnde vi att det här är en viktig grund inför tillförlitlighetsarbetet.

En incidents livscykel

Om du vill höja incidenthanteringsteamets status till "elit/högpresterande" måste du se bortom tanken på en tjänststörning eller incident som en enkel linjär tidslinje och närma dig den ur ett cykliskt perspektiv.

Du kan separera livscykeln för en incident i distinkta faser som logiskt följer en efter en i en cykel som återgår till början. Varje gång du går runt den här cykeln (och du kommer att göra det flera gånger), om du hanterar den korrekt, är det möjligt att återgå till början med större insikt i dina system. Med en del avsiktligt arbete kan du även vara bättre förberedd att snabbt och effektivt sätta in åtgärder nästa gång en incident inträffar.

En incidents faser

De enskilda faserna i processen för incidenthantering ser lite olika ut beroende på vilken modell du använder. I den här modulen finns det fem faser som du går igenom när du hanterar en incident:

  • Identifiering: I den här fasen spelar övervakningskunskapen från en tidigare modul i den här utbildningsvägen in i bilden. Dina övervakningsverktyg samlar in information från loggar, analyserar informationen enligt de kundcentrerade mål som du har konfigurerat och skickar åtgärdsbara aviseringar så att du vet att mänsklig inblandning behövs.
  • Svar: Den här fasen är vad som händer när du och ditt team får aviseringen. Vi går in i den här fasen i detalj i den här modulen, så det kommer att finnas mycket mer att säga om den här idén om bara ett ögonblick.
  • Reparation: I den här fasen återställer du systemen till normala funktioner. Hur du gör det beror på orsaken till tjänstavbrottet. Att få igång tjänsten igen och göra den tillgänglig för dina kunder är din främsta prioritet. Jobbet slutar dock inte när det är klart.
  • Analys: För att få varaktigt värde från incidenter måste du lära dig av dem. Den här fasen är processen för att samla in information om vad som hände och när du under incidenten och se vad du kan lära dig av den genom att ställa rätt frågor. Det finns en hel modul i Learning from Failure som hanterar den här fasen.
  • Beredskap: Du bör införliva de lärdomar som har dragits i analysfasen i din driftspraxis. Om det finns åtgärdsobjekt som kan hjälpa till att förhindra ett liknande avbrott i framtiden så utgör de också en del av den här fasen.

Cycle diagram of circles labeled with phases from above. Circles are connected to next circle with arrows from phase to phase.

Innan du skapar en plan för incidenthantering måste du förstå incidenters egenskaper och värden och vara bekant med faserna i incidenters livscyklar. Nästa steg är att se till att din hanteringsstrategi byggs på en fast grund.

Kontrollera dina kunskaper

1.

Vilken av dessa kan betraktas som ditt systems "puls"?

2.

Vilket av dessa är inte en fas i en incident?