Egenskaper och livscykel för en incident
Som du lärde dig i den senaste lektionen är en incident en tjänststörning som påverkar dina kunder och slutanvändare. Incidenter finns i många former, allt från långsammare prestanda som frustrerar användare ("slow is the new down") till systemkrascher som gör tjänsten eller webbplatsen helt otillgänglig under en tidsperiod.
Egenskaper för en incident
Incidenter är vanligtvis oväntade och verkar inträffa vid värsta möjliga tidpunkt (till exempel 02:00 eller när du är djupt nedsänkt i ett viktigt projekt). Det är därför incidenter ofta fruktas och undviks, även till den grad att människor ibland tonar ned betydelsen av en incident. Interna påtryckningar är ibland så stora i en organisation att det finns en frestelse att felmärka eller att misslyckas med att rapportera en störning av rädsla för att bli tillrättavisad.
Incidenter skapar åtminstone oplanerat arbete, och eftersom du tillbringar större delen av din tid med att utföra planerat arbete med en bra uppfattning om vad du ska göra, tänker du förmodligen på incidenter som dåliga saker. Det finns dock ett annat sätt att se på det: incidenter är verkligen investeringar* för att ge det värde du försöker leverera till slutanvändarna. Oavsett orsaken till incidenten eller omfattningen av påverkan har alla incidenter en sak gemensamt: de kan ge värdefulla inlärningsupplevelser.
Du bör visa incidenter som pulsen i dina system. De berättar mer om systemet än du tidigare förstod, och att kunskap är bra. När du har en stark grund för övervakning och vet mer om vad som händer i systemet kommer det oundvikligen att generera fler aviseringar och incidenter och möjligheter att svara. Incidenter berättar åtminstone vad som händer och ökar därmed din operativa medvetenhet. I en tidigare modul om övervakning föreslog vi att detta var en viktig föregångare till tillförlitlighetsarbetet.
Livscykel för en incident
Om du vill höja incidenthanteringsteamets status till "elit/högpresterande" måste du se bortom tanken på en tjänststörning eller incident som en enkel linjär tidslinje och närma dig den ur ett cykliskt perspektiv.
Du kan separera livscykeln för en incident i distinkta faser som logiskt följer en efter en i en cykel som återgår till början. Varje gång du går runt den här cykeln (och du kommer att göra det flera gånger), om du hanterar den korrekt, är det möjligt att återgå till början med större insikt i dina system. Med ett avsiktligt arbete kan du också vara bättre förberedd på att svara snabbt och effektivt nästa gång en incident inträffar.
Faser av en incident
De enskilda faserna i incidenthanteringsprocessen ser lite annorlunda ut beroende på vilken modell du använder. I den här modulen finns det fem faser som du går igenom när du svarar på en incident:
- Detection: I den här fasen kommer övervakningskunskapen från en tidigare modul i den här utbildningsvägen till användning. Dina övervakningsverktyg samlar in information från loggar, analyserar informationen enligt de kundcentrerade mål som du har konfigurerat och skickar åtgärdsbara aviseringar så att du vet att mänsklig inblandning behövs.
- Response: Den här fasen är vad som händer när du och ditt team får aviseringen. Vi går in i den här fasen i detalj i den här modulen, så det kommer att finnas mycket mer att säga om den här idén om bara ett ögonblick.
- Remediation: I den här fasen återställer du systemen till normala funktioner. Hur du gör det beror på orsaken till tjänststörningarna. Att få igång tjänsten igen och vara tillgänglig för dina kunder är din högsta prioritet. Jobbet slutar dock inte när det är klart.
- Analysis: För att få varaktigt värde från incidenter måste du lära dig av dem. Den här fasen handlar om att samla in information om vad som hände och när under incidenten, samt om att se vad du kan lära dig genom att ställa rätt frågor. Det finns en hel modul i Learning from Failure som hanterar den här fasen.
- Beredskap: Du bör införliva de lärdomar som har dragits i analysfasen i din driftspraxis. Om det finns åtgärdsobjekt som skulle bidra till att förhindra ett liknande avbrott i framtiden, skulle de också vara en del av den här fasen.
Innan du skapar en incidenthanteringsplan måste du förstå egenskaperna och värdet för incidenter och känna till faserna i incidentlivscykeln. Nästa steg är att se till att din svarsstrategi bygger på en solid grund.