Grundläggande incidenthantering
Organisationer drar idag fördel av molnets tillgänglighet, effektivitet och bekvämlighet, men de står inför många utmaningar när de genomgår en digital transformation som innebär att delar av verksamheten flyttas till molntjänster.
Några av de vanliga utmaningar som du kan stöta på i din organisation är:
- Ökat antal tjänstavbrott
- Ingen effektiv metod för att spåra och hantera incidenter (allt är ad hoc och utgörs av reaktioner)
- Oacceptabelt lång lösningstid
- Tiden det tar att lösa problemet blir inte kortare eller blir längre
- Information och status är svåra att hitta
- Upprepning av samma problem och misstag
För att möta dessa utmaningar behöver du en väldefinierad incidenthanteringsplan som bygger på en solid grund.
Grunder och grundpelare
Syftet med en grund är att hålla den högre strukturen uppe och hålla ihop den. I en separat introduktionsmodul för den här inlärningsvägen diskuterade vi idén att tillförlitlighetsarbete bygger på den grundläggande övervakningsnivån och att incidenthantering ligger precis ovanför det i hierarkin.
Incidenthantering har också en grund. Det finns tre grundpelare som stöder en bra plan för incidenthantering:
- Förteckningar
- Roller
- Rotationer
I den här lektionen får du reda på vad var och en av dessa pelare är och vilka delar de spelar när det gäller att utforma en strategi för incidenthantering som för dig vidare mot dina tillförlitlighetsmål.
Förteckningar
Det är viktigt att ha en bra plan, men en plan är värdelös utan att folk kan genomföra den. Därför är det bästa stället att börja på genom att bestämma vem som förväntas svara på problem och hur de ska få veta när deras svar krävs.
Det bästa sättet för att hantera denna utmaning är att skapa en förteckning. En förteckning är en lista med personer som ingår i jourteamet. Det här teamet bör bestå av flera tekniker. Dessa teammedlemmar bör ha kunskaper och färdigheter för att hantera den typ av problem som kan uppstå i din miljö, samt utbildning i incidenthantering.
En lista med namn räcker dock inte. Du måste skapa ett ramverk kring vem som är jour vid en viss tidpunkt och vad varje person ska göra. Det är där roller kommer in.
Roller
Roller ger ordning på vad som skulle vara ett kaotiskt – eller i bästa fall ett ad hoc -svar. Det gör detta genom att definiera de specifika funktioner som ska antas av varje person i en viss situation och platsen för var och en i "kommandokedjan". Roller kan variera beroende på organisation eller till och med efter incidenttyp, men följande roller bör vanligtvis ingå i ett organiserat incidenthanteringsteam:
- Primär svarare: Det här är "punktpersonen" som vanligtvis är den första personen på platsen, det vill säga den första jourteknikern som anropas när en incident inträffar.
- Sekundär svarare: Det här är någon som fungerar som en säkerhetskopia och kan gå in om den primära svararen inte är tillgänglig eller om ett andra par ögon behövs.
- Ämnesexperter(SMF): Det här är personer som har djupgående kunskaper om en viss aspekt av din verksamhet. De är där om de primära och sekundära svararna behöver eskalera problemet till någon med mer expertis. De är inte jour hela tiden, men är tillgängliga när deras specialiserade kunskaper behövs. Du bör ha en lista över små och medelstora företag i olika ämnen (till exempel databas, klientdel, nätverksinfrastruktur, webbappar, cybersäkerhet och så vidare).
- Incidentansvarig: Detta är en viktig roll i en storskalig incident eller ett avbrott som påverkar många olika komponenter och/eller kräver samordning mellan många olika team och system. En incidentchef är den person som samordnar mycket av konversationen och arbetet med åtgärder och åtgärder. Incidentchefen håller ett öga på "helheten"; de håller koll på vad som händer och vem som gör vad. En incidentchef är bra för att se till att ingenjörerna fortsätter att fokusera och att de arbetar med sina egna reparationsinsatser utan att gå vidare eller ångra varandras arbete.
- Scribe: Den skrivare roll är att dokumentera konversationen kring incidenten i så mycket detalj som möjligt. Team använder ofta telefonbryggor, konferenssamtal eller videochattar för att samla alla och försöka förstå vad som händer. Det kan underlätta för att skapa utrymme för konversationen. Det är dock svårt för oss att gå igenom och förstå i detalj vad ingenjörerna sa och gjorde om det inte transkriberas. Som ett resultat är en skrivare den person som kan hjälpa oss att dokumentera så mycket som möjligt för att granska senare. Skriftlärningen samlar in alla data som är möjliga. inte bara vad teammedlemmar gör, utan också vad de säger och till och med vad de känner eller upplever.
- Kommunikationskoordinator: Tänk på den här personen som "PR-chef" för incidenten. Kommunikationskoordinatorn arbetar tillsammans med incidentchefen för att dela information om incidenten med dem som inte är inblandade i aktivt arbete med att åtgärda och återställa från incidenten. Detta kan omfatta kunder, försäljnings- och marknadsföringsteam, kundsupport och andra intressenter inom eller utanför organisationen som behöver informeras om vad som händer och statusen för hur svaret och reparationen fortskrider.
Rotationer
Nu har du din förteckning med personal som ingår i svarsteamet och har tilldelat dem lämpliga roller. Nästa och sista steg är att skapa en rotation, som är ett schema som tilldelar skift då respektive person har jour.
Det finns många olika sätt för att dela upp skift. Schemaläggning av skift kan vara en komplex strategisk process. Skift bör inte tilldelas slumpmässigt. Du bör tänka på schemaläggningen så att den blir så effektiv och så trevlig som möjligt för gruppmedlemmar.
Här följer några metoder för schemaläggning av skift:
- 24 x 7: Detta är en rotation där teammedlemmar är jour i flera dagar i rad. Det här är ett enkelt sätt att dela ut skift, men du måste vara noga med att begränsa varaktigheten. Skiftrotationer som är längre än tre till fyra dagar kan vara skadliga för den tekniska personalens allmänna hälsa och därmed minska tillförlitligheten i hela systemet.
- Följ solväxlingarna: Det här är en skiftmodell där teknikerna endast schemalägger sina jourskift under sin normala arbetstid och sedan lämnar över sitt jouransvar i slutet av sin arbetsdag till en annan kollega som befinner sig i en annan tidszon.
Det här är bara några exempel på hur man kan tilldela skift. Det viktiga är att dela upp skift på ett sätt som passar för personerna i ditt team som hanterar incidenter. Det finns många sätt att anpassa skift, särskilt för helger, när ingenjörer behöver mer flexibilitet. Tekniker ska enkelt kunna lämna över rollen till någon annan när konflikter med åtaganden utanför jobbet uppstår.