Belang van reactie op incidenten

Voltooid

Voortbouwend op de principes en procedures voor bewaking die in een andere module van dit leertraject worden besproken, leert u nu wat u moet doen wanneer uw bewaking een probleem aan het licht brengt. Als u een waarschuwing ontvangt waarvoor actie kan worden ondernomen, wordt u gewaarschuwd dat uw systemen niet werken zoals verwacht, is dat de trigger voor een reactie om het probleem op te lossen.

Wat is een incident?

Incidentrespons gaat over de acties die u uitvoert wanneer een incident plaatsvindt, maar wat is precies een incident? Het antwoord kan subjectief zijn; zelfs alle technici zijn het niet eens over wat een incident is. Als u de vraag stelt in verschillende branches en organisaties, krijgt u veel verschillende antwoorden.

Sommigen labelen alle onderbrekingen als incidenten, ongeacht of klanten worden beïnvloed. In de context van deze module kunnen we ermee akkoord gaan dat een incident wordt gedefinieerd als een serviceonderbreking: een gebeurtenis of voorwaarde die van invloed is op de mogelijkheid van de gebruiker om de services te gebruiken waarop ze afhankelijk zijn. Voorbeelden hiervan zijn wanneer systemen uitvallen of defect zijn op een manier die van invloed is op klanten.

Wat is reactie op incidenten?

Het voorkomen van alle problemen is een prijzenswaardig, maar onmogelijk doel. Dingen zullen fout gaan, dus we hebben een plan nodig om de impact op onze eindgebruikers te beperken en de normale operaties zo snel mogelijk te hervatten.

Het is belangrijk dat reageren met urgentie in plaats van te reageren. Een reactie is meestal impulsief en gebaseerd op het huidige moment, zonder rekening te houden met langetermijneffecten. Een antwoord is goed doordacht, georganiseerd en gebaseerd op informatie.

Uw aanpak voor incidentrespons bepaalt uw effectiviteit op:

  • Begrijpen wat er aan de hand is (diagnose van het probleem).
  • Triatiseren (de urgentie bepalen) en prioriteit geven aan het probleem.
  • De juiste resources inschakelen om het probleem(en) te verhelpen.
  • Communiceren met belanghebbenden over het probleem.

Nadat u het probleem hebt opgelost, kunt u vervolgens leren van het incident via een incidentbeoordelingsproces. Dat is een belangrijk onderwerp dat een hele afzonderlijke module ter discussie heeft.

Prestaties van incidentrespons meten

Misschien bent u bekend met het acroniem TTR-, wat verschillende manieren is gedefinieerd als 'tijd om te herstellen', 'tijd om te herstellen' of 'tijd om te herstellen'. Al deze varianten verwijzen naar hetzelfde: de totale hoeveelheid tijd die nodig is om services terug te brengen naar een plek waar ze kunnen terugkeren naar de verwachtingen van klanten.

Deze metrische waarde is een manier om te meten hoe goed teams presteren wanneer ze reageren op incidenten. Hoe sneller u de service herstelt, oplost of terugbrengt, hoe minder invloed de storing of verminderde service heeft.

Het is belangrijk om te weten hoe goed uw organisatie incidentrespons afhandelt. Elk jaar brengt de DevOps Research and Assessment Organization (DORA) een state of DevOps-rapport uit. Enkele belangrijke bevindingen in het rapport 2019 zijn gericht op de prestaties van incidentrespons.

  • Het rapport geclassificeerde technische teams die serviceonderbrekingen in minder dan een uur kunnen detecteren, beantwoorden en herstellen als 'elite of high performers'.
  • Degenen die in minder dan 24 uur incidenten konden herstellen, werden geclassificeerd als 'gemiddelde presteerders'.
  • "Slecht presteerders" zijn degenen die er tussen één week en een maand over doen om te herstellen van serviceonderbrekingen.

Het verschil tussen deze niveaus is aanzienlijk. Uit het onderzoek bleek dat elite/high performance teams 2.604 keer sneller herstellen van incidenten dan hun 'laag presterende' peers. Toppresteerders/de toppresteerders deploien ook 208 keer zo vaak naar productie.

Waarom en hoe reageren en herstellen toplperformers zoveel sneller dan de rest? Het is ten minste gedeeltelijk omdat ze begrijpen hoe belangrijk het is om een goed basisantwoordplan te hebben dat al is ingesteld wanneer er onvermijdelijk iets misgaat.

Terwijl u deze module doorloopt, leert u meer over de kenmerken en levenscyclus van een incident en leert u hoe u die kennis kunt gebruiken om uw eigen basisplan te maken.

Uw kennis controleren

1.

Welke van de volgende is een doel voor effectieve incidentrespons?

2.

Hoe snel kunnen technische teams die zijn geclassificeerd als 'elite of high performers' over het algemeen serviceonderbrekingen detecteren, erop reageren en herstellen?