Importanza della risposta agli eventi imprevisti
Sulla base dei principi e delle procedure di monitoraggio descritti in un altro modulo di questo percorso di apprendimento, verranno illustrate le azioni da intraprendere quando il monitoraggio rivela un problema. Se si riceve un avviso interattivo che informa che i sistemi non funzionano come previsto, si tratta del trigger di una risposta per gestire il problema.
Che cos'è un evento imprevisto?
La risposta a un evento imprevisto riguarda le azioni da intraprendere quando si verifica un tale evento. Ma cosa si intende esattamente per evento imprevisto? La risposta può essere soggettiva; neanche i tecnici concordano tutti sulla stessa definizione. Se si pone la domanda in diversi settori e organizzazioni, si ottengono molte risposte diverse.
Alcuni classificano tutte le interruzioni come eventi imprevisti, a prescindere dal fatto che abbiano o meno effetto sui clienti. Nel contesto di questo modulo è accettabile definire un evento imprevisto come un'interruzione del servizio: ovvero, un'occorrenza o una condizione che influisce sulla capacità dell'utente di usare i servizi su cui fa affidamento. Gli esempi includono i sistemi inattivi o malfunzionanti che influiscono sull'operatività dei clienti.
Che cos'è la risposta a un evento imprevisto?
La prevenzione di tutti i problemi è un obiettivo lodevole, ma impossibile. È inevitabile che qualcosa vada storto, quindi è necessario un piano per limitare l'impatto sugli utenti finali e per ripristinare la normalità delle operazioni il più rapidamente possibile.
La chiave consiste nel rispondere con urgenza invece di reagire. Una reazione tende a essere più impulsiva e basata sul momento attuale, senza considerare gli effetti a lungo termine. Una risposta è ben congegnata, organizzata e basata su informazioni.
L'approccio alla risposta agli eventi imprevisti determina se si riesce efficacemente a:
- Riconoscimento di ciò che sta succedendo (diagnosi del problema).
- Valutazione del problema (determinazione dell’urgenza) e definizione delle priorità.
- Coinvolgimento delle risorse appropriate per attenuare i problemi.
- Comunicazione con gli stakeholder in merito al problema.
Una volta corretto il problema, è possibile apprendere dall'evento imprevisto tramite un processo di revisione successiva. Si tratta di un argomento importante trattato in un modulo distinto che vale la pena consultare.
Misurazione delle prestazioni della risposta agli eventi imprevisti
È possibile che si abbia familiarità con l'acronimo TTR, che può essere esteso in vari modi, come "time to recover" (tempo di recupero), "time to remediate" (tempo di correzione) o "time to restore" (tempo di ripristino). Tutte queste varianti fanno riferimento alla stessa cosa: la quantità totale di tempo necessario per ripristinare uno stato dei servizi che torni a soddisfare le aspettative dei clienti.
Questa metrica è un modo per misurare in livello di prestazioni dei team nella risposta agli eventi imprevisti. Quanto più velocemente si recupera/corregge/ripristina un servizio, tanto minore sarà l'impatto dell'interruzione o la riduzione delle prestazioni.
È importante capire il livello di efficacia con cui l'organizzazione gestisce la risposta agli eventi imprevisti. Ogni anno, l'organizzazione DORA (DevOps Research and Assessment Organization) pubblica il report State of DevOps. Alcuni dei risultati principali del report del 2019 riguardano le prestazioni della risposta agli eventi imprevisti.
- Il report classifica come "elite o high performer" i team di tecnici in grado di rilevare, rispondere e correggere le interruzioni del servizio in meno di un'ora.
- Quelli che risultano in grado di ripristinare il servizio in meno di 24 ore sono classificati come "medium performer".
- La classificazione di "low performer" riguarda invece i team che riescono a risolvere le interruzioni del servizio in un periodo compreso tra una settimana e un mese.
La differenza tra questi livelli è significativa. Lo studio ha rilevato che i team classificati come elite/high performer riescono a ripristinare il servizio in seguito a eventi imprevisti 2.604 volte più rapidamente rispetto ai colleghi "low performer". Inoltre, distribuiscono le soluzioni in produzione 208 volte più spesso.
Perché hanno tempi di risposta e ripristino molto più rapidi rispetto al resto? Il motivo almeno parziale è che capiscono l'importanza di avere già a disposizione un piano di risposta di base valido quando inevitabilmente qualcosa va storto.
Procedendo con questo modulo si apprenderanno le caratteristiche e il ciclo di vita di un evento imprevisto e come usare queste conoscenze per creare un piano di base.