Perché apprendere dagli eventi imprevisti?
Quando si verifica un evento imprevisto, probabilmente non si pensa immediatamente a un’opportunità di apprendimento. La priorità immediata, com'è giusto che sia, è capire qual è stato il problema che si è verificato e correggerlo il più rapidamente possibile per ridurre l'impatto sui clienti e sugli utenti finali. Questo è il processo di risposta agli eventi imprevisti discusso in un altro modulo di questo percorso di apprendimento.
Tuttavia, dopo aver risolto l'evento imprevisto, è importante proseguire e trarre vantaggio dall'esperienza. Se non si coglie l’occasione di imparare dall'evento imprevisto, questo rimane solo una perdita di tempo, denaro, reputazione e così via. Se, invece, l’evento imprevisto può essere una fonte di informazioni migliore di qualsiasi altra fonte, è possibile effettivamente trarne vantaggio.
La revisione successiva a un evento imprevisto fa parte della fase di analisi del ciclo di vita della risposta agli eventi imprevisti. Non tutte le revisioni post-evento imprevisto vengono create nello stesso modo. Questo processo può essere affrontato in modi diversi e concentrarsi troppo su determinati aspetti del problema o formulare le domande in modo errato può far perdere valore della revisione.
In questa unità si inizierà a riflettere sui motivi degli eventi imprevisti e su come è possibile imparare da questi eventi. Nelle unità successive si amplieranno le "modalità".
Nei sistemi complessi si verificano errori
È necessario "imparare ad apprendere" da un errore non perché nel sistema potrebbe verificarsi un problema, ma perché sicuramente si verificherà.
Nel mondo moderno la maggior parte dei sistemi usati, soprattutto in ambiente cloud, è complessa. Questi sistemi sono costituiti da diverse parti interconnesse che devono funzionare insieme e il comportamento generale del sistema deriva tanto dall'interazione di tali parti quanto dalle singole parti.
L'affidabilità è il filo conduttore di questo percorso di apprendimento, ma i sistemi complessi non sono mai al 100% affidabili. Tali sistemi si comportano in modo interessante e non logico. I sistemi sono costituiti da molte parti e spesso il comportamento del sistema deriva tanto dalle interazioni tra queste parti quanto dalle singole parti stesse.
Per una discussione più approfondita di questo argomento, una buona risorsa è il documento intitolato In che modo si verificano gli errori nei sistemi complessi del dott. Richard I. Cook, un anestesista e ricercatore che ha dedicato anni allo studio della sicurezza nei sistemi complessi, in particolare alla sicurezza dei pazienti nel sistema sanitario. In questo documento descrive gli elementi comuni dei sistemi complessi, in tutti i campi, dal settore sanitario alle operazioni software.
Alcuni punti chiave sono particolarmente rilevanti per l'analisi degli eventi imprevisti e per il processo di analisi successiva a eventi imprevisti:
- I sistemi complessi nascondo al loro interno una serie di errori variabili. È impossibile eseguire sistemi che non presentano difetti. Gli errori cambiano costantemente a causa dei cambiamenti della tecnologia, dell'organizzazione del lavoro e degli sforzi per eliminarli. Un sistema non funziona mai perfettamente.
- I sistemi complessi vengono eseguiti in modalità ridotta. I sistemi complessi vengono sempre eseguiti come sistemi "danneggiati". Continuano a funzionare in questo stato perché contengono molte ridondanze ed è possibile mantenerli in funzione nonostante la presenza di molti difetti. Le operazioni di sistema sono dinamiche, con componenti che si interrompono continuamente e vengono sostituiti.
- La catastrofe è sempre dietro l'angolo. La complessità di questi sistemi indica che gli errori di sistema importanti sono inevitabili a lungo termine. I sistemi complessi presentano sempre il rischio di errori molto gravi che possono verificarsi in qualsiasi momento. È impossibile eliminare questo rischio perché fa parte della natura intrinseca del sistema.
Prevenzione e risposta
Nel tentativo di raggiungere il livello di affidabilità desiderato per i sistemi e i servizi, si fa tutto il possibile per evitare che si verifichino eventi imprevisti. Tuttavia, a causa della complessità di questi sistemi, come spiegato sopra, la prevenzione non è sempre possibile.
Per questo motivo, è necessario adottare un duplice approccio agli errori: prevenzione e, quando questa non è possibile, preparazione per rispondere in modo rapido ed efficace.
La prevenzione e la risposta sono aspetti interconnessi. Ad esempio, l'organizzazione ha distribuito un'automazione sofisticata che funziona quasi sempre. Il fatto che funzionasse quasi sempre è un aspetto positivo, ma quando si è interrotta, probabilmente ha generato errori molto gravi creando delle difficoltà agli operatori che ne dovevano individuare la causa.
I sistemi su cui si lavora sono composti da più tecnologie. In realtà, l'utente non lavora "su" o "con" un sistema, ma lavora nel sistema, ne fa parte. I sistemi complessi includono sia componenti tecnici, ovvero hardware e software, che umani, ovvero le persone e le relative personalità, formazione e conoscenze. I sistemi di Microsoft prevedono la presenza di operatori umani e il modo in cui essi rispondono quando si verifica un problema è importante tanto quanto impedire a monte che questi errori si verifichino.
Lingua
Il linguaggio è importante. In questo modulo si noterà un uso specifico di determinati termini e un'altrettanta attenzione nell'evitarne altri.
Le parole usate determinano le considerazioni su un evento imprevisto e possono modificare drasticamente le nozioni e la quantità di informazioni apprese. Questa scoperta deriva da ricerche effettuate in settori in cui la sicurezza è un aspetto critico, ad esempio aviazione, medicina, ricerca e soccorso, prevenzione degli incendi e altri.
Collettivamente, questo campo di ricerca è ora noto come Ingegneria della resilienza.
C'è molto da imparare sull'Ingegneria della resilienza nel settore della tecnologia. Più avanti in questo modulo verranno illustrati alcuni concetti molto utili appresi dalla letteratura sull'Ingegneria della resilienza, tra cui quattro trappole comuni in cui si cade quando si tenta di apprendere dagli errori. Innanzitutto, però, occorre definire alcuni termini.