Charakteristiky a životní cyklus incidentu
Jak jste se dozvěděli v poslední lekci, incident je přerušení služeb, které ovlivňuje vaše zákazníky a koncové uživatele. Incidenty přicházejí v mnoha formách, od zpomalení výkonu, které frustrují uživatele ("pomalé je nové dolů"), až po selhání systému, která činí službu nebo web zcela nedostupnými na určitou dobu.
Charakteristiky incidentu
Incidenty jsou obvykle neočekávané a zdá se, že se vyskytují v tu nejhorší možnou chvíli (například ve 2:00 ráno nebo když jste hluboce ponořeni do důležitého projektu). To je důvod, proč se lidé často incidentů bojí a vyhýbají se jim, a dokonce i někdy podceňují jejich význam. Vnitřní tlak je někdy tak velký v organizaci, že existuje pokušení chybně oznamovat nebo nenahlásit přerušení kvůli obavám z napomenutí.
Minimálně incidenty vytvářejí neplánovanou práci, a protože většinu času trávíte plánovanou prací s dobrým přehledem toho, co byste měli dělat, pravděpodobně považujete incidenty za špatné. Existuje ale další způsob, jak se na to podívat: incidenty jsou skutečně investice* do poskytování hodnoty, kterou se snažíte koncovým uživatelům doručit. Bez ohledu na příčinu incidentu nebo rozsah dopadu mají všechny incidenty jednu věc společného: můžou poskytovat cenné studijní zkušenosti.
Incidenty byste měli vidět jako pulz svých systémů. Řeknou vám víc o systému, než jste dříve pochopili, a že znalost je dobrá věc. Pokud máte silný základ monitorování a získáte další informace o tom, co se děje ve vašem systému, bude to nutně generovat další výstrahy a incidenty a příležitosti k reakci. Alespoň incidenty vám říkají, co se děje, a tím zvyšují informovanost o provozu. V předchozím modulu týkajícím se monitorování jsme navrhli, že to byl důležitý prekurzor pro práci na spolehlivosti.
Životní cyklus incidentu
Pokud chcete zvýšit stav týmu reakce na incidenty na "elitní/vysoce výkonné", musíte se podívat nad myšlenku přerušení služby nebo incidentu jako na jednoduchou lineární časovou osu a přistupovat k ní z cyklické perspektivy.
Životní cyklus incidentu můžete oddělit do různých fází, které logicky následují po druhém v cyklu, který se vrátí zpět na začátek. Pokaždé, když tento cyklus obcházíte (a budete to dělat mnohokrát), pokud to zvládnete správně, je možné se vrátit na začátek s lepším přehledem o vašich systémech. S určitou záměrnou prací můžete být lépe připraveni rychle a efektivně reagovat při příštím výskytu incidentu.
Fáze incidentu
Jednotlivé fáze procesu reakce na incidenty vypadají trochu jinak v závislosti na použitém modelu. Pro účely tohoto modulu existuje pět fází, kterými můžete reagovat na incident:
- detekce: Tato fáze je místo, kde se uplatní znalosti o monitorování z předchozího modulu tohoto vzdělávacího programu. Nástroje pro monitorování shromažďují informace z protokolů, analyzují tyto informace podle nakonfigurovaných cílů orientovaných na zákazníky a odesílají vám výstrahy s možností použití, abyste věděli, že je potřeba zásah člověka.
- odpověď: Tato fáze se stane, když vy a váš tým obdržíte toto upozornění. Tuto fázi si podrobně probereme v tomto modulu, takže o této myšlence budeme za chvíli mít spoustu dalších informací.
- Náprava: V této fázi obnovíte systémy do normální funkčnosti. Způsob, jakým to uděláte, závisí na příčině přerušení služby. Vaší nejvyšší prioritou je obnovit provoz služby a zajistit její dostupnost pro vaše zákazníky. Jakmile se to ale dokončí, vaše úloha se nezastaví.
- Analýza: Pokud chcete získat trvalou hodnotu z incidentů, musíte se z nich poučit. Tato fáze je proces shromažďování informací o tom, co se stalo, a kdy během incidentu a zjištění toho, co se z něj můžete naučit, tím, že položíte správné otázky. Tato fáze řeší celý modul Učení z selhání.
- Pohotovost: Měli byste do své provozní praxe začlenit poznatky získané ve fázi analýzy. Pokud by v budoucnu byly k dispozici položky akcí, které by pomohly zabránit podobnému výpadku, byly by také součástí této fáze.
Než vytvoříte plán reakce na incidenty, musíte porozumět charakteristikám a hodnotě incidentů a seznámit se s fázemi životního cyklu incidentu. Dalším krokem je zajistit, aby vaše strategie reakce byla vytvořená na pevných základech.