Důležitost reakce na incidenty
Na základě principů a postupů monitorování probíraných v jiném modulu z tohoto studijního programu se teď naučíte, co dělat, když monitorování odhalí problém. Pokud obdržíte výstrahu s možností reakce, která vás upozorní, že vaše systémy nefungují podle očekávání, jedná se o aktivační událost, která může problém vyřešit.
Co je incident?
Reakce na incident se týká akcí, které provedete, když dojde k incidentu, ale co přesně představuje incident? Odpověď může být subjektivní; dokonce ani všichni technici nesouhlasí s tím, co je incident. Pokud položíte otázku v různých odvětvích a organizacích, získáte mnoho různých odpovědí.
Některé označí všechny výpadky jako incidenty bez ohledu na to, jestli se to týká zákazníků. V kontextu tohoto modulu můžeme souhlasit s tím, že incident je definován jako přerušení služby: výskyt nebo podmínka, která ovlivňuje schopnost uživatele používat služby, na kterých spoléhá. Mezi příklady patří, když jsou systémy mimo provoz nebo nefungují správně způsobem, který má vliv na zákazníky.
Co je reakce na incidenty?
Zabránění všem problémům je chvályhodným, ale nemožným cílem. Věci se pokazí, takže potřebujeme plán, abychom omezili dopad na naše koncové uživatele a co nejrychleji navrátili operace do normálu.
Klíčem je odpovědět s naléhavostí, nikoli reagovat. Reakce má tendenci být impulsivnější a založená v současné době, bez zohlednění dlouhodobých účinků. Odpověď je dobře promyšlená, uspořádaná a založená na informacích.
Váš přístup k reakcím na incidenty určuje efektivitu v:
- Pochopení toho, co se děje (diagnostika problému)
- Třídění (určení naléhavosti) a stanovení priority problému.
- Zapojení správných prostředků ke zmírnění těchto problémů
- Komunikace se zúčastněnými stranami o problému
Jakmile problém opravíte, můžete se z incidentu učit prostřednictvím procesu závěrečného vyhodnocení incidentu. To je důležité téma, které obsahuje celý samostatný modul, který stojí za diskuzi.
Měření výkonu reakce na incidenty
Možná znáte zkratku TTR, která je různě definovaná jako "doba obnovení", "doba nápravy" nebo "doba obnovení". Všechny tyto varianty odkazují na stejnou věc: celkový čas potřebný k tomu, abyste služby vrátili na místo, kde se můžou vrátit k očekávání zákazníků.
Tato metrika je jedním ze způsobů měření toho, jak dobře týmy fungují při reakci na incidenty. Čím rychleji obnovíte, napravíte nebo zrestaurujete službu, tím menší dopad bude mít výpadek nebo degradovaná služba.
Je důležité vědět, jak dobře vaše organizace zpracovává reakce na incidenty. Každý rok organizace DevOps Research and Assessment (DORA) vydává zprávu State of DevOps. Některá klíčová zjištění ve zprávě z roku 2019 se zaměřila na výkon reakce na incidenty.
- Sestava klasifikuje inženýrské týmy, které mohou detekovat, reagovat a opravovat přerušení služeb za méně než hodinu, jako "elitní nebo vysoce výkonné týmy".
- Ti, kteří byli schopni zotavit se z incidentů do 24 hodin, byli klasifikováni jako "středně výkonné osoby".
- "Podprůměrní výkonní jsou ti, kteří se mohou zotavit z přerušení služeb, což trvá jeden týden až měsíc."
Rozdíl mezi těmito úrovněmi je významný. Studie zjistila, že elitní/vysoce výkonné týmy se zotavují z incidentů 2 604krát rychleji než jejich "nízce výkonné" protějšky. Elitní/vysoce výkonné týmy se také nasazují do produkčního prostředí 208krát častěji.
Proč a jak elitní účinkující reagují a obnovují se mnohem rychleji než zbytek? Je to alespoň částečně, protože chápou význam dobrého základního plánu reakce, který je již zaveden, když se věci nutně pokazí.
Při procházení tohoto modulu se dozvíte o vlastnostech a životním cyklu incidentu a o tom, jak tyto znalosti využít k vytvoření vlastního základního plánu.