Základy reakce na incidenty

Dokončeno

Organizace dnes využívají výhod přístupnosti, efektivity a pohodlí cloudu, ale čelí mnoha výzvám při digitální transformaci, která zahrnuje přesun částí firmy do cloudových služeb.

Mezi běžné výzvy, kterým může vaše organizace čelit, patří:

  • Zvýšení počtu přerušení služeb
  • Žádná účinná metoda sledování a reakce na incidenty (vše je ad hoc a reakce)
  • Nepřijatelná doba řešení
  • Doba řešení se nezlepšuje nebo se zhoršuje
  • Informace a stav jsou obtížné najít
  • Opakování stejných problémů a chyb

Abyste mohli tyto výzvy splnit, potřebujete dobře definovaný plán reakce na incidenty, který je založený na solidním základu.

Základy a pilíře

Účelem základu je podpírat a spojovat stavbu nad ním. V samostatném úvodním modulu tohoto studijního programu jsme probrali myšlenku, že práce na spolehlivosti je vytvořená na základní úrovni monitorování a že reakce na incidenty spočívá těsně nad tím v hierarchii.

Reakce na incidenty má také základ. Existují tři pilíře, které podporují dobrý plán reakce na incidenty:

  • Soupisky
  • Role
  • Rotace

V této lekci zjistíte, co je každý z těchto pilířů a jaké části hrají při navrhování strategie reakce na incidenty, která vás dále posune směrem k vašim cílům spolehlivosti.

Soupisky

Je nezbytné mít dobrý plán, ale plán je bez použití bez lidí, aby ho provedli. Nejlepším místem, kde začít, je tedy určení, kdo by měl reagovat na problémy a jak jim dát vědět, kdy je jejich odpověď nutná.

Nejlepší způsob, jak tuto výzvu vyřešit, je navrhnout seznam. Seznam je seznam lidí, kteří jsou přiřazeni týmu na volání. Tento tým by měl být tvořen více inženýry. Tito členové týmu by měli mít znalosti a dovednosti k řešení typů problémů, ke kterým může dojít ve vašem prostředí, a také školení v reakci na incidenty.

Seznam jmen však nestačí. Potřebujete vytvořit rámec, který bude určovat, kdo má v danou chvíli pohotovost a co má každá osoba udělat. A tady vstupují do hry role.

Role

Role vnášejí řád do toho, co by jinak bylo chaotické, nebo v nejlepším případě ad hoc, odpovědi. To dělá tak, že definuje konkrétní funkce, které se mají předpokládat každou osobou v konkrétní situaci, a místem každého z nich v "řetězci příkazů". Role se můžou lišit podle organizace nebo i podle typu incidentu, ale následující role by měly být obecně součástí organizovaného týmu reakce na incidenty:

  • Primární odpovědný pracovník: Jedná se o "klíčovou osobu", která je obvykle první na místě; to znamená, že první technik na telefonu, kterého volají, když dojde k incidentu.
  • sekundárního respondéra: Jedná se o někoho, kdo funguje jako záloha a může zastoupit, pokud primární respondér není dostupný nebo pokud jsou potřeba druhé oči.
  • odborníky na dané téma: Jedná se o osoby, které mají podrobné znalosti o konkrétním aspektu vašich operací. Jsou tam, pokud primární a sekundární respondenti potřebují eskalovat problém někomu s větší odborností. Nejsou neustále ve službě, ale jsou k dispozici, když jsou potřeba jejich specializované dovednosti. Měli byste udržovat seznam msp v různých tématech (například databáze, front-end, síťová infrastruktura, webové aplikace, kybernetická bezpečnost atd.).
  • velitel incidentu: Jedná se o důležitou roli v rozsáhlém incidentu nebo výpadku, který ovlivňuje mnoho různých komponent a/nebo vyžaduje koordinaci v mnoha různých týmech a systémech. Velitel incidentu bude osoba, která koordinuje značnou část konverzace a úsilí týkající se reakce a nápravných činností. Velitel incidentu sleduje širší kontext. Mají přehled o tom, co se děje a kdo co dělá. Koordinátor incidentu je skvělý pro zajištění toho, aby technici zůstali soustředění a pracovali na svém vlastním úsilí o nápravu, aniž by si navzájem překáželi nebo rušili svou práci.
  • Scribe: Role zapisovateře je dokumentovat konverzaci kolem incidentu co nejpodrobněji. Týmy často používají telefonní mosty, konferenční hovory nebo videochat, aby se všichni spojili a pokusili se pochopit, co se děje, což může určitě pomoct vytvořit prostor pro konverzaci. Je pro nás však obtížné projít si a podrobně porozumět tomu, co inženýři říkali a dělali, pokud to není přepsáno. V důsledku toho je zapisovatel osoba, která nám může pomoci zdokumentovat co nejvíce, abychom to mohli později přezkoumat. Zapisovatel zachycuje všechna možná data; nejen to, co dělají členové týmu, ale také to, co říkají, a dokonce i to, co cítí nebo prožívá.
  • koordinátor komunikace: Tuto osobu si můžete představit jako "manažera vztahů s veřejností" pro incident. Koordinátor komunikace spolupracuje s velitelem incidentu a sdílí informace o incidentu s těmi, kteří se aktivně nezabývá prací na řešení incidentu a zotavení z incidentu. To může zahrnovat zákazníky, prodejní a marketingové týmy, zákaznickou podporu a všechny další zúčastněné strany v rámci organizace nebo mimo ni, kteří potřebují vědět o tom, co se děje, a o stavu, jakým probíhá reakce a náprava.

Rotace

Teď máte seznam pracovníků týmu odpovědí a přiřadili jste příslušné role. Dalším a posledním krokem je vytvoření rotace, což je plán, který přiděluje směny, kdy je každý člověk v pohotovosti.

Existuje mnoho různých způsobů rozdělení směn. Plánování směn může být složitým strategickým procesem. Směny by neměly být přiřazeny náhodně; měli byste se zamyslet nad plánováním, aby bylo co nejefektivnější a co nejpříjemnější pro členy týmu.

Mezi metody plánování směn patří:

  • 24 x 7: Jedná se o rotaci, ve které členové týmu volají několik dní po sobě. Jedná se o jednoduchý způsob přidělování pokrytí směn, ale musíte být opatrní, abyste omezili dobu trvání. Rotace směn delší než tři až čtyři dny mohou mít negativní vliv na celkový stav technických pracovníků, a tím snižuje spolehlivost celého systému.
  • Sledování směn podle slunce: Jedná se o model směn, ve kterém technici plánují své pohotovostní směny pouze během své normální pracovní doby a pak předávají zodpovědnost za pohotovost na konci své pracovní doby jinému kolegovi, který se nachází v jiném časovém pásmu.

Toto je jen několik příkladů způsobů, jak lze směny přiřadit. Důležitým bodem je rozdělit směny způsobem, který nejlépe vyhovuje jednotlivcům ve vašem týmu odpovědí. Existuje mnoho způsobů, jak přizpůsobit směny, zejména pro víkendy, když technici potřebují větší flexibilitu. Technici by měli být schopni snadno předat roli někomu, když dojde ke konfliktům nesouviseným s prací.