Klíčové principy a postupy SRE: Lidská stránka SRE
Úspěšný provozní proces je takový, který dosahuje požadované spolehlivosti a udržuje ho. Takový proces je stejně závislý na tom, jak zachází s lidmi zodpovědnými za dané prostředí, protože závisí na tom, jak se na počítačích chová. Technika spolehlivosti webu bere na vědomí tuto pravdu mnoha způsoby, které jsou pro svou praxi zásadní.
Lopota
Nejprve se zaměřme na pojem „lopota“. V kontextu SRE se pod pojmem lopota rozumí pracovní činnosti prováděné člověkem, které mají určité charakteristiky. Lopota nepřináší dlouhodobou hodnotu, která by přinášela uspokojení. Žádným smysluplným způsobem neposouvá službu vpřed. Často se opakuje a do značné míry ručně (i když by mohla být automatizovaná). S tím, jak služba nebo systémy časem rostou, zvýší se pravděpodobně poměrně s tím také počet požadavků na daný systém a budou vyžadovat ještě více manuální práce.
Služba může například vyžadovat, aby tým SRE načítal provozní zatížení, jako jsou ty, které jsou považovány za náil:
- Resetování něčeho každý týden.
- Zřizování nových účtů a místa na disku ručně.
- Opakované restartování procesu ručně.
Dokončení těchto akcí nevylepší službu dlouhodobým trvalým způsobem. Je také pravděpodobné, že tyto akce se musí opakovat znovu a znovu.
Poznámka:
Dokonce i tehdy, pokud si takové požadavky uchováváte v nějaké podobě lístku, jak je tomu na mnoha místech, provést úkon a vyřešit lístek je stále lopota. Je to jen dobře sledovaná lopota.
SRE nesnáší lopotu. Usiluje o její eliminaci, kdykoli je to možné a vhodné. Tento cíl je jedním z míst, kde automatizace přichází do hry v SRE. Pokud je možné tyto požadavky zpracovávat automaticky, uvolní to týmu ruce pro uspokojivější práci na hodnotnějších věcech, než je odbavování fronty požadavků.
Použití slova "odpovídající" ve vztahu k toilu se podobá jeho použití v souvislosti se spolehlivostí. Existují situace, kdy odstranění toilu práce má nižší prioritu než jiná práce. Ale v celém případě je odstranění toilu ze služby klíčovým cílem pro SRE.
Práce na projektu vs. práce na provozu
Aby bylo možné provést práci potřebnou k odebrání toilu nebo ke zlepšení spolehlivosti systému, musí být čas SRE přidělen odpovídajícím způsobem. Chtějí zajistit, aby neutráceli všechen čas hasičů, odpověděli na stránky nebo jen zpracovávali frontu lístků. Potřebují mít čas vyhradit si na psaní kódu, aby eliminovaly tísně, vytvořily samoobslužnou automatizaci, takže lístky nejsou nezbytné, a vytvářet projekty, které službu a lidi zefektivní. Obvykle citované číslo (které pochází z původního modelu Google) je nezatěžovat tým provozními záležitostmi víc než 50 % pracovního času.
Poznámka:
50 % je číslo trochu vypálené od boku, ale v praxi se ukazuje pro mnoho uživatelů jako přiměřený cíl.
Existují chvíle, kdy musí pracovníci SRE veškerý čas hašení požárů v provozu, ale nesmí to být standard. Pokud práce týmu na provozních akcích (většina z toho je lopota) zabírá více než 50 % jeho času po delší dobu, je to nejlepší cesta k vyhoření a špatné spolehlivosti. V této situaci cykly zlepšování, které jsme probírali dříve, nemohou fungovat nebo být sestaveny. SRE podobně věnuje špatně vyvážené zatížení na volání, protože to má také potenciál silného negativního dopadu na tým.
Teď, když jsme měli možnost se seznámit s některými z hlavních postupů a principů SRE, si můžeme povědět něco o tom, jak začít.