Začínáme se SRE
V závěrečné jednotce tohoto modulu si povíme o tom, kam dál, pokud vás zajímá další objevování SRE.
Čtení a sledování
Nejlepším zdrojem podrobných informací o SRE je trojice knih, vydaných na toto téma
- Site Reliability Engineering: How Google Runs Production Systems (Site Reliability Engineering: Jak Google provozuje produkční systémy, známý také jako „The SRE Book“)
- The Site Reliability Workbook: Practical Ways to Implement SRE (Pracovní sešit SRE: Praktické způsoby implementace SRE, známá také jako „The SRE Workbook“)
- Seeking SRE: Conversations About Running Production Systems at Scale (Hledání SRE: Rozhovory o provozování produkčních systémů ve velkém)
(Upozornění: Hlavní autor tohoto modulu je zároveň editorem třetí knihy.)
Každá z těchto knih přináší důležitou sadu informací:
Kniha SRE: Poskytuje podrobné vysvětlení toho, jak Společnost Google implementovala SRE v průběhu let.
Sešit SRE: Společník knihy SRE, který poskytuje podrobnější vysvětlení nejen "co" SRE v Googlu a několik dalších míst, ale "jak" a "proč".
Hledání SRE: Poskytuje rozsáhlejší pohled na svět SRE nad rámec svého původu, včetně informací o tom, jak byla implementována v jiných prostředích.
Nezapomeňte ke všem třem knihám přistupovat kriticky a s odstupem. Ne všechno napsané v těchto knihách se může vztahovat na vás a vaši organizaci. Nějakou dobu zajistěte, abyste identifikovali informace, které jste si jisti, můžou poskytnout určitou kladnou hodnotu. Zamyslete se, která část vaší firemní kultury a hodnot již v zásadě je v souladu s činnostmi SRE tak, jak jsme je popsali, a v jakých oblastech by byla implementace náročnější.
Pokud zjistíte, že jste více vizuální osoba, zkuste sledovat talk Keys to SRE ben Treynor na konferenci SREcon14. Treynor poskytuje vysvětlení toho, co je SRE (alespoň v kontextu Google). Další zaznamenané přednášky o SRE z této série konferencí a další mohou být užitečné.
Komunikujte s ostatními zainteresovanými lidmi
Jakkoli je čtení o SRE důležité, diskuze s kolegy na toto téma může být často mnohem přínosnější. Když budete diskutovat o svých problémech, úspěchu a selháních, které se týkají SRE, může být zásadní pro získání nuancí porozumění předmětu.
Existuje mnoho meetupů a konferencí, které obsahují obsah SRE. Asi nejvíce k tématu jsou konference SREcon pořádané společností USENIX (prohlášení: Hlavní autor tohoto modulu je jedním ze spoluzakladatelů konferencí SREcon).
Ještě více obsahu SRE vytváří cestu ke konferencím, jako je Velocity, LISA a místní konference DevOps, jako je DevOps Days. Hledejte SRE a ty, kteří se jím zabývají, kdekoli jen můžete.
První kroky v práci
Je důležité si uvědomit, že SRE není "vše nebo nic". Pokud chcete začít zkoumat, jak přenést SRE do vašeho prostředí, můžete začít používat principy a postupy SRE v malých krocích.
Mikey Dickerson je známý SRE založený na jeho práci na tom, co by se stalo USA digitální služby. Byli zodpovědní za záchranu healthcare.gov. Navrhl hierarchii spolehlivosti v maslowské hierarchii potřeb. Uvádí se v části Postupy první knihy SRE.
Tato hierarchie navrhuje, abyste nejprve získali funkční a důvěryhodné monitorování ve vašem prostředí. Monitorování musí být prvním krokem k SRE i pro vaše prostředí. Nemůžete říct, jestli je něco spolehlivé (jestli se to zlepšuje nebo zhoršuje), když to nedokážete změřit.
Jakmile máte monitorovací platformu, které můžete důvěřovat, dalším dostupným krokem je vybrat službu v práci. Pak o tom začněte komunikovat SLI a SLO. Začněte jednoduše. Vytvořte rozhraní SLA a cíle úrovně služeb pro službu, implementujte je do monitorovacího systému a podívejte se, co se stane, když začnete věnovat pozornost spolehlivosti pomocí SRE lens. Tento postup je skvělým místem, kde začít.