Aan de slag met SRE

Voltooid

Als laatste eenheid in deze module, vertellen we welke wegen u kunt bewandelen als u SRE verder wilt verkennen.

Lezen en kijken

Een goede bron voor meer gedetailleerde informatie over SRE is een drietal boeken dat over dit onderwerp is gepubliceerd:

  1. Site Reliability Engineering: How Google Runs Production Systems (ook wel bekend als 'The SRE Book')
  2. The Site Reliability Workbook: Practical Ways to Implement SRE (ook wel bekend als 'The SRE Workbook')
  3. Seeking SRE: Conversations About Running Production Systems at Scale

(De primaire auteur van deze module is overigens ook de samensteller/redacteur van het derde boek.)

Elk van deze boeken bevat belangrijke informatie:

  • Het SRE Book: Biedt een gedetailleerde uitleg over hoe Google SRE in de loop der jaren heeft geïmplementeerd.

  • De SRE-werkmap: een aanvulling op het SRE-boek dat een gedetailleerdere uitleg biedt van niet alleen de 'wat' van SRE bij Google en een paar andere plaatsen, maar het 'hoe' en 'waarom'.

  • Op zoek naar SRE: Biedt een uitgebreider beeld van de SRE-wereld buiten de oorsprong, inclusief informatie over hoe deze is geïmplementeerd in andere omgevingen.

Lees de drie boeken met een kritisch oog. Niet alles wat in deze boeken is geschreven, kan van toepassing zijn op u en uw organisatie. Neem even de tijd om de informatie te identificeren die u zeker weet, een positieve waarde kan bieden. Bedenk welke onderdelen van de cultuur en waarden van uw organisatie SRE-werkzaamheden kunnen ondersteunen zoals wordt beschreven en welke onderdelen een grotere uitdaging vormen.

Als u merkt dat u meer visueel bent, bekijkt u de talk Keys to SRE van Ben Treynor op de SREcon14-conferentie. Treynor biedt een cogente uitleg van wat SRE (in ieder geval in de Google-context) is. Andere opgenomen gesprekken over SRE uit deze conferentiereeks en andere kunnen ook nuttig zijn.

Praat met andere geïnteresseerde personen

Hoewel het belangrijk is om u in te lezen over SRE, is het vaak nog belangrijker om het onderwerp met collega's te bespreken. Als u een discussie hebt over uw uitdagingen, successen en mislukkingen rond SRE, kan het van cruciaal belang zijn om een genuanceerd begrip van het onderwerp te krijgen.

Er zijn veel meetups en conferenties met SRE-inhoud. Het meest relevant zijn misschien de wereldwijd gedistribueerde SREcon-conferenties die worden georganiseerd door USENIX (disclaimer: de primaire auteur van deze module is een van de medeoprichters van SREcon).

Nog meer SRE-inhoud maakt zijn weg naar conferenties zoals Velocity, LISA en lokale DevOps-conferenties zoals DevOps Days. Zoek deze inhoud en anderen die geïnteresseerd zijn in het onderwerp, waar u maar kunt.

Eerste stappen op het werk

Het is belangrijk om te onthouden dat SRE geen 'alles of niets'-voorstel is. Als u wilt beginnen met het verkennen van hoe u SRE in uw omgeving brengt, kunt u in kleine stappen beginnen met het aannemen van SRE-principes en -procedures.

Mikey Dickerson is een bekende SRE op basis van zijn werk in wat de Verenigde Staten Digital Service zou worden. Ze waren verantwoordelijk voor het redden van healthcare.gov. Hij heeft een betrouwbaarheidshiërarchie voorgesteld in de hiërarchie van Maslow. Het wordt vermeld in de sectie Practices van het eerste SRE-boek.

Deze hiërarchie stelt voor dat u eerst functionele en betrouwbare bewaking in uw omgeving moet krijgen. Bewaking moet ook een eerste stap zijn in de richting van SRE voor uw omgeving. U weet niet of iets betrouwbaar is (of beter of slechter wordt) als u de betrouwbaarheid niet kunt meten.

Zodra u een bewakingsplatform hebt dat u kunt vertrouwen, is de volgende bereikbaar stap het kiezen van een service op het werk. Begin vervolgens SLI- en SLO-gesprekken te voeren. Begin eenvoudig. Maak SLO's en SLO's voor de service, implementeer ze in uw bewakingssysteem en kijk wat er gebeurt wanneer u met behulp van de SRE-lens aandacht besteedt aan betrouwbaarheid. Deze stappen zijn een geweldige plek om te beginnen.