Vad är tillförlitlighetsteknik?

Slutförd

SRE (Site Reliability Engineering) ger programvaruutvecklare möjlighet att äga den dagliga driften av sina program i produktion. Målet är att överbrygga klyftan mellan utvecklingsteamet som behöver leverera kontinuerligt och driftteamet som ansvarar för produktionsmiljöns tillförlitlighet. Platstillförlitlighetstekniken flyttar ansvaret för produktionstillförlitligheten till SRE i utvecklingsteamet.

Tillförlitlighetstekniker för webbplatsen ägnar vanligtvis upp till 50 % av sin tid åt de dagliga uppgifter som håller programmet tillförlitligt och resten av deras tid på att utveckla programvara.

En viktig kunskap hos en programvarutillförlitlighetstekniker är att de har en djup förståelse för programmet. Detta omfattar kunskap om koden, hur programmet körs, hur det konfigureras och hur det skalar.

Några av de typiska ansvarsområdena för en platstillförlitlighetstekniker är att:

  • Övervaka och granska programprestanda proaktivt.
  • Hantera jour- och nödsupport.
  • Se till att programvaran har bra loggning och diagnostik.
  • Skapa och underhålla operativa runbooks.
  • Hjälp med att sortera eskalerade supportärenden.
  • Arbeta med funktionsbegäranden, defekter och andra utvecklingsuppgifter.
  • Bidra till den övergripande produktöversikten.
  • Utför granskningar av livewebbplatser och samla in feedback om systemfel.

Teknik för platstillförlitlighet jämfört med DevOps

DevOps skapar en hälsosam arbetsrelation mellan driftpersonalen och utvecklingsteamet. Genom att dela upp silor mellan de två producerar DevOps en mer robust och tillförlitlig produkt.

Både SRE och DevOps är metoder som hanterar en organisations behov av ett sätt att hantera produktionsmiljön. Som du har lärt dig i de tidigare modulerna kan DevOps-feedbacksystem identifiera problem och varna utvecklarna, som sedan löser problemet. Med SRE letar en person i utvecklingsteamet efter problem med webbplatsens tillförlitlighet dagligen och är förmodligen den person som löser dessa problem också. Även om DevOps-team vanligtvis skulle välja att lämna produktionsmiljön orörd om det inte är absolut nödvändigt, kommer SRE sannolikt att göra ändringar.

Tekniska kunskaper om platstillförlitlighet

Vilken typ av kompetens som behövs varierar beroende på programmet, hur och var det distribueras och hur det övervakas. Organisationer som använder serverlös teknik behöver till exempel inte någon med djupgående kunskaper om Windows- eller Linux-systemhantering. Dessa kunskaper är dock viktiga för team som använder servrar för distributioner.

Andra viktiga kunskaper för ett bra SRE-fokus på programövervakning och diagnostik. En SRE bör ha erfarenhet av programprestandahanteringsverktyg som Application Insights. De bör också förstå metodtips för programloggning och undantagshantering.