Lärdomar
- Se till att alla inblandade parter förstår skillnaden mellan hög tillgänglighet (HA) och haveriberedskap (DR): en vanlig fallgrop är att förvirra de två begreppen och matcha de lösningar som är associerade med dem.
- Diskutera med affärsintressenterna om deras förväntningar på följande aspekter för att definiera mål för återställningspunkter och mål för återställningstid:
- Hur mycket stilleståndstid de kan tolerera, med tanke på att vanligtvis, ju snabbare återställning, desto högre kostnad.
- Den typ av incidenter som de vill skyddas från och som nämner den relaterade sannolikheten för en sådan händelse. Sannolikheten för att en server går ned är till exempel högre än en naturkatastrof som påverkar alla datacenter i en region.
- Vilken inverkan har systemet som inte är tillgängligt på deras verksamhet?
- Opex-budgeten (operational expenses) för lösningen framöver.
- Överväg vilka degraderade tjänstalternativ som slutanvändarna kan acceptera. Dessa kan omfatta:
- Fortfarande har åtkomst till instrumentpaneler för visualisering även utan de senaste data som är, om inmatningspipelines inte fungerar, har slutanvändarna fortfarande åtkomst till sina data.
- Har läsåtkomst men ingen skrivåtkomst.
- Dina MÅL-RTO- och RPO-mått kan definiera vilken strategi för haveriberedskap du väljer att implementera:
- Aktiv/aktiv.
- Aktiv/passiv.
- Aktiv/omdistribuera vid haveri.
- Överväg ditt eget SLO (Composite Service Level Objective) för att ta hänsyn till de tolerabla driftstoppen.
- Se till att du förstår alla komponenter som kan påverka tillgängligheten för dina system, till exempel:
- Identitetshantering.
- Nätverkstopologi.
- Hantering av hemlighet/nyckel.
- Datakällor.
- Automation/jobbschemaläggare.
- Källlagringsplats och distributionspipelines (GitHub, Azure DevOps).
- Tidig identifiering av avbrott är också ett sätt att minska RTO- och RPO-värden avsevärt. Här följer några aspekter som bör tas upp:
- Definiera vad ett avbrott är och hur det mappar till Microsofts definition av ett avbrott. Microsoft-definitionen är tillgänglig på sidan Med serviceavtal (SLA) i Azure på produkt- eller tjänstnivå.
- Ett effektivt övervaknings- och aviseringssystem med ansvariga team för att granska dessa mått och aviseringar i tid hjälper till att uppnå målet.
- När det gäller prenumerationsdesign kan ytterligare infrastruktur för haveriberedskap lagras i den ursprungliga prenumerationen. PaaS-tjänster (platform as a service) som Azure Data Lake Storage Gen2 eller Azure Data Factory har vanligtvis inbyggda funktioner som tillåter redundansväxling till sekundära instanser i andra regioner medan de finns kvar i den ursprungliga prenumerationen. Vissa kunder kanske vill överväga att ha en dedikerad resursgrupp för resurser som endast används i DR-scenarier i kostnadssyfte.
- Det bör noteras att prenumerationsgränser kan fungera som en begränsning för den här metoden.
- Andra begränsningar kan vara designkomplexitets- och hanteringskontroller för att säkerställa att DR-resursgrupperna inte används för BAU-arbetsflöden (business-as-usual).
- Utforma DR-arbetsflödet baserat på en lösnings kritiskhet och beroenden. Försök till exempel inte återskapa en Azure Analysis Services-instans innan informationslagret är igång eftersom det utlöser ett fel. Lämna utvecklingslabb senare i processen och återställ kärnlösningar för företag först.
- Försök att identifiera återställningsuppgifter som kan parallelliseras mellan lösningar, vilket minskar den totala rto-funktionen.
- Om Azure Data Factory används i en lösning ska du inte glömma att inkludera integrationskörningar med egen värd i omfånget. Azure Site Recovery är perfekt för dessa datorer.
- Manuella åtgärder bör automatiseras så mycket som möjligt för att undvika mänskliga fel, särskilt när det är under press. Vi rekommenderar att du:
- Anta resursetablering via Bicep, ARM-mallar eller PowerShell-skript.
- Anta versionshantering av källkod och resurskonfiguration.
- Använd CI/CD-versionspipelines i stället för click-ops.
- Eftersom du har en plan för redundans bör du överväga procedurer för att återställa till de primära instanserna.
- Definiera tydliga indikatorer och mått för att verifiera att redundansväxlingen har lyckats och att lösningarna är igång eller att situationen är tillbaka till det normala (även kallat primär funktionell).
- Bestäm om dina serviceavtal ska förbli desamma efter en redundansväxling eller om du tillåter degraderad tjänst.
- Det här beslutet beror i hög grad på vilken affärstjänstprocess som stöds. Redundansväxlingen för ett rumsbokningssystem ser till exempel mycket annorlunda ut än ett kärndriftsystem.
- En RTO/RPO-definition bör baseras på specifika användarscenarier snarare än på infrastrukturnivå. Om du gör det får du mer detaljerad information om vilka processer och komponenter som ska återställas först om det uppstår ett avbrott eller en katastrof.
- Se till att du inkluderar kapacitetskontroller i målregionen innan du går vidare med en redundansväxling: Om det uppstår en större katastrof bör du vara medveten om att många kunder försöker redundansväxlar till samma kopplade region samtidigt, vilket kan orsaka fördröjningar eller konkurrens vid etablering av resurserna.
- Om dessa risker är oacceptabla bör antingen en aktiv/aktiv eller aktiv/passiv DR-strategi övervägas.
- En haveriberedskapsplan bör skapas och underhållas för att dokumentera återställningsprocessen och åtgärdsägarna. Tänk också på att personer kan vara ledighetsbara, så se till att inkludera sekundära kontakter.
- Regelbundna haveriberedskapstest bör utföras för att verifiera arbetsflödet för haveriberedskapsplanen, att det uppfyller de nödvändiga RTO/RPO:erna och för att träna de ansvariga teamen.
- Data- och konfigurationssäkerhetskopior bör också regelbundet testas för att säkerställa att de är "lämpliga för ändamålet" för att stödja återställningsaktiviteter.
- Tidigt samarbete med team som ansvarar för nätverks-, identitets- och resursetablering möjliggör en överenskommelse om den mest optimala lösningen när det gäller:
- Så här omdirigerar du användare och trafik från din primära till den sekundära platsen. Begrepp som DNS-omdirigering eller användning av specifika verktyg som Azure Traffic Manager kan utvärderas.
- Så här ger du åtkomst och rättigheter till den sekundära platsen i tid och på ett säkert sätt.
- Vid en katastrof är effektiv kommunikation mellan de många berörda parterna nyckeln till ett effektivt och snabbt genomförande av planen. Teams kan innehålla:
- Beslutsfattare.
- Incidenthanteringsteamet.
- Berörda interna användare och team.
- Externa team.
- Orkestrering av de olika resurserna vid rätt tidpunkt säkerställer effektiviteten i haveriberedskapsplanens körning.
Att tänka på
Antimönster
- Kopiera/klistra in den här artikelserien Den här artikelserien är avsedd att ge vägledning till kunder som letar efter nästa detaljnivå för en Azure-specifik DR-process. Därför baseras den på microsofts allmänna IP- och referensarkitekturer snarare än någon enskild kundspecifik Azure-implementering.
Även om informationen som tillhandahålls hjälper till att stödja en solid grundläggande förståelse, måste kunderna tillämpa sin egen specifika kontext, implementering och krav innan de får en dr-strategi och process som passar för ändamålet.
Att behandla dr som en teknikbaserad process Affärsintressenter spelar en viktig roll när det gäller att definiera kraven för dr och slutföra de affärsvalideringssteg som krävs för att bekräfta en tjänståterställning. Att se till att affärsintressenter är engagerade i alla DR-aktiviteter ger en dr-process som är "lämplig för ändamålet", representerar affärsvärde och är körbar.
"Ange och glöm" DR-planer Azure utvecklas ständigt, liksom enskilda kunders användning av olika komponenter och tjänster. En dr-process som är lämplig för ändamålet måste utvecklas med dem. Antingen via processen för programvaruutvecklingslivscykel (SDLC) eller periodiska granskningar bör kunderna regelbundet gå tillbaka till sin DR-plan. Målet är att säkerställa att tjänståterställningsplanen är giltig och att alla deltan mellan komponenter, tjänster eller lösningar har redovisats.
Pappersbaserade utvärderingar Även om slutpunkt-till-slutpunkt-simuleringen av en DR-händelse kommer att vara svår i ett modernt data eco-system, bör ansträngningar göras för att komma så nära en fullständig simulering av berörda komponenter som möjligt. Regelbundet schemalagda övningar skapar det "muskelminne" som krävs av organisationen för att kunna köra DR-planen med tillförsikt.
Om Microsoft förlitar sig på att göra allt inom Microsoft Azure-tjänsterna finns det en tydlig ansvarsfördelning, förankrad av molntjänstnivån som används: Även om en fullständig SaaS-stack (programvara som en tjänst) används, behåller kunden fortfarande ansvaret för att säkerställa att konton, identiteter och data är korrekta/uppdaterade, tillsammans med de enheter som används för att interagera med Azure-tjänsterna.
Händelseomfång och strategi
Omfång för haveriberedskap
Olika händelser har olika effektomfång och därför ett annat svar. Följande diagram visar detta för en katastrofhändelse:
Alternativ för haveristrategi
Det finns fyra övergripande alternativ för en strategi för haveriberedskap:
- Vänta på Microsoft – Som namnet antyder är lösningen offline tills den fullständiga återställningen av tjänster i den berörda regionen av Microsoft. När lösningen har återställts verifieras den av kunden och uppdateras sedan för tjänståterställning.
- Omdistribuera vid haveri – Lösningen distribueras om manuellt till en tillgänglig region från grunden, efter en katastrofhändelse.
- Warm Spare (Aktiv/Passiv) – En sekundär värdbaserad lösning skapas i en alternativ region och komponenter distribueras för att garantera minimal kapacitet. Komponenterna tar dock inte emot produktionstrafik. Sekundära tjänster i den alternativa regionen kan vara "avstängda" eller köras på en lägre prestandanivå tills en DR-händelse inträffar.
- Hot Spare (Aktiv/Aktiv) – Lösningen finns i en aktiv/aktiv installation i flera regioner. Den sekundära värdbaserade lösningen tar emot, bearbetar och hanterar data som en del av det större systemet.
Påverkan på DR-strategin
Även om driftskostnaderna som tillskrivs de högre nivåerna av tjänståterhämtning ofta dominerar KDD (Key Design Decision) för en DR-strategi. Det finns andra viktiga överväganden.
Kommentar
Kostnadsoptimering är en av de fem grundpelarna för arkitektonisk excellens med Azure Well-Architected Framework. Målet är att minska onödiga utgifter och förbättra driftseffektiviteten.
Dr-scenariot för det här arbetsexemplet är ett fullständigt regionalt avbrott i Azure som direkt påverkar den primära region som är värd för Contoso Data Platform. För det här avbrottsscenariot är den relativa effekten på de fyra högnivåstrategierna för haveriberedskap:
Klassificeringsnyckel
- Mål för återställningstid (RTO): Den förväntade tiden från haverihändelsen till plattformstjänstens återställning.
- Komplexitet att köra: Komplexiteten för organisationen att köra återställningsaktiviteterna.
- Komplexitet att implementera: Komplexiteten för organisationen att implementera DR-strategin.
- Påverkan på kunderna: Den direkta effekten för kunderna i dataplattformstjänsten från DR-strategin.
- Opex-kostnad över rad: Den extra kostnad som förväntas av implementeringen av den här strategin, till exempel ökad månatlig fakturering för Azure för ytterligare komponenter och ytterligare resurser som krävs för att stödja.
Kommentar
Tabellen ovan bör läsas som en jämförelse mellan alternativen – en strategi som har en grön indikator är bättre för den klassificeringen än en annan strategi med en gul eller röd indikator.
Nästa steg
Nu när du har lärt dig om rekommendationerna i scenariot kan du lära dig hur du distribuerar det här scenariot