Skydda dina molnresurser

Artikel
04/01/2025

Den här artikeln innehåller metodtips för att upprätthålla tillförlitligheten och säkerheten för din Azure-molnegendom. Tillförlitlighet säkerställer att dina molntjänster förblir i drift med minimal stilleståndstid. Säkerhet skyddar dina resursers konfidentialitet, integritet och tillgänglighet. Både tillförlitlighet och säkerhet är avgörande för lyckade molnåtgärder.

Hantera tillförlitlighet

Tillförlitlighetshantering innebär att du använder redundans, replikering och definierade återställningsstrategier för att minimera stilleståndstiden och skydda din verksamhet. tabell 1 innehåller ett exempel på tre arbetsbelastningsprioriteringar, tillförlitlighetskrav (drifttids-SLO, maximal stilleståndstid, redundans, belastningsutjämning, replikering) och exempelscenarier som överensstämmer med servicenivåmål (SLO)

Tabell 1. Exempel på arbetsbelastningsprioritet och tillförlitlighetskrav.

Prioritet	Påverkan på verksamheten	Minsta tillgänglighet SLO	Maximal stilleståndstid per månad	Arkitekturmässig redundans	Belastningsutjämning	Datareplikering och säkerhetskopior	Exempelscenario
Hög (verksamhetskritisk)	Omedelbara och allvarliga effekter på företagets rykte eller intäkter.	99,99 %	4,32 minuter	Flera regioner & Flera tillgänglighetszoner i varje region	Aktiv-aktiv	Synkron datareplikering mellan regioner & säkerhetskopior för återställning	Verksamhetskritisk referenslinje
Medel	Mätbara effekter på företagets rykte eller intäkter.	99,9%	43,20 minuter	Flera regioner & Flera tillgänglighetszoner i varje region	Aktiv-passiv	Asynkron datareplikering mellan regioner & säkerhetskopior för återställning	tillförlitligt webbappsmönster
Låg	Ingen effekt på företagets rykte, processer eller vinst.	99 %	7,20 timmar	Enskild region & flera tillgänglighetszoner	Tillgänglighetszonredundans	Synkron datareplikering mellan tillgänglighetszoner & säkerhetskopior för återställning	Baslinje för App Service Baslinje för virtuell dator

Identifiera ansvarsområden för tillförlitlighet

Tillförlitlighetsansvaret varierar beroende på distributionsmodell. Använd följande tabell för att identifiera ditt hanteringsansvar för infrastruktur (IaaS), plattform (PaaS), programvara (SaaS) och lokala distributioner.

Ansvar	På plats	IaaS (Azure)	PaaS (Azure)	SaaS
Uppgifter	✔️	✔️	✔️	✔️
Kod och körmiljö	✔️	✔️	✔️
Molnresurser	✔️	✔️	✔️
Fysisk maskinvara	✔️

Mer information finns i Delat ansvar för tillförlitlighet.

Definiera tillförlitlighetskrav

Tydligt definierade tillförlitlighetskrav är viktiga för drifttidsmål, återställning och dataförlusttolerans. Följ dessa steg för att definiera tillförlitlighetskrav:

Prioritera arbetsbelastningar. Tilldela hög, medelhög (standard) eller låg prioritet till arbetsbelastningar baserat på affärskritiskhet och finansiella investeringsnivåer. Granska regelbundet prioriteringarna för att upprätthålla anpassningen till affärsmålen.
Tilldela servicenivåmål för drifttid (SLO) till alla arbetsbelastningar. Upprätta drifttidsmål enligt arbetsbelastningsprioritet. Arbetsbelastningar med högre prioritet kräver striktare drifttidsmål. Ditt servicenivåmål påverkar din arkitektur, dina strategier för datahantering, återhämtningsprocesser och kostnader.
Identifiera servicenivåindikatorer (SLO). Använd SLO:er för att mäta drifttidsprestanda mot din SLO. Exempel är övervakning av tjänstehälsa för och felfrekvenser för .
Tilldela ett mål för återställningstid (RTO) till alla arbetsbelastningar. RTO definierar den maximala godtagbara stilleståndstiden för din arbetsbelastning. RTO bör vara kortare än din tillåtna årliga stilleståndstid. Till exempel kräver ett drifttids-SLO 99,99% mindre än 52 minuters årlig stilleståndstid (4,32 minuter per månad). Följ dessa steg:
1. Beräkna antalet fel. Beräkna hur ofta du tror att varje arbetsbelastning kan misslyckas per år. Använd dina SLI:er för arbetsbelastningar med drifthistorik. För nya arbetsbelastningar utför du en fellägesanalys för att få en korrekt uppskattning.
2. Beräkna RTO. Dela upp den årliga tillåtna stilleståndstiden med det uppskattade antalet fel. Om du uppskattar fyra fel per år måste din RTO vara 13 minuter eller mindre (52 minuter/4 fel = 13-minuters RTO).
3. Testa återställningstiden. Spåra den genomsnittliga tid det tar att återställa under redundanstester och livefel. Tiden det tar att återhämta sig från ett fel måste vara mindre än din RTO. Om din affärskontinuitetslösning tar timmar att
Definiera mål för återställningspunkter (RPO) för alla arbetsbelastningar. Avgör hur mycket dataförlust ditt företag kan tolerera. Det här målet påverkar hur ofta du replikerar och säkerhetskopierar dina data.
Definiera arbetsbelastningens tillförlitlighetsmål. För arbetsbelastningstillförlitlighetsmål, se Well-Architected Frameworks rekommendationer för att definiera tillförlitlighetsmål.

Hantera datatillförlitlighet

Datatillförlitlighet omfattar datareplikering (repliker) och säkerhetskopior (tidsbestämda kopior) för att upprätthålla tillgänglighet och konsistens. Se tabell 2 för exempel på arbetsbelastningsprioritet som är anpassad till datatillförlitlighetsmål.

Tabell 2. Arbetsbelastningsprioritet med exempel på datatillförlitlighetskonfigurationer.

Arbetsbelastningsprioritet	Drifttid SLO	Datareplikering	Säkerhetskopior av data	Exempelscenario
Högt	99,99 %	Synkron datareplikering mellan regioner Synkron datareplikering mellan tillgänglighetszoner	Hög frekvens, säkerhetskopieringar mellan regioner. Frekvens bör stödja RTO och RPO.	Verksamhetskritisk dataplattform
Medel	99,9%	Synkron datareplikering mellan regioner Synkron datareplikering mellan tillgänglighetszoner	Säkerhetskopior mellan regioner. Frekvens bör stödja RTO och RPO.	databas- och lagringslösning i mönstret Reliable Web App
Låg	99 %	Synkron datareplikering mellan tillgänglighetszoner	Säkerhetskopior mellan regioner. Frekvens bör stödja RTO och RPO.	Dataresiliens i webbappens grundkonfiguration med zonredundans

Din metod måste justera datatillförlitlighetskonfigurationerna med RTO- och RPO-kraven för dina arbetsbelastningar. Följ dessa steg:

Hantera datareplikering. Replikera dina data synkront eller asynkront enligt arbetsbelastningens RTO- och RPO-krav.

Data distribution	Datareplikering	Belastningsutjämningskonfiguration
Över tillgänglighetszoner	Synkroniserad (nästan i realtid)	De flesta PaaS-tjänster hanterar belastningsutjämning mellan zoner internt
Över olika regioner (aktiv-aktiv)	Synkroniserad	Aktiv-aktiv belastningsutjämning
Över regioner (aktiv-passiv)	Asynkron (periodisk)	Aktiv-passiv konfiguration

För mer information, se Replikering: Redundans för data.

Hantera datasäkerhetskopior. säkerhetskopieringar gäller haveriberedskap (tjänstfel), dataåterställning (borttagning eller skada) och incidenthantering (säkerhet). Säkerhetskopior måste ha stöd för dina RTO- och RPO-krav för varje arbetsbelastning. Välj säkerhetskopieringslösningar som överensstämmer med dina RTO- och RPO-mål. Föredrar azures inbyggda lösningar, till exempel inbyggda säkerhetskopior av Azure Cosmos DB och Azure SQL Database. I andra fall, inklusive lokala data, använder du Azure Backup. Mer information finns i Backup.
Utforma tillförlitlighet för arbetsbelastningsdata. Information om tillförlitlighetsdesign för arbetsbelastningar finns i Well-Architected Framework Data partitioneringsguide och Azure-tjänstguider (börja med avsnittet Tillförlitlighet).

Hantera kodens och körningstidens tillförlitlighet

Kod och driftstid är ansvar för arbetsbelastning. Följ Well-Architected Frameworks självåterställning och självbevarande guide .

Hantera tillförlitlighet för molnresurser

För att hantera tillförlitligheten för dina molnresurser krävs ofta arkitekturredundans (duplicerade tjänstinstanser) och en effektiv strategi för belastningsutjämning. Se tabell 3 för exempel på arkitekturredundans som är anpassad efter arbetsbelastningsprioritet.

Tabell 3. Exempel på arbetsbelastningsprioritet och arkitekturredundans.

Arbetsbelastningsprioritet	Arkitekturmässig redundans	Belastningsutjämningsmetod	Azure-lösning för belastningsutjämning	Exempelscenario
Högt	Tillgänglighetszoner i två regioner &	Aktiv-aktiv	Azure Front Door (HTTP) Azure Traffic Manager (non-HTTP)	Verksamhetskritisk baslinjeprogramplattform
Medel	Tillgänglighetszoner i två regioner &	Aktiv-passiv	Azure Front Door (HTTP) Azure Traffic Manager (non-HTTP)	Vägledning för arkitekturmönster för tillförlitliga webbapplikationer
Låg	Enskild regions tillgänglighetszoner &	Över tillgänglighetszoner	Azure Application Gateway Lägga till Azure Load Balancer för virtuella datorer	App Service-referenslinje Baslinje för virtuell dator

Din metod måste implementera arkitekturredundans för att uppfylla tillförlitlighetskraven för dina arbetsbelastningar. Följ dessa steg:

Beräkna drifttiden för dina arkitekturer. För varje arbetsbelastning beräknar du det sammansatta serviceavtalet. Inkludera endast tjänster som kan leda till att arbetsflödet misslyckas (kritiska vägen). Följ dessa steg:

Samla in Microsofts tjänsters drifttidsavtal för varje tjänst på den kritiska vägen för din arbetsbelastning.
Om du inte har några oberoende kritiska sökvägar beräknar du sammansatt serviceavtal för en region genom att multiplicera drifttidsprocenten för varje relevant tjänst. Om du har oberoende kritiska sökvägar går du vidare till steg 3 innan du beräknar.
När två Azure-tjänster tillhandahåller oberoende kritiska sökvägar använder du formeln för oberoende kritiska sökvägar för dessa tjänster.
För program med flera regioner anger du det sammansatta serviceavtalet för en region (N) i drifttidsformeln för flera regioner.
Jämför din beräknade drifttid med SLA för drifttid. Justera tjänstnivåer eller arkitekturredundans om det behövs.

Användningsfall	Formel	Variabler	Exempel	Förklaring
Uppskattning av drifttid för en region	N = S1 × S2 × S3 × ... × Un	N: Sammansatt SLA för Azure-tjänster på en kritisk bana i en enskild region. S: SLA-drifttidsprocent för varje Azure-tjänst. n: Totalt antal Azure-tjänster på kritisk väg.	N = 99,99% (app) × 99,95% (databas) × 99,9% (cache)	Enkel arbetsbelastning med app (99,99%), databas (99,95%) och cache (99,9%) i en enda kritisk sökväg.
Uppskattning av oberoende kritiska vägar	S1 x 1 - [(1 - S2) × (1 - S3)]	S: SLA-drifttidsprocent för Azure-tjänster som tillhandahåller oberoende kritiska sökvägar.	99,99 % (app) × (1 – [(1 – 99,95 % databas) × (1 – 99,9 % cache)])	Två oberoende kritiska vägar. Antingen kan databasen (99,95%) eller cacheminnet (99,9%) misslyckas utan avbrott.
Uppskattning av drifttid i flera regioner	M = 1 - (1 - N)^R	M: Uppskattning av drifttid i flera regioner. N: Sammansatt serviceavtal för en region. R: Antal regioner som används.	Om N = 99,95% och R = 2, då M = 1 - (1 - 99,95%)^2	Arbetsbelastning distribuerad i två regioner.

Justera tjänstnivåer. Innan du ändrar arkitekturer bör du utvärdera om olika Azure-tjänstnivåer (SKU:er) kan uppfylla dina tillförlitlighetskrav. Vissa Azure-tjänstnivåer kan ha olika serviceavtal för drifttid, till exempel Azure Managed Disks.

Lägg till arkitekturredundans. Om din nuvarande drifttidsuppskattning inte når upp till ditt servicenivåmål ökar du redundansen:

Använd flera tillgänglighetszoner. Konfigurera dina arbetsbelastningar så att de använder flera tillgänglighetszoner. Hur tillgänglighetszoner förbättrar din drifttid kan vara svårt att uppskatta. Endast ett visst antal tjänster har serviceavtal för drifttid som står för tillgänglighetszoner. Där serviceavtalen står för tillgänglighetszoner använder du dem i dina drifttidsuppskattningar. Se följande tabell för några exempel.

Azure-tjänsttyp	Azure-tjänster med serviceavtal för tillgänglighetszoner
Beräkningsplattform	App-tjänst Azure Kubernetes Service Virtuella datorer
Databutik	Azure Service Bus Azure Storage-konton Azure-cache för Redis Azure Files Premium-nivå
Databas	Azure Cosmos DB Azure SQL Database Azure-databas för MySQL Azure-databas för PostgreSQL Azure Managed Instance för Apache Cassandra
Lastbalanserare	Application Gateway
Säkerhet	Azure Firewall

Använd flera regioner. Flera regioner är ofta nödvändiga för att uppfylla drifttidsmål (SLO). Använd globala lastbalanserare (Azure Front Door eller Traffic Manager) för trafikdistribution. Arkitekturer i flera regioner kräver noggrann datakonsekvenshantering.

Hantera arkitekturredundans. Bestäm hur redundans ska användas: Du kan använda arkitekturredundans som en del av dagliga åtgärder (aktiv). Eller så kan du använda arkitekturredundans i haveriberedskapsscenarier (passiva). Exempel finns i tabell 3.
1. Belastningsutjämning mellan tillgänglighetszoner. Utnyttja all tillgänglig kapacitet aktivt. Många Azure PaaS-tjänster hanterar automatiskt belastningsutjämning mellan tillgänglighetszoner. IaaS-arbetsbelastningar måste använda en intern lastbalanserare för att lastbalansera mellan tillgänglighetszoner.
2. Belastningsutjämning mellan regioner. Avgör om arbetsbelastningar i flera regioner ska köra i aktiv-aktiv-läge eller aktiv-passiv-läge baserat på tillförlitlighetsbehov.
Hantera tjänstkonfigurationer. Tillämpa konfigurationer konsekvent på redundanta instanser av Azure-resurser, så att resurserna fungerar på samma sätt. Använd infrastruktur som kod för att upprätthålla enhetlighet. Mer information finns i Duplicera resurskonfiguration.

Utforma arbetsbelastningens tillförlitlighet. Information om tillförlitlighetsdesign för arbetsbelastningar finns i Well-Architected Framework:

Arbetsbelastningstillförlitlighet	Vägledning
Grundpelare för tillförlitlighet	Design för flera regioner med hög tillgänglighet Designa för redundans Använda tillgänglighetszoner och regioner
Tjänstguide	Azure-tjänstguider (börja med avsnittet Tillförlitlighet)

Mer information finns i Redundans.

Hantera affärskontinuitet

Återställning efter ett fel kräver en tydlig strategi för att snabbt återställa tjänster och minimera störningar för att upprätthålla användarnöjdhet. Följ dessa steg:

Förbered för fel. Skapa separata återställningsprocedurer för arbetsbelastningar baserat på höga, medelstora och låga prioriteringar. Datatillförlitlighet, kod och körningstillförlitlighetoch tillförlitlighet för molnresurser är grunden för att förbereda för fel. Välj andra återställningsverktyg som hjälper dig att förbereda affärskontinuitet. Använd till exempel Azure Site Recovery- för lokala och virtuella datorbaserade serverarbetsbelastningar.
Test- och dokumentåterställningsplan. Testa regelbundet dina redundans- och återställningsprocesser för att bekräfta att dina arbetsbelastningar uppfyller mål för återställningstid (RTO) och mål för återställningspunkter (RPO). Dokumentera tydligt varje steg i återställningsplanen för enkel referens vid incidenter. Kontrollera att återställningsverktyg, till exempel Azure Site Recovery, konsekvent uppfyller din angivna RTO.
Identifiera fel. Anta en proaktiv metod för att snabbt identifiera avbrott, även om denna metod ökar antalet falska positiva. Prioritera kundupplevelsen genom att minimera stilleståndstiden och upprätthålla användarförtroendet.
1. Övervaka fel. Övervaka arbetsbelastningar för att identifiera avbrott inom en minut. Använd Azure Service Health och Azure Resources Health- och använd Azure Monitor-aviseringar för att meddela relevanta team. Integrera dessa aviseringar med Azure DevOps- eller ITSM-verktyg (IT Service Management).
2. Samla in servicenivåindikatorer (SLO). Spåra prestanda genom att definiera och samla in mått som fungerar som SLO:er. Se till att dina team använder dessa mått för att mäta arbetsbelastningens prestanda mot dina servicenivåmål (SLO).
Svara på fel. Justera återställningssvaret efter arbetsbelastningsprioriteten. Implementera redundansprocedurer för att omdirigera begäranden till redundant infrastruktur och datarepliker omedelbart. När systemen har stabiliserats, åtgärda grundorsaken, synkronisera data och utför återställningsprocedurer. Mer information finns i Redundans och återställning efter fel.
Analysera fel. Identifiera de bakomliggande orsakerna till problemen och åtgärda sedan problemet. Dokumentera eventuella lektioner och gör nödvändiga ändringar.
Hantera arbetsbelastningsfel. Information om haveriberedskap för arbetsbelastningar finns i Well-Architected Frameworks guide för haveriberedskap och Azure-tjänstguider (börja med avsnittet Tillförlitlighet).

Azures tillförlitlighetsverktyg

Användningsfall	Lösning
Datareplikering, säkerhetskopiering och affärskontinuitet	Azure-tjänstguider (börja med avsnittet Tillförlitlighet) Snabbreferens: Azure Cosmos DB Azure SQL Database Azure Blob Storage Azure Files
Säkerhetskopiering av data	Azure Backup
Affärskontinuitet (IaaS)	Azure Site Recovery
Lastbalanserare för flera regioner	Azure Front Door (HTTP) Azure Traffic Manager (icke-HTTP)
Lastbalanserare för flera tillgänglighetszoner	Azure Application Gateway (HTTP) Azure Load Balancer (icke-HTTP)

Hantera säkerhet

Använd en iterativ säkerhetsprocess för att identifiera och minimera hot i din molnmiljö. Följ dessa steg:

Hantera säkerhetsåtgärder

Hantera dina säkerhetskontroller för att identifiera hot mot din molnegendom. Följ dessa steg:

Standardisera säkerhetsverktyg. Använd standardiserade verktyg för att identifiera hot, åtgärda sårbarheter, undersöka problem, skydda data, härda resurser och framtvinga efterlevnad i stor skala. Se Azure-säkerhetsverktyg.
Baslinje för din miljö. Dokumentera det normala tillståndet för din molnegendom. Övervaka säkerhets- och dokumentera nätverkstrafikmönster och användarbeteenden. Använd Azure-säkerhetsbaslinjer och Azure-tjänstguider för att utveckla baslinjekonfigurationer för tjänster. Den här baslinjen gör det enklare att identifiera avvikelser och potentiella säkerhetsbrister.
Tillämpa säkerhetskontroller. Implementera säkerhetsåtgärder, till exempel åtkomstkontroller, kryptering och multifaktorautentisering, stärker miljön och minskar risken för intrång. Mer information finns i Hantera säkerhet.
Tilldela säkerhetsansvar. Utse ansvar för säkerhetsövervakning i din molnmiljö. Regelbunden övervakning och jämförelser med baslinjen möjliggör snabb identifiering av incidenter, till exempel obehörig åtkomst eller ovanliga dataöverföringar. Regelbundna uppdateringar och granskningar håller säkerhetsbaslinjen effektiv mot hot som utvecklas.

Mer information finns i CAF Secure.

Hantera säkerhetsincidenter

Använd en process och verktyg för att återhämta sig från säkerhetsincidenter, till exempel utpressningstrojaner, tjänsteförnekelse eller intrång från hotaktörer. Följ dessa steg:

Förbered för incidenter. Utveckla en incidenthanteringsplan som tydligt definierar roller för undersökning, åtgärd och kommunikation. Testa regelbundet planens effektivitet. Utvärdera och implementera verktyg för sårbarhetshantering, system för hotidentifiering och lösningar för infrastrukturövervakning. Minska attackytan genom infrastrukturhärdning och skapa arbetsbelastningsspecifika återställningsstrategier. Se Översikt över incidenthantering och riktlinjer för incidenthantering.
Identifiera incidenter. Använd siem-verktyget (säkerhetsinformation och händelsehantering), till exempel Microsoft Sentinel-, för att centralisera dina säkerhetsdata. Använd Microsoft Sentinels funktioner för säkerhetsorkestrering, automatisering och svar (SOAR) för att automatisera rutinmässiga säkerhetsuppgifter. Integrera hotinformationsflöden i SIEM för att få insikter om angreppstaktiker som är relevanta för din molnmiljö. Använd Microsoft Defender for Cloud för att regelbundet söka igenom Azure efter sårbarheter. Microsoft Defender integrerar med Microsoft Sentinel för att ge en enhetlig vy över säkerhetshändelser.
Svara på incidenter. Aktivera omedelbart din incidenthanteringsplan när du identifierar en incident. Starta snabbt undersöknings- och åtgärdsprocedurer. Aktivera din plan för haveriberedskap för att återställa berörda system och tydligt förmedla incidentinformation till ditt team.
Analysera säkerhetsincidenter. Efter varje incident granskar du hotinformation och uppdaterar din incidenthanteringsplan baserat på lärdomar och insikter från offentliga resurser, till exempel MITRE ATT&CK kunskapsbas. Utvärdera effektiviteten i dina verktyg för sårbarhetshantering och identifiering och förfina strategier baserat på analys efter incident.

Mer information finns i Hantera incidenthantering (CAF Secure).

Azure-säkerhetsverktyg

Säkerhetskapacitet	Microsoft-lösning
Identitets- och åtkomsthantering	Microsoft Entra ID
Rollbaserad åtkomstkontroll	Rollbaserad Azure-åtkomstkontroll
Upptäckt av hot	Microsoft Defender för molnet
Hantering av säkerhetsinformation	Microsoft Sentinel
Datasäkerhet och styrning	Microsoft Purview
Säkerhet för molnresurser	Azure-säkerhetsbaslinjer
Molnstyrning och ledning	Azure Policy
Slutpunktssäkerhet	Microsoft Defender for Endpoint
Nätverkssäkerhet	Azure Network Watcher
Industriell säkerhet	Microsoft Defender för IoT

Nästa steg

CAF Hantera checklistan

Dela via