Skydda dina molnresurser
Den här artikeln innehåller metodtips för att upprätthålla tillförlitligheten och säkerheten för din Azure-molnegendom. Tillförlitlighet säkerställer att dina molntjänster förblir i drift med minimal stilleståndstid. Säkerhet skyddar dina resursers konfidentialitet, integritet och tillgänglighet. Både tillförlitlighet och säkerhet är avgörande för lyckade molnåtgärder.
Hantera tillförlitlighet
Tillförlitlighetshantering innebär att du använder redundans, replikering och definierade återställningsstrategier för att minimera stilleståndstiden och skydda din verksamhet. tabell 1 innehåller ett exempel på tre arbetsbelastningsprioriteringar, tillförlitlighetskrav (drifttids-SLO, maximal stilleståndstid, redundans, belastningsutjämning, replikering) och exempelscenarier som överensstämmer med servicenivåmål (SLO)
Tabell 1. Exempel på arbetsbelastningsprioritet och tillförlitlighetskrav.
Prioritet | Påverkan på verksamheten | Minsta tillgänglighet SLO | Maximal stilleståndstid per månad | Arkitekturmässig redundans | Belastningsutjämning | Datareplikering och säkerhetskopior | Exempelscenario |
---|---|---|---|---|---|---|---|
Hög (verksamhetskritisk) | Omedelbara och allvarliga effekter på företagets rykte eller intäkter. | 99,99 % | 4,32 minuter | Flera regioner & Flera tillgänglighetszoner i varje region | Aktiv-aktiv | Synkron datareplikering mellan regioner & säkerhetskopior för återställning | Verksamhetskritisk baslinje |
Medel | Mätbara effekter på företagets rykte eller intäkter. | 99,9% | 43,20 minuter | Flera regioner & Flera tillgänglighetszoner i varje region | Aktiv-passiv | Asynkron datareplikering mellan regioner & säkerhetskopior för återställning | tillförlitligt webbappsmönster |
Låg | Ingen effekt på företagets rykte, processer eller vinst. | 99 % | 7,20 timmar | Enskild region & flera tillgänglighetszoner | Tillgänglighetszonredundans | Synkron datareplikering mellan tillgänglighetszoner & säkerhetskopior för återställning |
App Service-baslinje Baslinje för virtuell dator |
Identifiera ansvarsområden för tillförlitlighet
Tillförlitlighetsansvaret varierar beroende på distributionsmodell. Använd följande tabell för att identifiera ditt hanteringsansvar för infrastruktur (IaaS), plattform (PaaS), programvara (SaaS) och lokala distributioner.
Ansvar | På plats | IaaS (Azure) | PaaS (Azure) | SaaS |
---|---|---|---|---|
Uppgifter | ✔️ | ✔️ | ✔️ | ✔️ |
Kod och körmiljö | ✔️ | ✔️ | ✔️ | |
Molnresurser | ✔️ | ✔️ | ✔️ | |
Fysisk maskinvara | ✔️ |
Mer information finns i Delat ansvar för tillförlitlighet.
Definiera tillförlitlighetskrav
Tydligt definierade tillförlitlighetskrav är viktiga för drifttidsmål, återställning och dataförlusttolerans. Följ dessa steg för att definiera tillförlitlighetskrav:
Prioritera arbetsbelastningar. Tilldela hög, medelhög (standard) eller låg prioritet till arbetsbelastningar baserat på affärskritiskhet och finansiella investeringsnivåer. Granska regelbundet prioriteringarna för att upprätthålla anpassningen till affärsmålen.
Tilldela servicenivåmål för drifttid (SLO) till alla arbetsbelastningar. Upprätta drifttidsmål enligt arbetsbelastningsprioritet. Arbetsbelastningar med högre prioritet kräver striktare drifttidsmål. Ditt servicenivåmål påverkar din arkitektur, dina strategier för datahantering, återhämtningsprocesser och kostnader.
Identifiera servicenivåindikatorer (SLO). Använd SLO:er för att mäta drifttidsprestanda mot din SLO. Exempel är och felfrekvenser för .
Tilldela ett mål för återställningstid (RTO) till alla arbetsbelastningar. RTO definierar den maximala godtagbara stilleståndstiden för din arbetsbelastning. RTO bör vara kortare än din tillåtna årliga stilleståndstid. Till exempel kräver ett drifttids-SLO 99,99% mindre än 52 minuters årlig stilleståndstid (4,32 minuter per månad). Följ dessa steg:
Beräkna antalet fel. Beräkna hur ofta du tror att varje arbetsbelastning kan misslyckas per år. Använd dina SLI:er för arbetsbelastningar med drifthistorik. För nya arbetsbelastningar utför du en fellägesanalys för att få en korrekt uppskattning.
Beräkna RTO. Dela upp den årliga tillåtna stilleståndstiden med det uppskattade antalet fel. Om du uppskattar fyra fel per år måste din RTO vara 13 minuter eller mindre (52 minuter/4 fel = 13-minuters RTO).
Testa återställningstiden. Spåra den genomsnittliga tid det tar att återställa under redundanstester och livefel. Tiden det tar att återhämta sig från ett fel måste vara mindre än din RTO. Om din affärskontinuitetslösning tar timmar att
Definiera mål för återställningspunkter (RPO) för alla arbetsbelastningar. Avgör hur mycket dataförlust ditt företag kan tolerera. Det här målet påverkar hur ofta du replikerar och säkerhetskopierar dina data.
Definiera arbetsbelastningens tillförlitlighetsmål. För arbetsbelastningstillförlitlighetsmål, se Well-Architected Frameworks rekommendationer för att definiera tillförlitlighetsmål.
Hantera datatillförlitlighet
Datatillförlitlighet omfattar datareplikering (repliker) och säkerhetskopior (tidsbestämda kopior) för att upprätthålla tillgänglighet och konsistens. Se tabell 2 för exempel på arbetsbelastningsprioritet som är anpassad till datatillförlitlighetsmål.
Tabell 2. Arbetsbelastningsprioritet med exempel på datatillförlitlighetskonfigurationer.
Arbetsbelastningsprioritet | Drifttids-SLO | Datareplikering | Säkerhetskopior av data | Exempelscenario |
---|---|---|---|---|
Högt | 99,99 % | Synkron datareplikering mellan regioner Synkron datareplikering mellan tillgänglighetszoner |
Hög frekvens, säkerhetskopieringar mellan regioner. Frekvens bör stödja RTO och RPO. | Verksamhetskritisk dataplattform |
Medel | 99,9% | Synkron datareplikering mellan regioner Synkron datareplikering mellan tillgänglighetszoner |
Säkerhetskopior mellan regioner. Frekvens bör stödja RTO och RPO. | databas- och lagringslösning i mönstret Reliable Web App |
Låg | 99 % | Synkron datareplikering mellan tillgänglighetszoner | Säkerhetskopieringar mellan regioner. Frekvens bör stödja RTO och RPO. | Dataåterhämtning i baslinjewebbappen med zonredundans |
Din metod måste justera datatillförlitlighetskonfigurationerna med RTO- och RPO-kraven för dina arbetsbelastningar. Följ dessa steg:
Hantera datareplikering. Replikera dina data synkront eller asynkront enligt arbetsbelastningens RTO- och RPO-krav.
Data distribution Datareplikering Belastningsutjämningskonfiguration Över tillgänglighetszoner Synkroniserad (nästan i realtid) De flesta PaaS-tjänster hanterar belastningsutjämning mellan zoner internt Över olika regioner (aktiv-aktiv) Synkroniserad Aktiv-aktiv belastningsutjämning Över regioner (aktiv-passiv) Asynkron (periodisk) Aktiv-passiv konfiguration För mer information, se Replikering: Redundans för data.
Hantera datasäkerhetskopior. säkerhetskopieringar gäller haveriberedskap (tjänstfel), dataåterställning (borttagning eller skada) och incidenthantering (säkerhet). Säkerhetskopior måste ha stöd för dina RTO- och RPO-krav för varje arbetsbelastning. Välj säkerhetskopieringslösningar som överensstämmer med dina RTO- och RPO-mål. Föredrar azures inbyggda lösningar, till exempel inbyggda säkerhetskopior av Azure Cosmos DB och Azure SQL Database. I andra fall, inklusive lokala data, använder du Azure Backup. Mer information finns i Backup.
Utforma tillförlitlighet för arbetsbelastningsdata. Information om tillförlitlighetsdesign för arbetsbelastningar finns i Well-Architected Framework Data partitioneringsguide och Azure-tjänstguider (börja med avsnittet Tillförlitlighet).
Hantera kodens och körningstidens tillförlitlighet
Kod och driftstid är ansvar för arbetsbelastning. Följ Well-Architected Frameworks självåterställning och självbevarande guide .
Hantera tillförlitlighet för molnresurser
För att hantera tillförlitligheten för dina molnresurser krävs ofta arkitekturredundans (duplicerade tjänstinstanser) och en effektiv strategi för belastningsutjämning. Se tabell 3 för exempel på arkitekturredundans som är anpassad efter arbetsbelastningsprioritet.
Tabell 3. Exempel på arbetsbelastningsprioritet och arkitekturredundans.
Arbetsbelastningsprioritet | Arkitekturredundans | Belastningsutjämningsmetod | Azure-lösning för belastningsutjämning | Exempelscenario |
---|---|---|---|---|
Högt | Tillgänglighetszoner i två regioner & | Aktiv-aktiv | Azure Front Door (HTTP) Azure Traffic Manager (icke-HTTP) |
Verksamhetskritisk baslinjeprogramplattform |
Medel | Två tillgänglighetszoner i regionen & | Aktiv-passiv | Azure Front Door (HTTP) Azure Traffic Manager (icke-HTTP-protokoll) |
Vägledning för arkitekturmönster för tillförlitliga webbapplikationer |
Låg | Enskild regions tillgänglighetszoner & | Över tillgänglighetszoner | Azure Application Gateway Lägga till Azure Load Balancer för virtuella datorer |
App Service-baslinje Baslinje för virtuell dator |
Din metod måste implementera arkitekturredundans för att uppfylla tillförlitlighetskraven för dina arbetsbelastningar. Följ dessa steg:
Beräkna drifttiden för dina arkitekturer. För varje arbetsbelastning beräknar du det sammansatta serviceavtalet. Inkludera endast tjänster som kan orsaka att arbetsbelastningen misslyckas (kritisk sökväg). Följ dessa steg:
Samla in Microsofts tjänsters drifttidsavtal för varje tjänst på den kritiska vägen för din arbetsbelastning.
Om du inte har några oberoende kritiska sökvägar beräknar du sammansatt serviceavtal för en region genom att multiplicera drifttidsprocenten för varje relevant tjänst. Om du har oberoende kritiska sökvägar går du vidare till steg 3 innan du beräknar.
När två Azure-tjänster tillhandahåller oberoende kritiska sökvägar använder du formeln för oberoende kritiska sökvägar för dessa tjänster.
För program med flera regioner anger du det sammansatta serviceavtalet för en region (N) i drifttidsformeln för flera regioner.
Jämför din beräknade drifttid med SLA för drifttid. Justera tjänstnivåer eller arkitekturredundans om det behövs.
Användningsfall Formel Variabler Exempel Förklaring Uppskattning av drifttid för en region N = S1 × S2 × S3 × ... × Un N: Sammansatt serviceavtal för Azure-tjänster på en kritisk väg med en enda region.
S: SLA-drifttidsprocent för varje Azure-tjänst.
n: Totalt antal Azure-tjänster på kritisk väg.N = 99,99% (app) × 99,95% (databas) × 99,9% (cache) Enkel arbetsbelastning med app (99,99%), databas (99,95%) och cache (99,9%) i en enda kritisk sökväg. Uppskattning av oberoende kritiska vägar S1 x 1 - [(1 - S2) × (1 - S3)] S: SLA-drifttidsprocent för Azure-tjänster som tillhandahåller oberoende kritiska sökvägar. 99.99% (app) × (1 – [(1 – 99,95% databas) × (1–99,9% cache)]) Två oberoende kritiska vägar. Antingen kan databasen (99,95%) eller cacheminnet (99,9%) misslyckas utan avbrott. Uppskattning av drifttid i flera regioner M = 1 - (1 - N)^R M: Uppskattning av drifttid i flera regioner.
N: Sammansatt serviceavtal för en region.
R: Antal regioner som används.Om N = 99,95% och R = 2, då M = 1 - (1 - 99,95%)^2 Arbetsbelastning distribuerad i två regioner. Justera tjänstnivåer. Innan du ändrar arkitekturer bör du utvärdera om olika Azure-tjänstnivåer (SKU:er) kan uppfylla dina tillförlitlighetskrav. Vissa Azure-tjänstnivåer kan ha olika serviceavtal för drifttid, till exempel Azure Managed Disks.
Lägg till arkitekturredundans. Om din nuvarande drifttidsuppskattning inte når upp till ditt servicenivåmål ökar du redundansen:
Använd flera tillgänglighetszoner. Konfigurera dina arbetsbelastningar så att de använder flera tillgänglighetszoner. Hur tillgänglighetszoner förbättrar din drifttid kan vara svårt att uppskatta. Endast ett visst antal tjänster har serviceavtal för drifttid som står för tillgänglighetszoner. Där serviceavtalen står för tillgänglighetszoner använder du dem i dina drifttidsuppskattningar. Se följande tabell för några exempel.
Azure-tjänsttyp Azure-tjänster med serviceavtal för tillgänglighetszoner Beräkningsplattform App Service,
Azure Kubernetes Service,
Virtuella datorerDatalager Azure Service Bus,
Azure Storage-konton,
Azure Cache for Redis
Azure Files Premium-nivåDatabas Azure Cosmos DB,
Azure SQL Database,
Azure Database for MySQL,
Azure-databastjänst för PostgreSQL
Azure Managed Instance för Apache CassandraLastbalanserare Application Gateway Säkerhet Azure Firewall Använd flera regioner. Flera regioner är ofta nödvändiga för att uppfylla drifttidsmål (SLO). Använd globala lastbalanserare (Azure Front Door eller Traffic Manager) för trafikdistribution. Arkitekturer i flera regioner kräver noggrann datakonsekvenshantering.
Hantera arkitekturredundans. Bestäm hur redundans ska användas: Du kan använda arkitekturredundans som en del av dagliga åtgärder (aktiv). Eller så kan du använda arkitekturredundans i haveriberedskapsscenarier (passiva). Exempel finns i tabell 3.
Belastningsutjämning mellan tillgänglighetszoner. Utnyttja all tillgänglig kapacitet aktivt. Många Azure PaaS-tjänster hanterar automatiskt belastningsutjämning mellan tillgänglighetszoner. IaaS-arbetsbelastningar måste använda en intern lastbalanserare för att lastbalansera mellan tillgänglighetszoner.
Belastningsutjämning mellan regioner. Avgör om arbetsbelastningar i flera regioner ska köra i aktiv-aktiv-läge eller aktiv-passiv-läge baserat på tillförlitlighetsbehov.
Hantera tjänstkonfigurationer. Tillämpa konfigurationer konsekvent på redundanta instanser av Azure-resurser, så att resurserna fungerar på samma sätt. Använd infrastruktur som kod för att upprätthålla enhetlighet. Mer information finns i Duplicera resurskonfiguration.
Utforma arbetsbelastningens tillförlitlighet. Information om tillförlitlighetsdesign för arbetsbelastningar finns i Well-Architected Framework:
Arbetsbelastningstillförlitlighet Vägledning Grundpelare för tillförlitlighet Design för flera regioner med hög tillgänglighet
Designa för redundans
Använda tillgänglighetszoner och regionerTjänstguide Azure-tjänstguider (börja med avsnittet Tillförlitlighet)
Mer information finns i Redundans.
Hantera affärskontinuitet
Återställning efter ett fel kräver en tydlig strategi för att snabbt återställa tjänster och minimera störningar för att upprätthålla användarnöjdhet. Följ dessa steg:
Förbered för fel. Skapa separata återställningsprocedurer för arbetsbelastningar baserat på höga, medelstora och låga prioriteringar. Datatillförlitlighet, kod och körningstillförlitlighetoch tillförlitlighet för molnresurser är grunden för att förbereda för fel. Välj andra återställningsverktyg som hjälper dig att förbereda affärskontinuitet. Använd till exempel Azure Site Recovery- för lokala och virtuella datorbaserade serverarbetsbelastningar.
Test- och dokumentåterställningsplan. Testa regelbundet dina redundans- och återställningsprocesser för att bekräfta att dina arbetsbelastningar uppfyller mål för återställningstid (RTO) och mål för återställningspunkter (RPO). Dokumentera tydligt varje steg i återställningsplanen för enkel referens vid incidenter. Kontrollera att återställningsverktyg, till exempel Azure Site Recovery, konsekvent uppfyller din angivna RTO.
Identifiera fel. Anta en proaktiv metod för att snabbt identifiera avbrott, även om denna metod ökar antalet falska positiva. Prioritera kundupplevelsen genom att minimera stilleståndstiden och upprätthålla användarförtroendet.
Övervaka fel. Övervaka arbetsbelastningar för att identifiera avbrott inom en minut. Använd Azure Service Health och Azure Resources Health- och använd Azure Monitor-aviseringar för att meddela relevanta team. Integrera dessa aviseringar med Azure DevOps- eller ITSM-verktyg (IT Service Management).
Samla in servicenivåindikatorer (SLO). Spåra prestanda genom att definiera och samla in mått som fungerar som SLO:er. Se till att dina team använder dessa mått för att mäta arbetsbelastningens prestanda mot dina servicenivåmål (SLO).
Svara på fel. Justera återställningssvaret efter arbetsbelastningsprioriteten. Implementera redundansprocedurer för att omdirigera begäranden till redundant infrastruktur och datarepliker omedelbart. När systemen har stabiliserats, åtgärda grundorsaken, synkronisera data och utför återställningsprocedurer. Mer information finns i Redundans och återställning efter fel.
Analysera fel. Identifiera de bakomliggande orsakerna till problemen och åtgärda sedan problemet. Dokumentera eventuella lektioner och gör nödvändiga ändringar.
Hantera arbetsbelastningsfel. Information om haveriberedskap för arbetsbelastningar finns i Well-Architected Frameworks guide för haveriberedskap och Azure-tjänstguider (börja med avsnittet Tillförlitlighet).
Azures tillförlitlighetsverktyg
Användningsfall | Lösning |
---|---|
Datareplikering, säkerhetskopiering och affärskontinuitet |
Azure-tjänstguider (börja med avsnittet Tillförlitlighet) Snabbreferens: Azure Cosmos DB Azure SQL Database Azure Blob Storage Azure Files |
Säkerhetskopiering av data | Azure Backup |
Affärskontinuitet (IaaS) | Azure Site Recovery |
Lastbalanserare för flera regioner |
Azure Front Door (HTTP) Azure Traffic Manager (icke-HTTP) |
Lastbalanserare för flera tillgänglighetszoner |
Azure Application Gateway (HTTP) Azure Load Balancer (icke-HTTP) |
Hantera säkerhet
Använd en iterativ säkerhetsprocess för att identifiera och minimera hot i din molnmiljö. Följ dessa steg:
Hantera säkerhetsåtgärder
Hantera dina säkerhetskontroller för att identifiera hot mot din molnegendom. Följ dessa steg:
Standardisera säkerhetsverktyg. Använd standardiserade verktyg för att identifiera hot, åtgärda sårbarheter, undersöka problem, skydda data, härda resurser och framtvinga efterlevnad i stor skala. Se Azure-säkerhetsverktyg.
Baslinje för din miljö. Dokumentera det normala tillståndet för din molnegendom. Övervaka säkerhets- och dokumentera nätverkstrafikmönster och användarbeteenden. Använd Azure-säkerhetsbaslinjer och Azure-tjänstguider för att utveckla baslinjekonfigurationer för tjänster. Den här baslinjen gör det enklare att identifiera avvikelser och potentiella säkerhetsbrister.
Tillämpa säkerhetskontroller. Implementera säkerhetsåtgärder, till exempel åtkomstkontroller, kryptering och multifaktorautentisering, stärker miljön och minskar risken för intrång. Mer information finns i Hantera säkerhet.
Tilldela säkerhetsansvar. Utse ansvar för säkerhetsövervakning i din molnmiljö. Regelbunden övervakning och jämförelser med baslinjen möjliggör snabb identifiering av incidenter, till exempel obehörig åtkomst eller ovanliga dataöverföringar. Regelbundna uppdateringar och granskningar håller säkerhetsbaslinjen effektiv mot hot som utvecklas.
Mer information finns i CAF Secure.
Hantera säkerhetsincidenter
Använd en process och verktyg för att återhämta sig från säkerhetsincidenter, till exempel utpressningstrojaner, tjänsteförnekelse eller intrång från hotaktörer. Följ dessa steg:
Förbered för incidenter. Utveckla en incidenthanteringsplan som tydligt definierar roller för undersökning, åtgärd och kommunikation. Testa regelbundet planens effektivitet. Utvärdera och implementera verktyg för sårbarhetshantering, system för hotidentifiering och lösningar för infrastrukturövervakning. Minska attackytan genom infrastrukturhärdning och skapa arbetsbelastningsspecifika återställningsstrategier. Se Översikt över incidenthantering och riktlinjer för incidenthantering.
Identifiera incidenter. Använd siem-verktyget (säkerhetsinformation och händelsehantering), till exempel Microsoft Sentinel-, för att centralisera dina säkerhetsdata. Använd Microsoft Sentinels funktioner för säkerhetsorkestrering, automatisering och svar (SOAR) för att automatisera rutinmässiga säkerhetsuppgifter. Integrera hotinformationsflöden i SIEM för att få insikter om angreppstaktiker som är relevanta för din molnmiljö. Använd Microsoft Defender for Cloud för att regelbundet söka igenom Azure efter sårbarheter. Microsoft Defender integrerar med Microsoft Sentinel för att ge en enhetlig vy över säkerhetshändelser.
Svara på incidenter. Aktivera omedelbart din incidenthanteringsplan när du identifierar en incident. Starta snabbt undersöknings- och åtgärdsprocedurer. Aktivera din plan för haveriberedskap för att återställa berörda system och tydligt förmedla incidentinformation till ditt team.
Analysera säkerhetsincidenter. Efter varje incident granskar du hotinformation och uppdaterar din incidenthanteringsplan baserat på lärdomar och insikter från offentliga resurser, till exempel MITRE ATT&CK kunskapsbas. Utvärdera effektiviteten i dina verktyg för sårbarhetshantering och identifiering och förfina strategier baserat på analys efter incident.
Mer information finns i Hantera incidenthantering (CAF Secure).
Azure-säkerhetsverktyg
Säkerhetskapacitet | Microsoft-lösning |
---|---|
Identitets- och åtkomsthantering | Microsoft Entra ID |
Rollbaserad åtkomstkontroll | Rollbaserad Azure-åtkomstkontroll |
Upptäckt av hot | Microsoft Defender för molnet |
Hantering av säkerhetsinformation | Microsoft Sentinel |
Datasäkerhet och styrning | Microsoft Purview |
Säkerhet för molnresurser | Azure-säkerhetsbaslinjer |
Molnstyrning och ledning | Azure Policy |
Slutpunktssäkerhet | Microsoft Defender for Endpoint |
Nätverkssäkerhet | Azure Network Watcher |
Industriell säkerhet | Microsoft Defender för IoT |