Dela via


Skydda dina molnresurser

Den här artikeln innehåller metodtips för att upprätthålla tillförlitligheten och säkerheten för din Azure-molnegendom. Tillförlitlighet säkerställer att dina molntjänster förblir i drift med minimal stilleståndstid. Säkerhet skyddar dina resursers konfidentialitet, integritet och tillgänglighet. Både tillförlitlighet och säkerhet är avgörande för lyckade molnåtgärder.

diagram som visar CAF-hanteringsprocessen: klar, administrera, övervaka och skydda (RAMP).

Hantera tillförlitlighet

Tillförlitlighetshantering innebär att du använder redundans, replikering och definierade återställningsstrategier för att minimera stilleståndstiden och skydda din verksamhet. tabell 1 innehåller ett exempel på tre arbetsbelastningsprioriteringar, tillförlitlighetskrav (drifttids-SLO, maximal stilleståndstid, redundans, belastningsutjämning, replikering) och exempelscenarier som överensstämmer med servicenivåmål (SLO)

Tabell 1. Exempel på arbetsbelastningsprioritet och tillförlitlighetskrav.

Prioritet Påverkan på verksamheten Minsta tillgänglighet SLO Maximal stilleståndstid per månad Arkitekturmässig redundans Belastningsutjämning Datareplikering och säkerhetskopior Exempelscenario
Hög (verksamhetskritisk) Omedelbara och allvarliga effekter på företagets rykte eller intäkter. 99,99 % 4,32 minuter Flera regioner & Flera tillgänglighetszoner i varje region Aktiv-aktiv Synkron datareplikering mellan regioner & säkerhetskopior för återställning Verksamhetskritisk baslinje
Medel Mätbara effekter på företagets rykte eller intäkter. 99,9% 43,20 minuter Flera regioner & Flera tillgänglighetszoner i varje region Aktiv-passiv Asynkron datareplikering mellan regioner & säkerhetskopior för återställning tillförlitligt webbappsmönster
Låg Ingen effekt på företagets rykte, processer eller vinst. 99 % 7,20 timmar Enskild region & flera tillgänglighetszoner Tillgänglighetszonredundans Synkron datareplikering mellan tillgänglighetszoner & säkerhetskopior för återställning App Service-baslinje
Baslinje för virtuell dator

Identifiera ansvarsområden för tillförlitlighet

Tillförlitlighetsansvaret varierar beroende på distributionsmodell. Använd följande tabell för att identifiera ditt hanteringsansvar för infrastruktur (IaaS), plattform (PaaS), programvara (SaaS) och lokala distributioner.

Ansvar På plats IaaS (Azure) PaaS (Azure) SaaS
Uppgifter ✔️ ✔️ ✔️ ✔️
Kod och körmiljö ✔️ ✔️ ✔️
Molnresurser ✔️ ✔️ ✔️
Fysisk maskinvara ✔️

Mer information finns i Delat ansvar för tillförlitlighet.

Definiera tillförlitlighetskrav

Tydligt definierade tillförlitlighetskrav är viktiga för drifttidsmål, återställning och dataförlusttolerans. Följ dessa steg för att definiera tillförlitlighetskrav:

  1. Prioritera arbetsbelastningar. Tilldela hög, medelhög (standard) eller låg prioritet till arbetsbelastningar baserat på affärskritiskhet och finansiella investeringsnivåer. Granska regelbundet prioriteringarna för att upprätthålla anpassningen till affärsmålen.

  2. Tilldela servicenivåmål för drifttid (SLO) till alla arbetsbelastningar. Upprätta drifttidsmål enligt arbetsbelastningsprioritet. Arbetsbelastningar med högre prioritet kräver striktare drifttidsmål. Ditt servicenivåmål påverkar din arkitektur, dina strategier för datahantering, återhämtningsprocesser och kostnader.

  3. Identifiera servicenivåindikatorer (SLO). Använd SLO:er för att mäta drifttidsprestanda mot din SLO. Exempel är och felfrekvenser för .

  4. Tilldela ett mål för återställningstid (RTO) till alla arbetsbelastningar. RTO definierar den maximala godtagbara stilleståndstiden för din arbetsbelastning. RTO bör vara kortare än din tillåtna årliga stilleståndstid. Till exempel kräver ett drifttids-SLO 99,99% mindre än 52 minuters årlig stilleståndstid (4,32 minuter per månad). Följ dessa steg:

    1. Beräkna antalet fel. Beräkna hur ofta du tror att varje arbetsbelastning kan misslyckas per år. Använd dina SLI:er för arbetsbelastningar med drifthistorik. För nya arbetsbelastningar utför du en fellägesanalys för att få en korrekt uppskattning.

    2. Beräkna RTO. Dela upp den årliga tillåtna stilleståndstiden med det uppskattade antalet fel. Om du uppskattar fyra fel per år måste din RTO vara 13 minuter eller mindre (52 minuter/4 fel = 13-minuters RTO).

    3. Testa återställningstiden. Spåra den genomsnittliga tid det tar att återställa under redundanstester och livefel. Tiden det tar att återhämta sig från ett fel måste vara mindre än din RTO. Om din affärskontinuitetslösning tar timmar att

  5. Definiera mål för återställningspunkter (RPO) för alla arbetsbelastningar. Avgör hur mycket dataförlust ditt företag kan tolerera. Det här målet påverkar hur ofta du replikerar och säkerhetskopierar dina data.

  6. Definiera arbetsbelastningens tillförlitlighetsmål. För arbetsbelastningstillförlitlighetsmål, se Well-Architected Frameworks rekommendationer för att definiera tillförlitlighetsmål.

Hantera datatillförlitlighet

Datatillförlitlighet omfattar datareplikering (repliker) och säkerhetskopior (tidsbestämda kopior) för att upprätthålla tillgänglighet och konsistens. Se tabell 2 för exempel på arbetsbelastningsprioritet som är anpassad till datatillförlitlighetsmål.

Tabell 2. Arbetsbelastningsprioritet med exempel på datatillförlitlighetskonfigurationer.

Arbetsbelastningsprioritet Drifttids-SLO Datareplikering Säkerhetskopior av data Exempelscenario
Högt 99,99 % Synkron datareplikering mellan regioner

Synkron datareplikering mellan tillgänglighetszoner
Hög frekvens, säkerhetskopieringar mellan regioner. Frekvens bör stödja RTO och RPO. Verksamhetskritisk dataplattform
Medel 99,9% Synkron datareplikering mellan regioner

Synkron datareplikering mellan tillgänglighetszoner
Säkerhetskopior mellan regioner. Frekvens bör stödja RTO och RPO. databas- och lagringslösning i mönstret Reliable Web App
Låg 99 % Synkron datareplikering mellan tillgänglighetszoner Säkerhetskopieringar mellan regioner. Frekvens bör stödja RTO och RPO. Dataåterhämtning i baslinjewebbappen med zonredundans

Din metod måste justera datatillförlitlighetskonfigurationerna med RTO- och RPO-kraven för dina arbetsbelastningar. Följ dessa steg:

  1. Hantera datareplikering. Replikera dina data synkront eller asynkront enligt arbetsbelastningens RTO- och RPO-krav.

    Data distribution Datareplikering Belastningsutjämningskonfiguration
    Över tillgänglighetszoner Synkroniserad (nästan i realtid) De flesta PaaS-tjänster hanterar belastningsutjämning mellan zoner internt
    Över olika regioner (aktiv-aktiv) Synkroniserad Aktiv-aktiv belastningsutjämning
    Över regioner (aktiv-passiv) Asynkron (periodisk) Aktiv-passiv konfiguration

    För mer information, se Replikering: Redundans för data.

  2. Hantera datasäkerhetskopior. säkerhetskopieringar gäller haveriberedskap (tjänstfel), dataåterställning (borttagning eller skada) och incidenthantering (säkerhet). Säkerhetskopior måste ha stöd för dina RTO- och RPO-krav för varje arbetsbelastning. Välj säkerhetskopieringslösningar som överensstämmer med dina RTO- och RPO-mål. Föredrar azures inbyggda lösningar, till exempel inbyggda säkerhetskopior av Azure Cosmos DB och Azure SQL Database. I andra fall, inklusive lokala data, använder du Azure Backup. Mer information finns i Backup.

  3. Utforma tillförlitlighet för arbetsbelastningsdata. Information om tillförlitlighetsdesign för arbetsbelastningar finns i Well-Architected Framework Data partitioneringsguide och Azure-tjänstguider (börja med avsnittet Tillförlitlighet).

Hantera kodens och körningstidens tillförlitlighet

Kod och driftstid är ansvar för arbetsbelastning. Följ Well-Architected Frameworks självåterställning och självbevarande guide .

Hantera tillförlitlighet för molnresurser

För att hantera tillförlitligheten för dina molnresurser krävs ofta arkitekturredundans (duplicerade tjänstinstanser) och en effektiv strategi för belastningsutjämning. Se tabell 3 för exempel på arkitekturredundans som är anpassad efter arbetsbelastningsprioritet.

Tabell 3. Exempel på arbetsbelastningsprioritet och arkitekturredundans.

Arbetsbelastningsprioritet Arkitekturredundans Belastningsutjämningsmetod Azure-lösning för belastningsutjämning Exempelscenario
Högt Tillgänglighetszoner i två regioner & Aktiv-aktiv Azure Front Door (HTTP)

Azure Traffic Manager (icke-HTTP)
Verksamhetskritisk baslinjeprogramplattform
Medel Två tillgänglighetszoner i regionen & Aktiv-passiv Azure Front Door (HTTP)

Azure Traffic Manager (icke-HTTP-protokoll)
Vägledning för arkitekturmönster för tillförlitliga webbapplikationer
Låg Enskild regions tillgänglighetszoner & Över tillgänglighetszoner Azure Application Gateway

Lägga till Azure Load Balancer för virtuella datorer
App Service-baslinje
Baslinje för virtuell dator

Din metod måste implementera arkitekturredundans för att uppfylla tillförlitlighetskraven för dina arbetsbelastningar. Följ dessa steg:

  1. Beräkna drifttiden för dina arkitekturer. För varje arbetsbelastning beräknar du det sammansatta serviceavtalet. Inkludera endast tjänster som kan orsaka att arbetsbelastningen misslyckas (kritisk sökväg). Följ dessa steg:

    1. Samla in Microsofts tjänsters drifttidsavtal för varje tjänst på den kritiska vägen för din arbetsbelastning.

    2. Om du inte har några oberoende kritiska sökvägar beräknar du sammansatt serviceavtal för en region genom att multiplicera drifttidsprocenten för varje relevant tjänst. Om du har oberoende kritiska sökvägar går du vidare till steg 3 innan du beräknar.

    3. När två Azure-tjänster tillhandahåller oberoende kritiska sökvägar använder du formeln för oberoende kritiska sökvägar för dessa tjänster.

    4. För program med flera regioner anger du det sammansatta serviceavtalet för en region (N) i drifttidsformeln för flera regioner.

    5. Jämför din beräknade drifttid med SLA för drifttid. Justera tjänstnivåer eller arkitekturredundans om det behövs.

    Användningsfall Formel Variabler Exempel Förklaring
    Uppskattning av drifttid för en region N = S1 × S2 × S3 × ... × Un N: Sammansatt serviceavtal för Azure-tjänster på en kritisk väg med en enda region.
    S: SLA-drifttidsprocent för varje Azure-tjänst.
    n: Totalt antal Azure-tjänster på kritisk väg.
    N = 99,99% (app) × 99,95% (databas) × 99,9% (cache) Enkel arbetsbelastning med app (99,99%), databas (99,95%) och cache (99,9%) i en enda kritisk sökväg.
    Uppskattning av oberoende kritiska vägar S1 x 1 - [(1 - S2) × (1 - S3)] S: SLA-drifttidsprocent för Azure-tjänster som tillhandahåller oberoende kritiska sökvägar. 99.99% (app) × (1 – [(1 – 99,95% databas) × (1–99,9% cache)]) Två oberoende kritiska vägar. Antingen kan databasen (99,95%) eller cacheminnet (99,9%) misslyckas utan avbrott.
    Uppskattning av drifttid i flera regioner M = 1 - (1 - N)^R M: Uppskattning av drifttid i flera regioner.
    N: Sammansatt serviceavtal för en region.
    R: Antal regioner som används.
    Om N = 99,95% och R = 2, då M = 1 - (1 - 99,95%)^2 Arbetsbelastning distribuerad i två regioner.
  2. Justera tjänstnivåer. Innan du ändrar arkitekturer bör du utvärdera om olika Azure-tjänstnivåer (SKU:er) kan uppfylla dina tillförlitlighetskrav. Vissa Azure-tjänstnivåer kan ha olika serviceavtal för drifttid, till exempel Azure Managed Disks.

  3. Lägg till arkitekturredundans. Om din nuvarande drifttidsuppskattning inte når upp till ditt servicenivåmål ökar du redundansen:

    1. Använd flera tillgänglighetszoner. Konfigurera dina arbetsbelastningar så att de använder flera tillgänglighetszoner. Hur tillgänglighetszoner förbättrar din drifttid kan vara svårt att uppskatta. Endast ett visst antal tjänster har serviceavtal för drifttid som står för tillgänglighetszoner. Där serviceavtalen står för tillgänglighetszoner använder du dem i dina drifttidsuppskattningar. Se följande tabell för några exempel.

      Azure-tjänsttyp Azure-tjänster med serviceavtal för tillgänglighetszoner
      Beräkningsplattform App Service,
      Azure Kubernetes Service,
      Virtuella datorer
      Datalager Azure Service Bus,
      Azure Storage-konton,
      Azure Cache for Redis
      Azure Files Premium-nivå
      Databas Azure Cosmos DB,
      Azure SQL Database,
      Azure Database for MySQL,
      Azure-databastjänst för PostgreSQL
      Azure Managed Instance för Apache Cassandra
      Lastbalanserare Application Gateway
      Säkerhet Azure Firewall
    2. Använd flera regioner. Flera regioner är ofta nödvändiga för att uppfylla drifttidsmål (SLO). Använd globala lastbalanserare (Azure Front Door eller Traffic Manager) för trafikdistribution. Arkitekturer i flera regioner kräver noggrann datakonsekvenshantering.

  4. Hantera arkitekturredundans. Bestäm hur redundans ska användas: Du kan använda arkitekturredundans som en del av dagliga åtgärder (aktiv). Eller så kan du använda arkitekturredundans i haveriberedskapsscenarier (passiva). Exempel finns i tabell 3.

    1. Belastningsutjämning mellan tillgänglighetszoner. Utnyttja all tillgänglig kapacitet aktivt. Många Azure PaaS-tjänster hanterar automatiskt belastningsutjämning mellan tillgänglighetszoner. IaaS-arbetsbelastningar måste använda en intern lastbalanserare för att lastbalansera mellan tillgänglighetszoner.

    2. Belastningsutjämning mellan regioner. Avgör om arbetsbelastningar i flera regioner ska köra i aktiv-aktiv-läge eller aktiv-passiv-läge baserat på tillförlitlighetsbehov.

  5. Hantera tjänstkonfigurationer. Tillämpa konfigurationer konsekvent på redundanta instanser av Azure-resurser, så att resurserna fungerar på samma sätt. Använd infrastruktur som kod för att upprätthålla enhetlighet. Mer information finns i Duplicera resurskonfiguration.

  6. Utforma arbetsbelastningens tillförlitlighet. Information om tillförlitlighetsdesign för arbetsbelastningar finns i Well-Architected Framework:

    Arbetsbelastningstillförlitlighet Vägledning
    Grundpelare för tillförlitlighet Design för flera regioner med hög tillgänglighet
    Designa för redundans
    Använda tillgänglighetszoner och regioner
    Tjänstguide Azure-tjänstguider (börja med avsnittet Tillförlitlighet)

Mer information finns i Redundans.

Hantera affärskontinuitet

Återställning efter ett fel kräver en tydlig strategi för att snabbt återställa tjänster och minimera störningar för att upprätthålla användarnöjdhet. Följ dessa steg:

  1. Förbered för fel. Skapa separata återställningsprocedurer för arbetsbelastningar baserat på höga, medelstora och låga prioriteringar. Datatillförlitlighet, kod och körningstillförlitlighetoch tillförlitlighet för molnresurser är grunden för att förbereda för fel. Välj andra återställningsverktyg som hjälper dig att förbereda affärskontinuitet. Använd till exempel Azure Site Recovery- för lokala och virtuella datorbaserade serverarbetsbelastningar.

  2. Test- och dokumentåterställningsplan. Testa regelbundet dina redundans- och återställningsprocesser för att bekräfta att dina arbetsbelastningar uppfyller mål för återställningstid (RTO) och mål för återställningspunkter (RPO). Dokumentera tydligt varje steg i återställningsplanen för enkel referens vid incidenter. Kontrollera att återställningsverktyg, till exempel Azure Site Recovery, konsekvent uppfyller din angivna RTO.

  3. Identifiera fel. Anta en proaktiv metod för att snabbt identifiera avbrott, även om denna metod ökar antalet falska positiva. Prioritera kundupplevelsen genom att minimera stilleståndstiden och upprätthålla användarförtroendet.

    1. Övervaka fel. Övervaka arbetsbelastningar för att identifiera avbrott inom en minut. Använd Azure Service Health och Azure Resources Health- och använd Azure Monitor-aviseringar för att meddela relevanta team. Integrera dessa aviseringar med Azure DevOps- eller ITSM-verktyg (IT Service Management).

    2. Samla in servicenivåindikatorer (SLO). Spåra prestanda genom att definiera och samla in mått som fungerar som SLO:er. Se till att dina team använder dessa mått för att mäta arbetsbelastningens prestanda mot dina servicenivåmål (SLO).

  4. Svara på fel. Justera återställningssvaret efter arbetsbelastningsprioriteten. Implementera redundansprocedurer för att omdirigera begäranden till redundant infrastruktur och datarepliker omedelbart. När systemen har stabiliserats, åtgärda grundorsaken, synkronisera data och utför återställningsprocedurer. Mer information finns i Redundans och återställning efter fel.

  5. Analysera fel. Identifiera de bakomliggande orsakerna till problemen och åtgärda sedan problemet. Dokumentera eventuella lektioner och gör nödvändiga ändringar.

  6. Hantera arbetsbelastningsfel. Information om haveriberedskap för arbetsbelastningar finns i Well-Architected Frameworks guide för haveriberedskap och Azure-tjänstguider (börja med avsnittet Tillförlitlighet).

Azures tillförlitlighetsverktyg

Användningsfall Lösning
Datareplikering, säkerhetskopiering och affärskontinuitet Azure-tjänstguider (börja med avsnittet Tillförlitlighet)

Snabbreferens:
Azure Cosmos DB
Azure SQL Database
Azure Blob Storage
Azure Files
Säkerhetskopiering av data Azure Backup
Affärskontinuitet (IaaS) Azure Site Recovery
Lastbalanserare för flera regioner Azure Front Door (HTTP)
Azure Traffic Manager (icke-HTTP)
Lastbalanserare för flera tillgänglighetszoner Azure Application Gateway (HTTP)
Azure Load Balancer (icke-HTTP)

Hantera säkerhet

Använd en iterativ säkerhetsprocess för att identifiera och minimera hot i din molnmiljö. Följ dessa steg:

Hantera säkerhetsåtgärder

Hantera dina säkerhetskontroller för att identifiera hot mot din molnegendom. Följ dessa steg:

  1. Standardisera säkerhetsverktyg. Använd standardiserade verktyg för att identifiera hot, åtgärda sårbarheter, undersöka problem, skydda data, härda resurser och framtvinga efterlevnad i stor skala. Se Azure-säkerhetsverktyg.

  2. Baslinje för din miljö. Dokumentera det normala tillståndet för din molnegendom. Övervaka säkerhets- och dokumentera nätverkstrafikmönster och användarbeteenden. Använd Azure-säkerhetsbaslinjer och Azure-tjänstguider för att utveckla baslinjekonfigurationer för tjänster. Den här baslinjen gör det enklare att identifiera avvikelser och potentiella säkerhetsbrister.

  3. Tillämpa säkerhetskontroller. Implementera säkerhetsåtgärder, till exempel åtkomstkontroller, kryptering och multifaktorautentisering, stärker miljön och minskar risken för intrång. Mer information finns i Hantera säkerhet.

  4. Tilldela säkerhetsansvar. Utse ansvar för säkerhetsövervakning i din molnmiljö. Regelbunden övervakning och jämförelser med baslinjen möjliggör snabb identifiering av incidenter, till exempel obehörig åtkomst eller ovanliga dataöverföringar. Regelbundna uppdateringar och granskningar håller säkerhetsbaslinjen effektiv mot hot som utvecklas.

Mer information finns i CAF Secure.

Hantera säkerhetsincidenter

Använd en process och verktyg för att återhämta sig från säkerhetsincidenter, till exempel utpressningstrojaner, tjänsteförnekelse eller intrång från hotaktörer. Följ dessa steg:

  1. Förbered för incidenter. Utveckla en incidenthanteringsplan som tydligt definierar roller för undersökning, åtgärd och kommunikation. Testa regelbundet planens effektivitet. Utvärdera och implementera verktyg för sårbarhetshantering, system för hotidentifiering och lösningar för infrastrukturövervakning. Minska attackytan genom infrastrukturhärdning och skapa arbetsbelastningsspecifika återställningsstrategier. Se Översikt över incidenthantering och riktlinjer för incidenthantering.

  2. Identifiera incidenter. Använd siem-verktyget (säkerhetsinformation och händelsehantering), till exempel Microsoft Sentinel-, för att centralisera dina säkerhetsdata. Använd Microsoft Sentinels funktioner för säkerhetsorkestrering, automatisering och svar (SOAR) för att automatisera rutinmässiga säkerhetsuppgifter. Integrera hotinformationsflöden i SIEM för att få insikter om angreppstaktiker som är relevanta för din molnmiljö. Använd Microsoft Defender for Cloud för att regelbundet söka igenom Azure efter sårbarheter. Microsoft Defender integrerar med Microsoft Sentinel för att ge en enhetlig vy över säkerhetshändelser.

  3. Svara på incidenter. Aktivera omedelbart din incidenthanteringsplan när du identifierar en incident. Starta snabbt undersöknings- och åtgärdsprocedurer. Aktivera din plan för haveriberedskap för att återställa berörda system och tydligt förmedla incidentinformation till ditt team.

  4. Analysera säkerhetsincidenter. Efter varje incident granskar du hotinformation och uppdaterar din incidenthanteringsplan baserat på lärdomar och insikter från offentliga resurser, till exempel MITRE ATT&CK kunskapsbas. Utvärdera effektiviteten i dina verktyg för sårbarhetshantering och identifiering och förfina strategier baserat på analys efter incident.

Mer information finns i Hantera incidenthantering (CAF Secure).

Azure-säkerhetsverktyg

Säkerhetskapacitet Microsoft-lösning
Identitets- och åtkomsthantering Microsoft Entra ID
Rollbaserad åtkomstkontroll Rollbaserad Azure-åtkomstkontroll
Upptäckt av hot Microsoft Defender för molnet
Hantering av säkerhetsinformation Microsoft Sentinel
Datasäkerhet och styrning Microsoft Purview
Säkerhet för molnresurser Azure-säkerhetsbaslinjer
Molnstyrning och ledning Azure Policy
Slutpunktssäkerhet Microsoft Defender for Endpoint
Nätverkssäkerhet Azure Network Watcher
Industriell säkerhet Microsoft Defender för IoT

Nästa steg