Förbereda för det oväntade (före en incident)

Slutförd

För att säkerställa beredskap och minimera effekten av incidenter är det viktigt att följa de proaktiva rekommendationer som beskrivs i den här lektionen. Dessa åtgärder hjälper dig att förstå vår incidentkommunikationsprocess, hitta relevant information och konfigurera meddelanden för att ta emot uppdateringar i tid. Om du utvärderar återhämtningsförmågan för dina program och implementerar rekommenderade åtgärder kan du dessutom skapa mer tillförlitliga arbetsbelastningar, vilket minskar den potentiella effekten av en incident. Slutligen kommer granskning och implementering av metodtips för säkerhet att stärka din miljö och minska riskerna.

För att hålla dig informerad, minska påverkan och skydda din investering rekommenderar vi följande fem åtgärder:

Åtgärd nr 1: Bekanta dig med Azure Service Health i Azure Portal

Till skillnad från vår offentliga azure.status.microsoft-sida, som endast tillhandahåller allmän statusinformation om breda avbrott, erbjuder Azure Service Health personlig information som är skräddarsydd för dina specifika resurser. Det hjälper dig att förutse och förbereda dig för planerat underhåll och andra ändringar som kan påverka resurstillgängligheten. Du kan interagera med tjänsthändelser och hantera åtgärder för att upprätthålla affärskontinuiteten för dina berörda program. Den ger viktiga insikter om plattformssårbarheter, säkerhetsincidenter och sekretessöverträdelser på Azure-tjänstnivå, vilket möjliggör snabba åtgärder för att skydda dina Azure-arbetsbelastningar.

Nu ska vi utforska några viktiga funktioner som är tillgängliga i Azure Service Health för att förbättra din incidentberedskap:

Fönstret Resurshälsa (ny upplevelse omfattas)

Azure Resource Health finns på bladet Service Health i Azure Portal och hjälper dig att diagnostisera och lösa tjänstproblem som påverkar dina Azure-resurser. Resurser, till exempel virtuella datorer, webbappar eller SQL-databaser, utvärderas för deras hälsa baserat på signaler från olika Azure-tjänster. Om en resurs identifieras som felaktig utför Resource Health en detaljerad analys för att fastställa rotorsaken till problemet. Den innehåller också information om Microsofts åtgärder för att lösa problem som rör incidenter och föreslår åtgärder som du kan vidta för att åtgärda problemet.

Fönstret Problem med tjänster (ny upplevelse omfattas)

I fönstret Problem med tjänster visas pågående tjänstincidenter som kan påverka dina resurser. Det gör att du kan spåra när ett problem började och identifiera de berörda tjänsterna och regionerna. Genom att granska de senaste uppdateringarna kan du få insikter om Azures arbete med att lösa incidenten.

Skärmbild av hur du växlar Azure Serice Health till klassisk vy.

Viktiga funktioner i fönstret Problem med tjänster:

  • Realtidsinsikt: Instrumentpanelen för tjänstproblem ger insyn i Azure-tjänstincidenter i realtid som påverkar dina prenumerationer och klienter. Om du är klientorganisationsadministratör kan du se aktiva incidenter eller rekommendationer som är relevanta för dina prenumerationer och klientorganisationer.

  • Utvärdering av resurspåverkan: Fliken Påverkad resurs i avsnittet incidentinformation visar vilka resurser som bekräftas eller kan påverkas. Om du klickar på resurserna får du direkt åtkomst till fönstret Resurshälsa.

  • Länkar och nedladdningsbara förklaringar: Generera en länk för problemet som ska användas i problemhanteringssystemet. Du kan också ladda ned PDF- och ibland CSV-filer för att dela omfattande förklaringar med intressenter som inte har åtkomst till Azure Portal. Dessutom kan du begära en efterincidentgranskning (PIR) för eventuella problem som har påverkat dina resurser, tidigare kallade rotorsaksanalyser (RCA).

Fönstret Säkerhetsrekommendationer

Fönstret Säkerhetsrekommendationer fokuserar på brådskande säkerhetsrelaterad information som påverkar hälsotillståndet för dina prenumerationer och klienter. Det ger insikter om plattformssårbarheter, säkerhetsincidenter och sekretessöverträdelser.

Skärmbild av Säkerhetsrekommendationer för Azure Service Health.

Viktiga funktioner i fönstret Säkerhetsrekommendationer:

  • Säkerhetsinsikter i realtid: Få omedelbar insyn i Azure-säkerhetsincidenter som är relevanta för dina prenumerationer och klientorganisationer.

  • Utvärdering av resurspåverkan: Fliken Påverkad resurs i avsnittet incidentinformation visar de resurser som har bekräftats påverkas.

    Användare som har behörighet med följande roller kan visa information om säkerhetspåverkande resurser:

    Visa resurser på prenumerationsnivå Visa resurser på klientnivå
    Prenumerationsägare Säkerhetsadministratör/säkerhetsläsare
    Prenumerationsadministration Global administratör/klientorganisationsadministratör
    Säkerhetsläsare för Tjänsthälsa Sekretessläsare för Azure Service Health
  • Dessutom kan du ladda ned förklarande PDF-dokument för att dela med intressenter som inte har direkt åtkomst till Azure Portal.

    I följande exempel visas en säkerhetsincident med berörda resurser från både prenumerationen och klientomfånget.

    Skärmbild av det första exemplet på säkerhetsincident.

    Skärmbild av det andra exemplet på säkerhetsincident.

Förutom att bekanta dig med Azure Service Health är ett annat viktigt steg att konfigurera Service Health-aviseringar, vilket säkerställer meddelanden i tid och håller dig informerad om incidenter och viktig information som kan påverka dina arbetsbelastningar. I nästa avsnitt beskrivs det här avsnittet i detalj.

Åtgärd nr 2: Konfigurera Service Health-aviseringar för att hålla dig informerad

Det är viktigt att konfigurera aviseringar om tjänstens hälsoaviseringar och den viktigaste åtgärden för proaktiv incidenthantering. Med Service Health-aviseringar kan du ta emot meddelanden i tid via olika kanaler, till exempel e-post, SMS, webhooks med mera. Dessa aviseringar ger uppdateringar om tjänstincidenter, planerade underhållsaktiviteter, säkerhetsincidenter och annan viktig information som kan påverka dina arbetsbelastningar.

Du kan konfigurera tjänsthälsoaviseringar från någon av de "aktiva händelserutorna" på bladet Service Health i Azure Portal, klicka på Hälsoaviseringar från fönstret Service Health eller genom att använda Azure Resource Graph.

Här hittar du Exempelfrågor för Azure Resource Graph för Azure Service Health.

Skärmbild av Azure Service Health-rekommendationer.

Service Health spårar olika typer av hälsohändelser som kan påverka dina resurser, inklusive tjänstproblem, planerat underhåll, hälsorekommendationer och säkerhetsrekommendationer. När du konfigurerar tjänstens hälsoaviseringar har du flexibiliteten att välja hur och till vem aviseringarna ska skickas. Du kan anpassa aviseringarna baserat på klassen för servicehälsomeddelande, berörda prenumerationer, tjänster och regioner.

Klass för Service Health-meddelanden

Händelsetyp för tjänsthälsa beskrivning
Tjänstproblem Problem i Azure-tjänsterna som påverkar dig just nu, även kallat tjänstincidenter.
Planerat underhåll Kommande underhåll som kan påverka tillgängligheten för dina tjänster i framtiden.
Hälsorekommendationer Ändringar i Azure-tjänster som kräver din uppmärksamhet. Exempel är när du behöver vidta en åtgärd, när Azure-funktioner är inaktuella, uppgraderingskrav eller om du överskrider en användningskvot.
Säkerhetsrekommendationer Säkerhetsrelaterade meddelanden som hanterar plattformssårbarheter och säkerhets- och sekretessöverträdelser på prenumerations- och klientorganisationsnivå, även kallat säkerhets- och sekretessincidenter.

Vi vet att du måste meddelas när det finns problem som påverkar dina tjänster, och aviseringar om tjänsthälsa ger dig behörighet att välja HUR och TILL VEM dessa aviseringar skickas. Aviseringarna kan konfigureras baserat på klassen för tjänsthälsomeddelande, prenumerationer som påverkas, tjänster som påverkas och/eller regioner som påverkas. Du kan konfigurera aviseringar för att utlösa e-postmeddelanden, SMS, logikappar, funktioner med mera.

När en avisering utlöses kan du definiera vilka åtgärder som ska vidtas med hjälp av åtgärdsgrupper. Åtgärdsgrupper är samlingar med meddelandeinställningar som avgör hur och till vem aviseringarna skickas.

Fullständig lista över tillgängliga meddelandetyper

Meddelandetyp beskrivning Fält
Skicka e-post till Azure Resource Manager-rollen Skicka ett e-postmeddelande till prenumerationsmedlemmarna baserat på deras roll.
Ett e-postmeddelande skickas endast till den primära e-postadressen som konfigurerats för Microsoft Entra-användaren.
E-postmeddelandet skickas endast till Microsoft Entra-användarmedlemmar i den valda rollen, inte till Microsoft Entra-grupper eller tjänstens huvudnamn.
Ange den primära e-postadressen som konfigurerats för Microsoft Entra-användaren. Se E-post.
Email Se till att din e-postfiltrering och eventuella tjänster för skydd mot skadlig kod/skräppost har konfigurerats på rätt sätt. E-postmeddelanden skickas från följande e-postadresser:
- azure-noreply@microsoft.com
- azureemail-noreply@microsoft.com
- alerts-noreply@mail.windowsazure.com
Ange e-postmeddelandet där meddelandet ska skickas.
SMS SMS-meddelanden stöder dubbelriktad kommunikation. SMS:et innehåller följande information:
– Kortnamn för åtgärdsgruppen som den här aviseringen skickades till
- Aviseringens rubrik.
En användare kan svara på ett SMS för att:
– Avsluta prenumerationen på alla SMS-aviseringar för alla åtgärdsgrupper eller en enda åtgärdsgrupp.
– Prenumerera på aviseringar igen
- Be om hjälp.
Mer information om SMS-svar som stöds finns i SMS-svar.
Ange landskoden och telefonnumret för SMS-mottagaren. Om du inte kan välja lands-/regionkod i Azure Portal stöds inte SMS för ditt land/din region. Om lands-/regionkoden inte är tillgänglig kan du rösta för att ditt land/din region ska läggas till på Dela dina idéer. Som en lösning tills ditt land stöds konfigurerar du åtgärdsgruppen så att den anropar en webhook till en SMS-provider från tredje part som stöder ditt land/din region.
Push-meddelanden för Azure-app Skicka meddelanden till Azure-mobilappen. Om du vill aktivera push-meddelanden till Azure-mobilappen anger du Mer information om Azure-mobilappen finns i Azure-mobilappen. I fältet e-post för Azure-konto anger du den e-postadress som du använder som konto-ID när du konfigurerar Azure-mobilappen.
Röst Röstmeddelande. Ange landskoden och telefonnumret för mottagaren av meddelandet. Om du inte kan välja lands-/regionkod i Azure Portal stöds inte röstmeddelanden för ditt land/din region. Om lands-/regionkoden inte är tillgänglig kan du rösta för att ditt land/din region ska läggas till på Dela dina idéer. Som en lösning tills ditt land stöds konfigurerar du åtgärdsgruppen så att den anropar en webhook till en röstsamtalsleverantör från tredje part som stöder ditt land/din region.

Fullständig lista över åtgärder som du kan utlösa

Åtgärdstyp Details
Automation Runbook Information om begränsningar för Automation Runbook-nyttolaster finns i Automation-gränser.
Event Hubs En Händelsehubbåtgärd publicerar meddelanden till Event Hubs. Mer information om Event Hubs finns i Azure Event Hubs – en stordataströmningsplattform och händelseinmatningstjänst. Du kan prenumerera på aviseringsmeddelandeströmmen från händelsemottagaren.
Funktioner Anropar en befintlig HTTP-utlösarslutpunkt i funktioner. Mer information finns i Azure Functions. När du definierar funktionsåtgärden sparas funktionens HTTP-utlösarslutpunkt och åtkomstnyckel i åtgärdsdefinitionen, https://azfunctionurl.azurewebsites.net/api/httptrigger?code=<access_key>till exempel . Om du ändrar åtkomstnyckeln för funktionen måste du ta bort och återskapa funktionsåtgärden i åtgärdsgruppen.
Slutpunkten måste ha stöd för HTTP POST-metoden.
Funktionen måste ha åtkomst till lagringskontot. Om den inte har åtkomst är nycklarna inte tillgängliga och funktions-URI:n är inte tillgänglig.
Lär dig mer om att återställa åtkomsten till lagringskontot.
ITSM En ITSM-åtgärd kräver en ITSM-anslutning. Information om hur du skapar en ITSM-anslutning finns i ITSM-integrering.
Logikappar Du kan använda Azure Logic Apps för att skapa och anpassa arbetsflöden för integrering och för att anpassa dina aviseringsmeddelanden.
Säker webhook När du använder en säker webhook-åtgärd måste du använda Microsoft Entra-ID för att skydda anslutningen mellan åtgärdsgruppen och slutpunkten, som är ett skyddat webb-API. Se Konfigurera autentisering för säker webhook. Säker webhook stöder inte grundläggande autentisering. Om du använder grundläggande autentisering använder du åtgärden Webhook.
Webhook Om du använder webhook-åtgärden måste målwebbhookens slutpunkt kunna bearbeta de olika JSON-nyttolaster som olika aviseringskällor genererar.
Du kan inte skicka säkerhetscertifikat via en webhook-åtgärd. Om du vill använda grundläggande autentisering måste du skicka dina autentiseringsuppgifter via URI:n.
Om webhookens slutpunkt förväntar sig ett specifikt schema, till exempel Microsoft Teams-schemat, använder du åtgärdstypen Logic Apps för att ändra aviseringsschemat för att uppfylla målwebbhookens förväntningar.
Information om de regler som används för att försöka utföra webhook-åtgärder igen finns i Webhook.

Kom ihåg att de flesta tjänstincidenter påverkar några prenumerationer, så att de inte visas på platser som status.azure.com. Tjänststatus aviseringar kan konfigureras från portalen – om du vill automatisera skapandet kan de också konfigureras via PowerShell- eller ARM-mallar.

Genom att konfigurera Service Health-aviseringar och åtgärdsgrupper effektivt kan du se till att du får meddelanden i tid och vidta lämpliga åtgärder för att minska incidenternas inverkan på dina Azure-resurser.

Kommentar

Letar du efter hjälp med vad som ska övervakas och vilka aviseringar du bör konfigurera för vad? Leta inte längre än lösningen "Azure Monitor Baseline Alerts". Den innehåller omfattande vägledning och kod för att implementera en baslinje för plattformsaviseringar samt aviseringar om tjänsthälsa via principer och initiativ i Azure-miljöer, med alternativ för automatisk eller manuell distribution. Lösningen innehåller fördefinierade principer för att automatiskt skapa aviseringar för alla typer av servicehälsohändelser (tjänstproblem, planerat underhåll, hälsorekommendationer, & säkerhetsrekommendationer), åtgärdsgrupper och aviseringsbearbetningsregler för olika Azure-resurstyper. Fokus ligger på att övervaka azure-landningszoner (ALZ)-arkitekturmiljöer, men det ger även vägledning för brownfield-kunder som för närvarande inte är anpassade till ALZ-arkitekturens brunfält.

Åtgärd nr 3: Överväg Resource Health-aviseringar eller schemalagda händelser för att informera dig om resursspecifika problem

När du har konfigurerat hälsoaviseringar för tjänsten bör du även överväga att använda resurshälsoaviseringar. Azure Resource Health-aviseringar kan meddela dig nästan i realtid när dessa resurser har ändrat sin hälsostatus, oavsett varför.

Den viktigaste skillnaden mellan "service health"-aviseringar och aviseringar om resurshälsa är att den förstnämnda utlöses under ett känt plattformsproblem, till exempel ett pågående avbrott (tjänstincident) som är under utredning av Microsoft. Det senare utlöses däremot när en specifik resurs bedöms vara felaktig, oavsett den underliggande orsaken.

Du kan konfigurera resurshälsoaviseringar från fönstret Resurshälsa på bladet Service Health i Azure Portal.

Skärmbild av Azure Service Health-resurshälsan.

Du kan också skapa resurshälsoaviseringar programmatiskt med hjälp av Azure Resource Manager-mallar och Azure PowerShell. Genom att skapa resurshälsoaviseringar programmatiskt kan du skapa och anpassa aviseringar i grupp.

Schemalagda händelser för virtuella datorer, vilket undviker påverkan

Schemalagda händelser är ett annat bra verktyg där båda aviseringstyperna ovan meddelar personer eller system, schemalagda händelser meddelar resurserna själva. Detta kan ge ditt program tid att förbereda för underhåll av virtuella datorer eller någon av våra automatiserade tjänståterställningshändelser. Det ger en signal om en överhängande underhållshändelse (till exempel en kommande omstart) så att ditt program kan veta det och sedan agera för att begränsa avbrott , till exempel genom att köra automatisering för att hoppa av poolen eller på annat sätt försämras korrekt. Schemalagda händelser är tillgängliga för alla typer av virtuella Azure-datorer, inklusive PaaS och IaaS i både Windows och Linux.

Kommentar

Även om både resurshälsoaviseringar och schemalagda händelser är användbara verktyg är det viktigaste anropet till åtgärden att konfigurera hälsoaviseringar för tjänsten. Detta är viktigt för att säkerställa att du förstår vad som händer med dina resurser, vad vi gör åt det och när det minimeras.

Åtgärd nr 4: Öka säkerheten för din investering för att skydda din miljö

Se till att dina data, program och andra tillgångar skyddas i Azure genom att granska och implementera metodtipsen för driftssäkerhet. Dessa metodtips härleds från den samlade kunskapen och erfarenheten hos dem som arbetar med de aktuella funktionerna och funktionerna i Azure-plattformen. Artikeln uppdateras regelbundet för att återspegla nya åsikter och tekniker.

Som utgångspunkt bör du överväga följande främsta rekommendationer för implementering:

  • Kräv tvåstegsverifiering för alla användare. Detta inkluderar administratörer och andra i din organisation som kan ha en betydande inverkan om deras konto komprometteras (till exempel ekonomiansvariga). Tillämpa multifaktorautentisering för att minska oron för den här exponeringen.

  • Konfigurera och aktivera riskprinciper för din klientorganisation så att du aviseras om "någon" finns i din miljö. Detta skapar en avisering för riskfyllda händelser som anonym IP-adressanvändning, atypiska resor, okända inloggningsegenskaper och utlöser ytterligare reparationsåtgärder som multifaktorautentisering, återställning av lösenord osv. för att säkerställa att kunderna förblir säkra.

  • Kontrollera förflyttningen av prenumerationer från och till kataloger som en proaktiv åtgärd för att vara förberedd och medveten för "vem som helst" i din miljö. Detta säkerställer att din organisation har fullständig insyn i de prenumerationer som används och förhindrar förflyttning av prenumerationer som kan gå till en okänd katalog.

  • Rotera autentiseringsuppgifter för alla globala och prenumerationsadministratörer regelbundet för att skydda mot potentiella säkerhetsöverträdelser, komprometterade konton eller obehörig användning av privilegierade behörigheter. Om du roterar autentiseringsuppgifter regelbundet läggs ytterligare ett säkerhetslager till i din miljö och det bidrar till att upprätthålla integriteten och konfidentialiteten för dina data och resurser.

  • Granska och uppdatera regelbundet alla globala administratörsanvändares e-post och telefonnummer i din klientorganisation

Åtgärd nr 5: Öka återhämtningstiden för dina viktiga Azure-arbetsbelastningar för att eventuellt undvika eller minimera påverkan

För att säkerställa tillförlitligheten för dina arbetsbelastningar är det viktigt att utvärdera dem med hjälp av grundsatserna i Microsoft Azure Well-Architected Framework (WAF) via Microsoft Azure Well-Architected Review. WAF ger också rekommendationer för återhämtningstestning, inklusive införande av en kaosteknikmetodik.

Program bör testas för att säkerställa både tillgänglighet och återhämtning. Tillgänglighet avser hur länge ett program fungerar utan betydande stilleståndstid, medan återhämtning mäter hur snabbt ett program kan återställas från fel.

För att komplettera ditt arbete med WAF kan du överväga att implementera följande topprekommendationer och använda de verktyg som tillhandahålls för att hjälpa dig att kontrollera och bygga återhämtning i dina program:

  • Använd den integrerade arbetsboken Tillförlitlighet i Azure Portal under Azure Advisor-bladet för att utvärdera tillförlitligheten för dina program, identifiera potentiella risker och planera och implementera förbättringar.

  • Förbättra affärskontinuitet och haveriberedskap (BCDR) genom att distribuera dina arbetsbelastningar och resurser i flera regioner. Se den omfattande listan över Azure-regionpar för optimala distributionsalternativ mellan regioner.

  • Maximera tillgängligheten i en region genom att distribuera distributioner av arbetsbelastningar/resurser mellan Tillgänglighetszoner.

  • Överväg att använda storlekar för isolerade virtuella datorer i Azure för dina affärskritiska arbetsbelastningar som kräver en hög isoleringsnivå. Dessa storlekar garanterar att den virtuella datorn är dedikerad till en viss maskinvarutyp och fungerar oberoende av varandra. Mer information finns här: Isolering för virtuella datorer i Azure – Azure Virtual Machines | Microsoft Learn.

  • Överväg att använda underhållskonfigurationer för att få bättre kontroll och hantering över uppdateringar för dina virtuella Azure-datorer. Med den här funktionen kan du schemalägga och hantera uppdateringar, vilket säkerställer minimala störningar för känsliga arbetsbelastningar som inte kan tolerera stilleståndstid under underhållsaktiviteter.

  • Förbättra redundansen genom att implementera redundans mellan eller inom regionen. Mer information finns i exemplet med ett zonredundant webbprogram med hög tillgänglighet.

  • Förbättra återhämtningsförmågan för dina program genom att använda Azure Chaos Studio. Med det här verktyget kan du avsiktligt införa kontrollerade fel i dina Azure-program, så att du kan utvärdera deras motståndskraft och se hur de svarar på olika störningar, till exempel nätverksfördröjning, lagringsfel, utgångna hemligheter och datacenterfel.

  • Använd arbetsboken Tjänstavgång som är tillgänglig i Azure Portal under bladet Azure Advisor. Det här integrerade verktyget hjälper dig att hålla dig informerad om eventuella tjänstavgångar som kan påverka dina kritiska arbetsbelastningar, så att du effektivt kan planera och utföra nödvändiga migreringar.

Kommentar

Kunder som har ett Premier/Unified Support-avtal kan använda kundframgångsteamet för att utforma och implementera en utvärdering av välarkitekterat ramverk (WAF).