Dela via


Rekommendationer för att utföra analys av felläge

Gäller för den här checklisterekommendationen för Power Platform välstrukturerad tillförlitlighet:

RE:03 Använd analys av felläge (FMA) för att identifiera och prioritera potentiella fel i lösningskomponenterna. Utför FMA för att hjälpa dig utvärdera risken och effekten av varje felläge. Bestäm hur arbetsbelastningen ska svara och återställas.

I den här guiden beskrivs metodtipsen för hur du utför fellägesanalyser (FMA) för din arbetsbelastning. FMA är hur du identifierar möjliga felpunkter i arbetsbelastningen och de associerade flödena, och planerar riskreduceringsåtgärder. I varje steg i flödet identifierar du omfattningen av flera feltyper, vilket hjälper dig att utforma en ny arbetsbelastning eller omstrukturera en befintlig arbetsbelastning så att du minimerar effekten av fel.

En viktig princip med FMA är att fel inträffar oavsett hur många lager återhämtning du använder. Mer komplexa miljöer utsätts för fler typer av fel. FMA gör att du kan utforma arbetsbelastningen så att den tål de flesta typer av fel och återställs när ett fel inträffar.

Om du hoppar över FMA helt och hållet eller utför en ofullständig analys, riskerar din arbetsbelastning oförutsägbara fel och för potentiella avbrott på grund av en underoptimerad design.

Definitioner

Begrepp Definition
Felläge En typ av problem som kan leda till att en eller flera arbetsbelastningskomponenter försämras eller påverkas svårt så att de inte är tillgängliga.
Åtgärd Aktiviteterna som du har identifierat för att lösa problem antingen proaktivt eller reaktivt.
Identifiering Processer och procedurer för data- och appövervakning och avisering.

Viktiga designstrategier

När det gäller FMA är det mycket viktigt att förstå förutsättningarna. Börja med att granska och implementera rekommendationer för att identifiera flöden och prioritera dem baserat på kritiskhet. Dataartefakterna har en central roll när det gäller att beskriva datasökvägarna inom dessa flöden. När du ger dig in på FMA-metoden fokuserar du på planeringskomponenter för kritiska flöden, identifierar beroenden (både interna och externa) och tar fram strategierna för riskreducering.

Förutsättningar

Granska och implementera rekommendationerna för att identifiera och betygssätta flöden. Det är underförstått att du har identifierat och prioriterat användar- och systemflöden baserat på kritiskhet.

De data du har samlat in och de artefakter som du har skapat i ditt arbete ger en konkret beskrivning av de datavägar som är inblandade i flödena. För att lyckas med FMA-arbetet är noggrannhet och precision i artefakterna mycket viktigt.

FMA-metod

När du har fastställt de kritiska flödena kan du planera deras nödvändiga komponenter. Följ sedan varje flöde steg för steg för att identifiera beroenden, inklusive tjänster från tredje part och potentiella felpunkter, och planera dina riskreduceringsstrategier.

Bryt ned arbetsbelastningen

När du går från idé till utformning måste du identifiera vilka komponenttyper som krävs för att stödja din arbetsbelastning. Arbetsbelastningen avgör vilka nödvändiga komponenter du måste planera för.

När du har skapat den ursprungliga arkitekturdesignen kan du överlägga flödena för att identifiera de diskreta komponenterna som används i dessa flöden och skapa listor eller arbetsflödesdiagram som beskriver flödena och deras komponenter. Om du vill förstå hur kritiska komponenterna är använder du de kritikalitetsdefinitioner som du har tilldelat flödena. Beakta effekten som en komponents funktionsfel har på dina flöden.

Identifiera beroenden

Identifiera arbetsbelastningsberoendena när du utför en analys av en enskild felpunkt. Om bryter ned arbetsbelastningen och de överliggande flödena får du insikt om beroenden som är interna och externa för arbetsbelastningen.

Interna beroenden är komponenter i arbetsbelastningens omfattning som krävs för att arbetsbelastningen ska fungera. Typiska interna beroenden är API:er eller lösningar för hantering av hemlighet/nycklar som Azure Key Vault. För dessa beroenden samlar du in tillförlitlighetsdata, till exempel serviceavtal (SLA) för tillgänglighet och skalningsbegränsningar. Externa beroenden är nödvändiga komponenter som inte omfattas av arbetsbelastningen, till exempel ett annat program eller en tjänst från tredje part. Typiska externa beroenden är autentiseringslösningar som Microsoft Entra ID och Power Platform-infrastruktur.

Identifiera och dokumentera beroendena i arbetsbelastningen och ta med dem i flödesdokumentationsartefakterna

Felpunkter

I arbetsbelastningens kritiska flöden beaktar du varje komponent och avgöra hur komponenten, och dess beroenden, kan påverkas av ett felläge. Kom ihåg att det finns många olika fellägen som du bör tänka på när du planerar för återhämtning och återställning. Vilken komponent som helst kan påverkas av mer än ett felläge vid varje given tidpunkt. Dessa fellägen omfattar:

  • Regionala avbrott: En hel Power Platform- eller Azure-region är inte tillgänglig
  • Driftavbrott: En eller flera Power Platform- eller Azure-tjänster är inte tillgängliga
  • DDoS-attack (Distributed Denial-of-Service) eller annan skadlig attack
  • Felkonfiguration av app eller komponent
  • Operatörsfel
  • Avbrott för planerat underhåll
  • Överbelastning av komponent

Tänk på sannolikheten för varje typ av felläge. Vissa är väldigt osannolika, som avbrott i flera områden eller flera regioner, och att lägga till riskreduceringsplanering utöver redundans är inte någon bra användning av resurser och tid.

Åtgärd

Riskreduceringsstrategierna är indelade i breda två kategorier: att bygga upp mer återhämtning och att designa för försämrade prestanda.

Om du bygger mer återhämtning måste du se till att din programdesign följer metodtipsen för hållbarhet, till exempel att dela upp monolitiska program i isolerade appar och mikrotjänster och använda återhämtningskonfigurationer som tillhandahålls av plattformen, till exempel principer för återförsök. Mer information finns i Rekommendationer för redundans och Rekommendationer för självbevarande.

Om du vill designa för försämrade prestanda identifierar du möjliga felpunkter som kan inaktivera en eller flera komponenter i flödet men inte inaktivera flödet helt. För att hela flödet ska fungera kan du behöva omdirigera en eller flera steg till andra komponenter, eller acceptera att en misslyckad komponent kör en funktion, så funktionen är inte längre tillgänglig i användarupplevelsen. För att återgå till exemplet med e-handelsprogrammet kan en misslyckad komponent som en mikrotjänst göra att din rekommendationsmotor inte är tillgänglig, men kunderna kan fortfarande söka efter produkter och slutföra transaktionen.

Du måste också planera riskreducering kring beroenden. Starka beroenden har en viktig roll för programfunktionen och tillgängligheten. Om de är frånvarande eller inte fungerar som de ska kan effekten bli betydande. Frånvaron av svaga beroenden kan endast påverka vissa funktioner och inte den allmänna tillgängligheten. Skillnaden återspeglar kostnaden för att upprätthålla en hög tillgänglighetsrelation mellan tjänsten och dess beroenden. Kategorisera beroenden som antingen starka eller svaga för att hjälpa dig identifiera vilka komponenter som är nödvändiga för programmet.

Om programmet har starka beroenden som det inte kan fungera utan ska tillgänglighets- och återställningsmålen för dessa beroenden justeras mot målen för själva programmet. Om programmets livscykel hänger samman med livscykeln för programmets beroenden kan programmets agilitet vara begränsad, särskilt för nya versioner.

Identifiering

Det är viktigt att identifiera fel för att säkerställa att du har identifierat felpunkter korrekt i din analys och planerat dina riskreduceringsstrategier på ett korrekt sätt. Identifiering i det här sammanhanget innebär övervakning av infrastruktur, data och program, och avisering när problem uppstår. Automatisera identifieringen i så hög utsträckning som möjligt och bygg in redundans i verksamhetens processer så att alla aviseringar alltid uppmärksammas och snabbt ageras på för att uppfylla verksamhetskraven. Mer information finns i Rekommendationer för övervakning.

Resultat

För resultatet av analysen kan du skapa en uppsättning dokument som effektivt kommunicerar dina resultat, de beslut du har fattat i förhållande till flödeskomponenterna och riskreduceringen, och felets inverkan din arbetsbelastning.

I din analys ska du prioritera fellägen och riskreduceringsstrategier som du har identifierat baserat på allvarlighet och sannolikhet. Använd den här prioriteringen för att fokusera dokumentationen på de fellägen som är vanliga och allvarliga nog för att motivera att du lägger tid, arbete och resurser på att utforma riskreduceringsstrategierna kring dem. Det kan till exempel finnas vissa fellägen som är mycket sällsynta i förekomst eller identifiering. Att utforma riskreduceringsstrategier runt dem är inte värt kostnaden.

En utgångspunkt för dokumentationen finns i exempeltabellen.

Under det första FMA-jobbet är de dokument som du tar fram i huvudsak teoretisk planering. FMA-dokumenten bör ses över och uppdateras regelbundet för att se till att de alltid är uppdaterade med din arbetsbelastning. Med hjälp av kaostester och verkliga erfarenheter kan du förfina dina behov med tiden.

Exempel

I följande tabell visas ett FMA-exempel på ett utgiftsprogram som är värdbaserat som en Power Apps-arbetsyteapp med en Microsoft Dataverse-serverdel och API:er som är värdbaserade i APIM för att interagera med ett tredjepartssystem.

Användarflöde: Användare loggar in, skickar in utläggsanspråk och interaktion med utgiftsrapport

Komponent Risk Sannolikhet Effekt/riskreducering/anteckning Avbrott
Microsoft Entra-ID Driftavbrott Lägst Fullständigt arbetsbelastningsavbrott. Beroende på att Microsoft kan riskreducera. Fullständig
Microsoft Entra-ID Felkonfiguration Medium Användare kan inte logga in. Ingen nedströms effekt. Supportavdelningen rapporterar konfigurationsproblem till identitetsteamet. Inga
Power Apps Driftavbrott Lägst Fullständigt avbrott för externa användare. Beroende på att Microsoft kan riskreducera. Fullständig
Power Apps Regionala avbrott Mycket lågt Fullständigt avbrott för externa användare. Beroende på att Microsoft kan riskreducera. Fullständig
Power Apps DDoS-attack Medium Potential för störningar. Microsoft hanterar DDoS-skydd (L3 och L4). Risk för delvisa avbrott
Dataverse Driftavbrott Lägst Fullständigt arbetsbelastningsavbrott. Beroende på att Microsoft kan riskreducera. Fullständig
Dataverse Regionala avbrott Mycket lågt Automatisk redundansgrupp lämnar över till sekundär region. Potentiellt avbrott under redundans. Mål för återställningstid (RTO:er) och mål för återställningspunkt (RPO:er) ska fastställas vid tillförlitlighetstest. Potentiellt fullständig
Dataverse Skadlig attack (injektion) Medel Minimal risk. Möjlig låg risk
API Management Driftavbrott Lägst Fullständigt avbrott för externa användare. Beroende på att Microsoft kan riskreducera. Fullständig
API Management Regionala avbrott Mycket lågt Fullständigt avbrott för externa användare. Beroende på att Microsoft kan riskreducera. Fullständig
API Management DDoS-attack Medel Potential för störningar. Microsoft hanterar DDoS-skydd (L3 och L4). Risk för delvisa avbrott
Din Power Platform-lösning Felkonfiguration Medium Felaktiga konfigurationer ska hittas vid distributionen. Om de inträffar under en konfigurationsuppdatering måste administratörer återställa ändringar. Konfigurationsuppdateringen orsakar ett kort externt avbrott. Risk för fullständigt avbrott

Underlätta Power Platform

Power Platform integreras med Application Insights, som ingår i Azure Monitor-ekosystemet. Du kan använda den här integreringen för att:

  • Prenumerera på telemetri som samlas in av Dataverse-plattformen i Application Insights om diagnoser, prestanda och åtgärder som program utför på din Dataverse-databas och i modellbaserade appar. Denna telemetri innehåller information som du kan använda för att diagnostisera och felsöka problem relaterade till fel och prestanda.

  • Anslut dina arbetsyteappar till Application Insights för att använda dessa analyser för att diagnostisera problem, förstå vad användarna egentligen gör med dina appar, fatta bättre affärsbeslut och förbättra kvaliteten på dina appar.

  • Konfigurera Power Automate-telemetri så att den flödar in i Application Insights. Du kan använda telemetrin för att övervaka körningar av molnflöden och skapa aviseringar för molnflödeskörningsfel.

  • Samla in telemetridata från din Microsoft Copilot Studio agent för användning i Azure Application Insights. Du kan använda den här telemetrin för att övervaka loggade meddelanden och händelser som skickas till och från din agent, ämnen som ska utlösas under användarkonversationer och anpassade telemetrihändelser som kan skickas från dina ämnen.

Power Platform-resurser loggar aktiviteter i Microsoft Purview-portalen för regelefterlevnad. De flesta händelser är tillgängliga inom 24 timmar efter aktiviteten. Använd inte den här informationen för övervakning i realtid. Mer information om loggningsaktiviteter i Power Platform finns i:

Checklista för tillförlitlighet

Se den fullständiga uppsättningen med rekommendationer.