Doporučení pro provádění analýzy režimu selhání
Platí pro toto doporučení kontrolního seznamu spolehlivosti pro Well-Architected Power Platform:
RE:03 | Použijte analýzu režimu selhání (FMA) k identifikaci a stanovení priority potenciálních selhání součástí vašeho řešení. Proveďte FMA, která vám pomůže posoudit riziko a účinek každého režimu selhání. Určete, jak bude úloha reagovat a jak se obnoví. |
---|
Tato příručka popisuje nejlepší postupy pro provádění analýzy režimu selhání (FMA) pro vaši úlohu. FMA je postup identifikace potenciálních bodů selhání v rámci úlohy a souvisejících toků a plánování opatření k řešení podle toho. V každém kroku toku identifikujete rozsah škod různých typů selhání, což vám pomůže navrhnout nové úlohu nebo refaktorovat stávající úlohu, abyste minimalizovali široký vliv selhání.
Klíčovým principem FMA je, že k selháním dochází bez ohledu na to, kolik vrstev odolnosti použijete. Složitější prostředí jsou vystavena více typům poruch. Vzhledem k této realitě vám FMA umožňuje navrhnout vaši úlohu tak, aby odolala většině typů selhání a aby se v případě selhání plynule obnovila.
Pokud FMA úplně vynecháte nebo provedete neúplnou analýzu, vaše úloha je ohrožena nepředvídatelným chováním a potenciálními výpadky způsobenými neoptimálním návrhem.
Definice
Pojem | definice |
---|---|
Režim selhání | Typ problému, který může způsobit zhoršení nebo vážné ovlivnění jedné nebo více komponent úlohy do té míry, že nebudou dostupné. |
Zmírnění | Činnosti, které jste určili k řešení problémů buď proaktivně, nebo reaktivně. |
Detekce | Procesy a postupy pro monitorování a upozorňování vašich dat a aplikací. |
Klíčové strategie návrhu
V kontextu FMA je pochopení předpokladů zásadní. Začněte revizí a implementací doporučení pro identifikaci toků a upřednostněte je na základě kritičnosti. Vaše datové artefakty hrají klíčovou roli při popisu datových cest v rámci těchto toků. Když se ponoříte do přístupu FMA, zaměřte se na plánování komponent pro kritické toky, identifikaci závislostí (interních i externích) a navrhování strategií řešení.
Předpoklady
Zkontrolujte a implementujte doporučení pro identifikaci a hodnocení toků. Předpokládá se, že jste identifikovali a upřednostnili uživatelské a systémové toky na základě kritičnosti.
Data, která jste shromáždili, a artefakty, které jste vytvořili ve své práci, vám poskytnou konkrétní popis vašich datových cest zahrnutých v průběhu toků. Abyste byli úspěšní ve své práci FMA, je kritická přesnost a důkladnost vašich artefaktů.
Přístup FMA
Poté, co určíte kritické toky, můžete naplánovat jejich požadované součásti. Dále postupujte podle jednotlivých toků krok za krokem, abyste identifikovali závislosti, včetně služeb třetích stran a potenciálních bodů selhání, a naplánujte své strategie řešení.
Rozložte úlohu
Když přejdete od nápadu k návrhu, musíte identifikovat typy komponent, které jsou vyžadovány pro podporu úlohu. Vaše úloha určuje nezbytné součásti, které musíte naplánovat.
Po vytvoření počátečního návrhu architektury můžete překrýt své toky, abyste identifikovali samostatné komponenty, které se v těchto tocích používají, a vytvořit seznamy nebo diagramy pracovních postupů, které popisují toky a jejich komponenty. Chcete-li porozumět kritičnosti komponent, použijte definice kritičnosti, které jste přiřadili tokům. Zvažte vliv poruchy součásti na vaše toky.
Identifikuje závislosti
Identifikujte závislosti úlohy, abyste mohli provést analýzu jednoho bodu selhání. Rozložení úlohy a překrytí toků poskytuje náhled na závislosti, které jsou interní a externí vzhledem k úloze.
Interní závislosti jsou komponenty v oboru úlohy, které jsou nutné pro fungování úlohy. Mezi typické interní závislosti patří rozhraní API nebo řešení správy tajných klíčů / klíčů, jako je Azure Key Vault. Pro tyto závislosti zachyťte data spolehlivosti, jako jsou dohody o úrovni služeb (SLA) a limity škálování. Externí závislosti jsou požadované součásti mimo rozsah úlohy, jako je jiná aplikace nebo služba třetí strany. Typické externí závislosti zahrnují autentizační řešení, např. Microsoft Entra ID a infrastruktura Power Platform.
Identifikujte a zdokumentujte závislosti v úloze a zahrňte je do artefaktů dokumentace toku.
Body selhání
V kritických tocích úlohy zvažte každou komponentu a určete, jak může být tato komponenta a její závislosti ovlivněny režimem selhání. Pamatujte, že existuje mnoho způsobů selhání, které je třeba vzít v úvahu při plánování odolnosti a obnovy. Každá komponenta může být v daném okamžiku ovlivněna více než jedním režimem poruchy. Mezi tyto režimy selhání patří:
- Regionální výpadek: Celá oblast Power Platform oblast Azure není k dispozici
- Výpadek služby: Jedna nebo více služeb Power Platform nebo Azure nejsou dostupné
- Distribuované odmítnutí služby (DDoS) nebo jiný útok
- Chyba konfigurace aplikace nebo komponenty
- Chyba operátora
- Výpadek z důvodu plánované údržby
- Přetížení komponenty
Zvažte pravděpodobnost každého typu režimu selhání. Některé jsou velmi nepravděpodobné, jako například výpadky ve více zónách nebo více regionech, a přidání plánování řešení nad rámec redundance není dobrým využitím zdrojů a času.
Zmírnění
Strategie řešení spadají do dvou širokých kategorií: budování větší odolnosti a navrhování pro snížený výkon.
Budování větší odolnosti znamená zajištění toho, že návrh vaší aplikace bude dodržovat osvědčené postupy pro odolnost; například rozdělení monolitických aplikací na izolované aplikace a mikroslužby a použití konfigurací odolnosti poskytované platformou, jako jsou zásady opakování. Další informace naleznete v části Doporučení pro redundanci a Doporučení pro sebezáchovu.
V návrhu na snížený výkon identifikujte potenciální body selhání, které by mohly deaktivovat jednu nebo více součástí vašeho toku, ale ne zcela deaktivovat tento tok. Chcete-li zachovat úplnou funkčnost toku, možná budete muset přesměrovat jeden nebo více kroků na jiné komponenty nebo přijmout, že komponenta, která selhala, spouští funkci, takže funkce již není v uživatelském prostředí dostupná. Abychom se vrátili k příkladu aplikace elektronického obchodu, vadná komponenta, jako je mikroslužba, může způsobit, že váš modul doporučení nebude k dispozici, ale zákazníci mohou stále vyhledávat produkty a provádět transakce.
Musíte také naplánovat řešení ohledně závislostí. Silné závislosti hrají zásadní roli ve funkci a dostupnosti aplikace. Pokud chybí nebo dochází k poruše, může to mít významný vliv. Absence slabých závislostí může ovlivnit pouze specifické funkce a neovlivnit celkovou dostupnost. Toto rozlišení odráží náklady na udržení vztahu vysoké dostupnosti mezi službou a jejími závislostmi. Klasifikujte závislosti jako silné nebo slabé, abyste mohli určit, které komponenty jsou pro aplikaci nezbytné.
Pokud má aplikace silné závislosti, bez kterých nemůže fungovat, měly by se cíle dostupnosti a obnovy těchto závislostí shodovat s cíli samotné aplikace. Pokud je životní cyklus aplikace úzce spojen s životním cyklem jejích závislostí, provozní agilita aplikace může být omezená, zejména u nových verzí.
Detekce
Detekce selhání je nezbytná k zajištění toho, že jste ve své analýze správně identifikovali body selhání a správně naplánovali své strategie zmírnění. Detekce v tomto kontextu znamená monitorování vaší infrastruktury, dat a aplikací a upozornění, když nastanou problémy. Automatizujte detekci, jak je to jen možné, a zabudujte do svých provozních procesů redundanci, abyste zajistili, že výstrahy budou vždy zachyceny a budou na ně reagovat dostatečně rychle, aby vyhovovaly vašim obchodním požadavkům. Další informace viz : Doporučení pro monitorování.
Výsledek
Pro výsledek své analýzy vytvořte sadu dokumentů, které efektivně sdělují vaše zjištění, rozhodnutí, která jste učinili ve vztahu ke komponentám toku a řešení dopadů selhání na vaši úlohu.
Ve své analýze upřednostněte režimy selhání a strategie řešení, které jste určili na základě závažnosti a pravděpodobnosti. Pomocí tohoto stanovení priorit zaměřte svou dokumentaci na ty režimy selhání, které jsou běžné a dostatečně závažné, aby vyžadovaly vynaložení času, úsilí a zdrojů na navrhování strategií řešení. Mohou například existovat některé režimy selhání, které jsou velmi vzácné ve výskytu nebo detekci. Navrhování strategií řešení kolem nich nestojí za to.
Počáteční bod dokumentace naleznete ve vzorové tabulce.
Během počátečního cvičení FMA budou dokumenty, které vytvoříte, převážně teoretické plánování. Dokumenty FMA by měly být pravidelně kontrolovány a aktualizovány, aby bylo zajištěno, že budou aktuální s ohledem na úlohu. Testování chaosu a reálné zkušenosti vám pomohou vylepšit vaše analýzy v průběhu času.
Příklad
Následující tabulka ukazuje příklad FMA pro výdajovou aplikaci, která je hostována jako aplikace plátna Power Apps s backendem Microsoft Dataverse a rozhraními API hostovanými v APIM pro interakci se systémem třetí strany.
Tok uživatele: Přihlášení uživatele, odeslání žádosti o výdaje a interakce se zprávou o výdajích
Komponenta | Riziko | Pravděpodobnost | Vliv / řešení / poznámka | Výpadek |
---|---|---|---|---|
Microsoft Entra ID | Výpadek služby | Nízká | Úplný výpadek úlohy. Náprava závisí na společnosti Microsoft. | Úplný |
Microsoft Entra ID | Nesprávná konfigurace | střední | Uživatelé se nemohou přihlásit. Žádný následný efekt. Help desk hlásí problém s konfigurací týmu identity. | Žádné |
Power Apps | Výpadek služby | Nízká | Úplný výpadek pro externí uživatele. Náprava závisí na společnosti Microsoft. | Úplný |
Power Apps | Regionální výpadek | Velmi nízký | Úplný výpadek pro externí uživatele. Náprava závisí na společnosti Microsoft. | Úplný |
Power Apps | Útok DDoS | střední | Potenciál narušení. Microsoft spravuje ochranu DDoS (L3 a L4). | Možnost částečného výpadku |
Dataverse | Výpadek služby | Nízká | Úplný výpadek úlohy. Náprava závisí na společnosti Microsoft. | Úplný |
Dataverse | Regionální výpadek | Velmi nízký | Automatické převzetí služeb při selhání do sekundární oblasti. Potenciální výpadek během převzetí služeb při selhání. Cíle doby obnovy (RTO) a cíle bodů obnovy (RPO), které mají být stanoveny během testování spolehlivosti. | Potenciálně úplný |
Dataverse | Útok (injektáž) | střední | Minimální riziko. | Potenciální nízké riziko |
API management | Výpadek služby | Nízká | Úplný výpadek pro externí uživatele. Náprava závisí na společnosti Microsoft. | Úplný |
API management | Regionální výpadek | Velmi nízký | Úplný výpadek pro externí uživatele. Náprava závisí na společnosti Microsoft. | Úplný |
API management | Útok DDoS | střední | Potenciál narušení. Microsoft spravuje ochranu DDoS (L3 a L4). | Možnost částečného výpadku |
Vaše řešení Power Platform | Nesprávná konfigurace | střední | Chybné konfigurace by měly být zachyceny během nasazení. Pokud k tomu dojde během aktualizace konfigurace, musí správci vrátit změny. Aktualizace konfigurace způsobí krátký externí výpadek. | Možnost úplného výpadku |
Usnadnění díky Power Platform
Power Platform se integruje s Application Insights, což je součást ekosystému Azure Monitor. Tuto integraci můžete použít k:
Přihlášení k odběru telemetrie získané platformou Dataverse v Application Insights o diagnostice, výkonu a operacích, které aplikace provádějí na vaší databázi Dataverse a v rámci modelem řízených aplikací. Tato telemetrie poskytuje informace, které můžete použít k diagnostice a řešení problémů souvisejících s chybami a výkonem.
Připojení aplikace plátna do Application Insights k použití těchto analýz k diagnostice problémů, porozumění tomu, co uživatelé s vašimi aplikacemi skutečně dělají, zajištění lepších obchodních rozhodnutí a zlepšení kvality vašich aplikací.
Konfigurace telemetrie Power Automate, aby směřovala do Application Insights. Tuto telemetrii můžete použít ke sledování provádění cloudových toků a vytváření výstrah na selhání běhu cloudových toků.
Zachyťte telemetrická data z vašeho agenta Microsoft Copilot Studio pro použití v Azure Application Insights. Tuto telemetrii můžete použít k monitorování protokolovaných zpráv a událostí odesílaných do a z vašeho agent, témat, která se mají aktivovat během konverzací uživatelů, a vlastních událostí telemetrie, které se dají odesílat z vašich témat.
Prostředky Power Platform protokolují aktivity v portálu pro dodržování předpisů Microsoft Purview. Většina akcí je dostupná do 24 hodin od aktivity. Tyto informace nepoužívejte pro monitorování v reálném čase. Pro více informací o protokolování aktivit v Power Platform, viz:
- Power Apps
- Power Automate
- Copilot Studio
- Power Pages
- Konektory Power Platform
- Ochrana před únikem informací
- Protokoly správy Power Platform
- Auditování Dataverse
Kontrolní seznam spolehlivosti
Podívejte se na úplný soubor doporučení.