Sdílet prostřednictvím


Doporučení pro návrh strategie reakce na mimořádné události

Platí pro toto doporučení kontrolního seznamu provozní dokonalosti pro Power Platform Well-Architected:

OE:07 Vyviňte efektivní praxi nouzového provozu. Ujistěte se, že vaše úloha vysílá smysluplné signály o stavu. Shromážděte výsledná data a použijte je ke generování výstrah s akcemi, které spustí nouzové reakce prostřednictvím řídicích panelů a dotazů. Jasně definujte lidské odpovědnosti, jako je střídání dostupnosti na zavolání, řízení incidentů, přístup k nouzovým zdrojům a provádění pitev.

Tento průvodce popisuje doporučení pro návrh strategie reakce na mimořádné události Některé z vašich úloh můžou být kritické a problémy, ke kterým dojde v průběhu životního cyklu úlohy, můžou být natolik závažné, že je vyhlásí jako nouzové. Můžete implementovat přísně kontrolované a zaměřené procesy a postupy, které může váš tým dodržovat, abyste zajistili, že problém bude vyřešen klidným a uspořádaným způsobem. Mimořádné události přirozeně zvyšují úroveň stresu všech a mohou vést k chaotickému prostředí, pokud váš tým není dobře připraven. Abyste minimalizovali stres a zmatky, navrhněte strategii reakce, sdílejte strategii reakce se svou organizací a provádějte pravidelná školení reakce na mimořádné události.

Klíčové strategie návrhu

Strategie reakce na mimořádné události by měla být dobře definovaným souborem procesů a postupů. Každý proces a postup by měl mít skripty, které zajistí, že každý krok posune váš tým směrem k rychlému a bezpečnému vyřešení problému. Chcete-li vytvořit strategii reakce na mimořádné události, zvažte následující přehled:

  • Předpoklady
    • Vyviňte systém monitorování
    • Vytvořte plán reakce na incidenty
  • Fáze incidentu
    • Detekce a omezení
    • Posouzení
  • Fáze po incidentu
    • Analýza hlavní příčiny (PCA)
    • Pitva
  • Probíhající aktivita
    • Cvičení reakce na krizové situace

Následující části obsahují doporučení k těmto jednotlivým fázím.

Monitorovací systém

Chcete-li mít robustní strategii reakce na mimořádné události, musíte mít zaveden robustní monitorovací systém nebo platformu pozorovatelnosti. Vaše platforma pozorovatelnosti by měla mít následující vlastnosti:

  • Holistické monitorování: Ujistěte se, že důkladně monitorujete svou úlohu z hlediska konfigurace a aplikace, a zahrňte monitorování infrastruktury, pokud jsou součásti vaší úlohy hostovány v cloudu nebo místně. Ujistěte se, že všechny komponenty vaší úlohy jsou pokryté vaší strategií monitorování. Pokud například vaše úloha komunikuje s Azure prostředky nebo místním systémem, zahrňte tyto komponenty do monitorování.

  • Podrobné protokolování: Zapněte pro své komponenty podrobné protokolování, které vám pomůže s vyšetřováním při určování priority problému. Strukturujte protokoly tak, aby se daly snadno spravovat. Automaticky posílejte protokoly do datových cílů, aby byly připraveny k analýze.

  • Užitečné řídicí panely: Vytvářejte řídicí panely založené na vašem modelu stavu, které jsou přizpůsobené každému týmu ve vaší organizaci. Různé týmy jsou zodpovědné za různé aspekty stavu úlohy.

  • Akční výstrahy: Vytvářejte výstrahy, které jsou užitečné pro vaše pracovní týmy. Vyhněte se upozorněním, která nevyžadují akci od vašich týmů. Příliš mnoho upozornění tohoto druhu může vést k tomu, že lidé budou upozornění ignorovat nebo blokovat.

  • Automatická upozornění: Zajistěte, aby příslušné týmy automaticky dostávaly upozornění, která od nich vyžadují akci. Například váš tým podpory úrovně 1 by měl dostávat oznámení o všech výstrahách, zatímco vaši bezpečnostní technici by měli dostávat výstrahy pouze pro události zabezpečení.

Další informace viz Doporučení pro návrh a vytvoření rámce monitorování.

Plán reakce na incident

Základem strategie reakce na mimořádné události je plán reakce na incidenty. Stejně jako u plánu obnovy po havárii jasně a důkladně definujte role, odpovědnosti a postupy pro reakci na incident. Plán by měl být dokument s řízením verzí, který podléhá pravidelným revizím, které zajišťují jeho aktuálnost.

Ve svém plánu jasně definujte následující součásti.

Role

Identifikujte manažera reakce na incidenty. Tato osoba nese odpovědnost za incident od zahájení přes nápravu až po analýzu hlavní příčiny. Manažer reakce na incidenty zajišťuje, aby byly procesy dodržovány a příslušné strany byly informovány, když tým reakce provádí svou práci.

Identifikujte vedoucího pitvy. Tato osoba zajišťuje, že pitvy jsou provedeny brzy po vyřešení incidentu. Vytvoří zprávu, která vám pomůže aplikovat zjištění vyplývající z incidentu.

Procesy a postupy

Váš pracovní tým by měl definovat a porozumět krizovým kritériím. Když váš tým určí, že případ je vážný, můžete vyhlásit katastrofu a zahájit plán zotavení po havárii. V méně závažných případech nemusí problém splňovat kritéria katastrofy, ale přesto byste měli problém považovat za nouzový, což vyžaduje zahájení plánu reakce na mimořádné události. Nouzové stavy mohou být buď interní ve vaší úloze (jako jsou chyby v kódu vaší aplikace), nebo v důsledku problému se závislostí vaší úlohy (jako je nedostupnost rozhraní API nebo databáze). Nouzová situace může být způsobena také výpadkem vašeho dodavatele (například problém s Microsoft Entra ID nebo Power Platform). Tým podpory musí být schopen určit, jestli problém splňuje nouzová kritéria, a to i v případě, že tým nemá přehled o základním problému.

Přesně definujte plány komunikace a eskalace. V závislosti na typu výstražného oznámení, které obdrží, se ujistěte, že členové týmu podpory vrstvy 1 můžou snadno kontaktovat příslušné týmy pro eskalaci problémů.

Další položky, které je třeba zahrnout

Zdokumentujte všechny standardní nástroje, které se používají během incidentů pro interní komunikaci, jako je Microsoft Teams a pro sledování aktivit v průběhu incidentu, jako jsou nástroje pro vytváření lístků nebo nástroje pro plánování backlogu.

Zdokumentujte své nouzové přihlašovací údaje, jinak označované jako účty rozbití skla. Zahrňte průvodce krok za krokem, který popisuje, jak by se měly používat.

Vytvořte pokyny pro nácvik reakce na nouzové situace a veďte si záznamy o tom, kdy jsou cvičení prováděna.

Zdokumentujte veškerá nezbytná právní nebo regulační opatření, jako je oznamování úniků dat.

Detekce a omezování incidentů

Když máte dobře navržený monitorovací systém, který monitoruje anomálie a automaticky na ně upozorňuje, můžete rychle odhalit problémy a určit jejich závažnost. Pokud je problém považován za nouzový, může být plán zahájen. V některých případech není tým podpory upozorněn prostřednictvím monitorovacího systému. Uživatelé mohou nahlásit problémy podpoře pomocí komunikačních cest týmu podpory. Nebo můžou kontaktovat pracovníky, se kterými pravidelně spolupracují nebo o kterých vědí, že pracují s Power Platform, jako jsou vaši správci služeb Power Platform nebo tým Center of Excellence. Bez ohledu na to, jak je tým podpory upozorněn, měl by vždy postupovat podle stejných kroků k ověření problému a určení závažnosti. Odchylka od plánu reakce může přidat stres a zmatek.

Posouzení

Prvním krokem při nápravě problému je identifikace součásti úlohy, která problém způsobuje. Kroky, které provedete během určování priority, závisí na typu problému. Tým pro určitou oblast podpory pracovního vytížení by měl vytvořit postupy pro incidenty, které souvisejí s jeho prací. Bezpečnostní týmy by například měly určovat prioritu bezpečnostních problémů a měly by se řídit skripty, které vyvinou. Je důležité, aby týmy při určování priority dodržovaly dobře definované skripty. Tyto skripty by měly být podrobné pokyny, které zahrnují procesy vrácení zpět pro vrácení změn, které jsou neúčinné nebo mohou způsobit jiné problémy. Po vyřešení problému postupujte podle dobře definovaných procesů, abyste postiženou komponentu bezpečně vrátili zpět na cestu toku úlohy.

Vykazování analýzy hlavní příčiny

Vlastník incidentu nebo někdo, kdo s ním úzce spolupracoval, by měl vytvořit sestavy analýzy hlavní příčiny (RCA). Tato strategie zajišťuje přesné zachycení incidentu. Organizace mají obvykle definovanou šablonu RCA s pokyny o tom, jak jsou informace prezentovány a jaké druhy informací lze nebo nelze sdílet. Pokud potřebujete vytvořit vlastní šablonu a pokyny, ujistěte se, že je zúčastněné strany zkontrolují a schválí.

Pitvy incidentu

Nestranná osoba by měla vést pitvy bez hledání viny. Na pitvách každý sdílí své poznatky z incidentu. Každý tým, který se podílel na reakci na incident, by měl být zastoupen jednotlivci, kteří na incidentu pracovali. Tito jednotlivci by měli přijít na zasedání připraveni s příklady akcí, které byly úspěšné, a oblastmi, které lze zlepšit. Setkání není fórem pro přiřazování viny za incident nebo problémy, které by se mohly objevit během reakce. Vedoucí pitvy by měl opustit schůzku s jasným seznamem akcí, které se zaměřují na zlepšení, jako například:

  • Vylepšení plánu reakce. Procesy nebo postupy může být nutné přehodnotit a přepsat, aby lépe zachytily vhodné akce.
  • Vylepšení monitorovacího systému. Možná bude nutné přehodnotit prahové hodnoty, aby byl určitý typ incidentu zachycen dříve, nebo může být nutné implementovat nové monitorování k zachycení chování, které nebylo zohledněno.
  • Vylepšení úlohy. Incident může odhalit zranitelnost v úloze, která musí být řešena jako trvalá náprava.

Důležité informace

Vaše strategie reakce na mimořádné události by měla být úzce sladěna s vaší celkovou strategií podpory Power Platform. Spolupracujte se správci Power Platform a týmem Center of Excellence a prodiskutujte možnosti podpory a reakce na mimořádné události a procesy, které už mohou být definovány.

Když definujete proces podpory a cestu eskalace, je důležité řešení kategorizovat na základě kritičnosti. Tento postup umožňuje vytvořit procesy, které zajistí, že kritické aplikace budou mít potřebné ochranné mantinely pro jejich podporu, aniž by to potlačovalo inovace scénářů produktivity nebo zahlcovalo týmy reakce na incidenty. Když definujete své modely podpory, myslete také na postupnou cestu. Řešení může začít tím, že bude vyžadovat pouze podporu na úrovni produktivity, ale rozroste se funkčnost nebo uživatelská základna a bude vyžadovat vyšší úroveň podpory. Definujte, jak mohou tvůrci požadovat formálnější podporu a převést řešení mezi podporovaná prostředí.

Usnadnění díky Power Platform

Power Platform se integruje s Application Insights, což je součást ekosystému Azure Monitor. Tuto integraci použijte k:

  • Příjmu telemetrie o diagnostice a výkonu zaznamenaném platformou Dataverse v Application Insights. Můžete se přihlásit k odběru a přijímat telemetrii o operacích, které aplikace provádějí na vaší databázi Dataverse a v rámci modelem řízených aplikací. Tato telemetrie poskytuje informace, které můžete použít k diagnostice a řešení problémů souvisejících s chybami a výkonem.

  • Připojte aplikace plátna k Application Insights. Tyto analýzy můžete použít k diagnostice problémů a pochopení toho, co uživatelé s vašimi aplikacemi dělají. Můžete shromažďovat informace, které vám pomohou činit lepší obchodní rozhodnutí a zlepšovat kvalitu aplikací.

  • Nakonfigurujte Telemetrii Power Automate, která má proudit do Application Insights, například k monitorování spouštění cloudového toku a vytváření upozornění na selhání spuštění cloudového toku.

  • Zachyťte telemetrická data z vašeho agenta Microsoft Copilot Studio pro použití v Azure Application Insights. Tuto telemetrii můžete použít k monitorování protokolovaných zpráv a událostí odesílaných do a z vašeho agent, témat, která se mají aktivovat během konverzací uživatelů, a vlastních událostí telemetrie, které se dají odesílat z vašich témat.

Application Insights je komplexní řešení pro shromažďování, analýzu a reakci na monitorovací data z cloudových a místních prostředí. Zahrnuje robustní platformu upozornění, kterou můžete nakonfigurovat pro automatická upozornění a další akce.

Automatizační sada Power Platform je sada nástrojů, které urychlují používání a podporu Power Automate pro desktopy pro projekty automatizace. Sada poskytuje nástroje, které vám pomohou řídit projekty automatizace a monitorovat je za účelem odhadu ušetřených peněz a návratnosti investic (ROI). Součástí automatizační sady je řídicí centrum, které doplňuje stávající funkci Monitorování spuštění desktopového toku. Klíčovým zaměřením řídicího centra je pohled orchestrátora pro analytiky podpory a organizace, aby mohli monitorovat, přijímat opatření a v případě potřeby upozorňovat.

Další kroky