Doporučení pro navržení spolehlivé strategie monitorování a varování

Článek
01/15/2025

Platí pro toto doporučení kontrolního seznamu spolehlivosti pro Well-Architected Power Platform:

RE:08	Měřte a publikujte ukazatele stavu řešení. Průběžně zachycujte dobu provozuschopnosti a další údaje o spolehlivosti z celé úlohy a také z jednotlivých komponent a klíčových toků.

Tento průvodce popisuje doporučení pro navržení spolehlivé strategie monitorování a varování. Implementujte tuto strategii, abyste své provozní týmy informovali o stavu svého prostředí a zajistili, že splníte stanovené cíle spolehlivosti pro svou úlohu.

Definice

Pojem	definice
Metriky	Číselné hodnoty, které se shromažďují v pravidelných intervalech. Metriky popisují některé aspekty systému v konkrétním čase.
Protokoly zdrojů	Data, která systém generuje o stavu systému.
Trasování	Data, která poskytují informace o cestě, kterou požadavek prochází službami a komponentami.

Klíčové strategie návrhu

Než vytvoříte strategii monitorování a upozorňování, proveďte v rámci plánování spolehlivosti následující úkoly pro svou úlohu:

Identifikovali kritické a nekritické toky.
Provedli analýzu režimu selhání (FMA) pro vaše toky.
Identifikovali cíle spolehlivosti.
Navrhli robustní strategii testování.

Vytvořte strategii monitorování a upozornění, abyste své provozní týmy informovali, aby byly informovány o změnách stavu vaší úlohy a mohly rychle řešit problémy. Model stavu pro vaše kritické toky a pro úlohy, které zahrnují kritické toky, by měl definovat stavy v pořádku, degradované a není v pořádku. Navrhněte svou monitorovací pozici tak, abyste okamžitě zachytili změny v těchto stavech. Když se stavy změní z v pořádku na degradovaný nebo není v pořádku, měly by výstražné mechanismy spustit automatická opatření na obnovu a upozornění odpovědným týmům.

Implementujte následující doporučení a navrhněte strategii monitorování a varování, která splňuje požadavky vašeho podnikání.

Obecné pokyny

Pochopte rozdíl mezi metrikami, protokoly a stopami.

Zapněte protokolování pro všechny cloudové zdroje. Pomocí automatizace a správy ve svých nasazeních aktivujte protokolování diagnostiky v celém prostředí.

Předávejte všechny diagnostické protokoly do centralizované datového cíle a analytické platformy, jako je pracovní prostor služby Log Analytics. Pokud máte regionální požadavky na suverenitu dat, musíte používat místní datové cíle v regionech, na které se tyto požadavky vztahují.

Kompromis: Ukládání a vyhledávání v protokolech s sebou nese finanční náklady. Všimněte si, jak vaše analýza a uchovávání protokolů ovlivňuje váš rozpočet, a určete nejlepší rovnováhu využití pro splnění vašich požadavků.

Pokud vaše úlohy podléhají jednomu nebo více rámcům dodržování předpisů, některé protokoly komponent, které zpracovávají citlivé informace, také podléhají těmto rámcům. Odešlete příslušné protokoly součástí do systému s informacemi o zabezpečení a správa akcí (SIEM), jako je Microsoft Sentinel.

Vytvořte zásadu uchovávání protokolů, která zahrnuje dlouhodobé požadavky na uchovávání, které na vaši úlohu kladou rámce dodržování předpisů.

Použijte strukturované protokolování pro všechny zprávy protokolu k optimalizaci dotazování na data protokolu.

Nakonfigurujte výstrahy tak, aby se spouštěly, když hodnoty překročí kritické prahové hodnoty, které korelují se změnou stavu modelu stavu, například ze zelené na žlutou nebo červenou. Konfigurace prahu je praxí neustálého zlepšování. Jak se úloha vyvíjí, prahové hodnoty, které definujete, se mohou měnit.

Zvažte použití výstrah, když se stav zlepší, jako je červená na žlutou nebo červenou na zelenou, aby operační týmy mohly tyto události sledovat pro budoucí použití.

Vizualizujte stav svého prostředí v reálném čase pomocí vlastních řídicích panelů.

Použijte data shromážděná během incidentů k neustálému zlepšování svých modelů stavu.

Zahrňte monitorování a upozorňování cloudové platformy, včetně stavu na úrovni platformy.

Zahrňte účelové pokročilé monitorování a analýzy, které nabízí váš poskytovatel cloudu, jako jsou nástroje poznatků Azure Monitor.

Implementujte monitorování zálohování a obnovy pro zachycení:

Stav replikace dat, abyste zajistili, že vaše úloha dosáhne obnovení v rámci cíle cílového bodu obnovení (RPO).
Úspěšné a neúspěšné zálohy a obnovy.
Doba trvání obnovy, která informuje vaše plánování obnovy po havárii.

Monitorování aplikací a agentů

Protokolujte data, když aplikace nebo agent běží v produkčním prostředí. K diagnostice příčiny problémů v produkčním stavu potřebujete dostatek informací.

Protokoluje události na hranicích služby. Zahrňte ID korelace, které překračuje hranice služby. Pokud transakce prochází více službami a jedna z nich selže, ID korelace vám pomůže sledovat požadavky napříč vaší aplikací a určit, proč transakce selhala.

Oddělte protokolování aplikace a agenta od auditování. Auditní záznamy jsou běžně uchovávány kvůli shodě nebo regulačním požadavkům a musí být úplné. Chcete-li se vyhnout ztraceným transakcím, udržujte protokoly auditu odděleně od protokolů diagnostiky.

Pomocí monitorování bílé skříňky můžete instrumentovat aplikaci nebo agenta pomocí sémantických protokolů a metrik. Shromažďujte metriky a protokoly na úrovni aplikace a agenta, jako je spotřeba paměti nebo latence požadavků, z aplikace nebo agent za účelem informování modelu stavu a detekce a predikce problémů.

Použijte monitorování černé skříňky k měření služeb platformy a výsledného zákaznického prostředí. Monitorování černé skříňky testuje externě viditelné chování aplikace nebo agent bez znalosti vnitřností systému. Tento přístup je běžný pro měření zákaznicky orientovaných ukazatelů úrovně služeb (SLI), cílů úrovně služeb (SLO) a dohod o úrovni služeb (SLA).

Monitorování dat a úložiště

Sledujte metriky dostupnosti vašich úložných kontejnerů. Když tato metrika klesne pod 100 %, znamená to neúspěšné zápisy. Když úlohu spravuje váš poskytovatel cloudu, může dojít k přechodnému poklesu dostupnosti. Sledujte trendy dostupnosti a zjistěte, zda došlo k problému s úlohou. V některých případech pokles metrik dostupnosti pro úložný kontejner indikuje úzké místo ve výpočetní vrstvě, která je spojena s úložným kontejnerem.

Existuje mnoho metrik ke sledování databází. V kontextu spolehlivosti patří mezi důležité metriky, které je třeba sledovat:

Doba trvání dotazu
Časové limity
Doby čekání
Přetížení paměti
Zámky

Usnadnění díky Power Platform

Power Platform se integruje s Application Insights, což je součást ekosystému Azure Monitor. Tuto integraci můžete použít k:

Přihlášení k odběru telemetrie získané platformou Dataverse v Application Insights o diagnostice, výkonu a operacích, které aplikace provádějí na vaší databázi Dataverse a v rámci modelem řízených aplikací. Tato telemetrie poskytuje informace, které můžete použít k diagnostice a řešení problémů souvisejících s chybami a výkonem.
Připojení aplikace plátna do Application Insights k použití těchto analýz k diagnostice problémů, porozumění tomu, co uživatelé s vašimi aplikacemi skutečně dělají, zajištění lepších obchodních rozhodnutí a zlepšení kvality vašich aplikací.
Konfigurace telemetrie Power Automate, aby směřovala do Application Insights. Tuto telemetrii můžete použít ke sledování provádění cloudových toků a vytváření výstrah na selhání běhu cloudových toků.
Zachyťte telemetrická data z vašeho agenta Microsoft Copilot Studio pro použití v Azure Application Insights. Tuto telemetrii můžete použít k monitorování protokolovaných zpráv a událostí odesílaných do a z vašeho agent, témat, která se mají aktivovat během konverzací uživatelů, a vlastních událostí telemetrie, které se dají odesílat z vašich témat.

Prostředky Power Platform protokolují aktivity v portálu pro dodržování předpisů Microsoft Purview. Většina akcí je dostupná do 24 hodin od aktivity. Tyto informace nepoužívejte pro monitorování v reálném čase. Pro více informací o protokolování aktivit v Power Platform, viz:

Vaše úloha Power Platform může zahrnovat prostředky Azure. Další informace o doporučeních k monitorování pro prostředky Azure najdete v tématu Doporučení pro navrhování a vytváření systému monitorování.

Startovací sada CoE Power Platform je referenční implementace obsahující kolekci komponent a nástrojů, které jsou navrženy tak, aby pomohly začít s vývojem strategie pro přijetí a podporu Power Platform. Tato sada poskytuje automatizace a nástroje, které pomáhají týmům budovat monitorování a automatizaci nezbytnou pro podporu CoE.

Jak zkontrolovat stav mé služby online?

Kontrolní seznam spolehlivosti

Podívejte se na úplný soubor doporučení.

Kontrolní seznam spolehlivosti

Sdílet prostřednictvím

Doporučení pro navržení spolehlivé strategie monitorování a varování

Klíčové strategie návrhu

Obecné pokyny

Monitorování aplikací a agentů

Monitorování dat a úložiště

Usnadnění díky Power Platform

Kontrolní seznam spolehlivosti

Váš názor

Další materiály

Sdílet prostřednictvím

Doporučení pro navržení spolehlivé strategie monitorování a varování

Klíčové strategie návrhu

Obecné pokyny

Monitorování aplikací a agentů

Monitorování dat a úložiště

Usnadnění díky Power Platform

Související informace

Kontrolní seznam spolehlivosti

Váš názor

Další materiály