Sdílet prostřednictvím


Doporučení pro návrh a vytvoření monitorovacího systému

Platí pro toto doporučení kontrolního seznamu provozní dokonalosti pro Power Platform Well-Architected:

OE:06 Navrhněte a implementujte monitorovací systém pro ověřování návrhových voleb a informování o budoucích návrhových a obchodních rozhodnutích. Tento systém zachycuje a zpřístupňuje provozní telemetrii, metriky a protokoly, které se generují z úlohy.

Tento průvodce popisuje doporučení pro navržení a vytvoření systému monitorování. Chcete-li efektivně monitorovat svou úlohu z hlediska zabezpečení, výkonu a spolehlivosti, potřebujete komplexní systém s vlastním systémem, který poskytuje základ pro všechny funkce monitorování, detekce a upozornění.

Definice

Pojem definice
Protokoly Zaznamenané systémové události. Protokoly mohou obsahovat různé typy dat ve strukturovaném nebo volném textovém formátu. Obsahují časové razítko.
Metriky Číselné hodnoty, které se shromažďují v pravidelných intervalech. Metriky popisují některé aspekty systému v konkrétním čase.

Klíčové strategie návrhu

Chcete-li implementovat komplexní návrh monitorovacího systému pro vaši úlohu, dodržujte tyto základní zásady:

  • Kdykoli je to možné, využijte monitorovací nástroje poskytované platformou, které obvykle vyžadují minimální konfiguraci a můžou poskytnout podrobné přehledy o vašich úlohách, které by jinak mohlo být obtížné získat.

  • Sbírejte protokoly a metriky z celého systému úlohy. Všechny komponenty a zdroje s malým psaním kódu a kódem na prvním místě by měly být nakonfigurovány tak, aby produkovaly standardizovaná, smysluplná data a tato data je třeba shromažďovat.

  • Uchovávejte shromážděná data ve standardizovaném, spolehlivém a bezpečném řešení úložiště.

  • Zpracovávejte uložená data tak, aby s nimi bylo možné zacházet pomocí analytických a vizualizačních řešení.

  • Analyzujte zpracovaná data, abyste přesně určili stav úlohy.

  • Vizualizujte stav úlohy ve smysluplných řídicích panelech nebo sestavách pro týmy úlohy a další zúčastněné strany.

  • Nakonfigurujte akční výstrahy a další automatické reakce na inteligentně definované prahové hodnoty, abyste upozornili týmy úlohy, když nastanou problémy.

  • Zahrňte monitorovací a varovné systémy do svých celkových postupů testování úlohy.

  • Zajistěte, aby monitorovací a výstražné systémy byly v oboru pro neustálé zlepšování. Aplikační a konfigurační chování v produkci poskytuje příležitosti k neustálému učení. Zahrňte tyto lekce do návrhů monitorování a upozornění.

  • Propojte data monitorování, která shromažďujete a analyzujete, zpět s vašimi systémovými a uživatelskými toky, abyste mohli korelovat stav toků s daty a také celkový stav úlohy. Analýza těchto dat z hlediska toků pomáhá sladit strategii pozorovatelnosti s vaším modelem stavu.

  • Minimalizujte ukládání jakýchkoli identifikovatelných údajů, abyste zajistili, že budete dodržovat zákony a předpisy. Pokud potřebujete ukládat identifikovatelné informace, ujistěte se, že při návrhu řešení berete v úvahu požadavky, které umožňují jednotlivcům požádat o odstranění jejich informací.

  • Nikdy nezaznamenávejte uživatelská hesla ani jiné informace, které by mohly být použity ke spáchání podvodu s identitou. Vyčistěte tyto údaje z dat před jejich uložením. Regulační požadavky mohou nařídit, že informace shromážděné pro audit a zabezpečení je třeba archivovat a uložit. Tato data jsou také citlivá a může být nutné je zašifrovat nebo jinak chránit, aby se zabránilo manipulaci.

Všechny funkce monitorovacího systému byste měli co nejvíce automatizovat a všechny by měly běžet nepřetržitě, celý den, každý den.

Tento kanál pracovního postupu ilustruje monitorovací systém:

Diagram, který ukazuje fáze komplexního monitorovacího systému jako kanál.

Kolekce

Všechny komponenty úloh byste měli nakonfigurovat bez ohledu na to, jestli se jedná o komponenty s nízkým kódováním nebo komponenty přednostně kódované nebo nastavení platformy, jako jsou prostředí a politiky, tak, aby zaznamenávaly telemetrii a události, jako jsou protokoly a metriky.

Protokoly jsou užitečné především pro detekci a vyšetřování anomálií. Protokoly jsou obvykle vytvářeny komponentou úloh a pak odeslány na monitorovací platformu nebo vytaženy monitorovací platformou s automatizací.

Metriky jsou užitečné především pro budování modelu stavu a identifikaci trendů ve výkonu a spolehlivosti úlohy. Metriky jsou také užitečné pro identifikaci trendů v uživatelském chování vašich uživatelů. Tyto trendy mohou pomoci při rozhodování o zlepšení z pohledu zákazníka. Metriky jsou obvykle definovány v monitorovací platformě a monitorovací platforma a další nástroje se dotazují úlohy, aby zachytily metriky.

Data úlohy

Použijte předpřipravenou integraci s Application Insights ke shromažďování dat. Po zapnutí Application Insights můžete získat jasný přehled o důležitých událostech, a to jak v reálném čase, tak historicky.

Protokoly aplikací podporují kompletní životní cyklus aplikace. Protokolování je nezbytné pro pochopení toho, jak aplikace funguje v různých prostředích, ke kterým událostem dochází a za jakých podmínek k nim dochází.

Doporučujeme shromažďovat protokoly aplikací a události ve všech hlavních prostředích. Pokud je to praktické, oddělte data mezi prostředími co nejvíce pomocí různých úložišť dat pro každé prostředí. Použijte filtry, abyste zajistili, že nekritická prostředí nebudou komplikovat interpretaci produkčních protokolů. Nakonec by odpovídající položky protokolu napříč aplikací měly zachytit ID korelace pro jejich příslušné transakce.

Data infrastruktury a konfigurace

U prostředků infrastruktury ve své úloze se ujistěte, že shromažďujete protokoly i metriky. Vzhledem k tomu, že Power Platform je nabídka platformy jako služby (PaaS), můžete být omezeni ve své schopnosti zachytávat protokoly související se základní infrastrukturou. Můžete však zaznamenávat protokoly a analýzy změn konfigurace a zásad souvisejících se stavem úlohy a incidenty.

Co nejvíce sbírejte protokoly ze své cloudové platformy. Možná budete moci shromažďovat protokoly aktivit pro vaše předplatné a protokoly diagnostiky pro rovinu správy.

Důležité informace o výkonu

Složitá a vysoce škálovatelná aplikace může generovat obrovské objemy dat. Množství dat může způsobit problémy s výkonem v závislosti na tom, jak podrobné je trasování na úrovni aplikace. Řešení telemetrie nesmí fungovat jako kritický bod a musí být škálovatelné při rozšiřování systému.

Analýza

Poté, co shromáždíte data z různých zdrojů, analyzujte je a vyhodnoťte celkové zdraví systému. Pro tuto analýzu mějte jasnou představu o tom:

  • Jak strukturovat data na základě klíčových ukazatelů výkonu (KPI) a dalších metrik výkonu, které jste definovali.
  • Jak korelovat data zachycená v různých metrikách a souborech protokolu. Tato korelace je důležitá při sledování sledu událostí a může vám pomoci diagnostikovat problémy.

Ve většině případů bude mít vaše úloha různé součásti a protokoly nebo události budou zachyceny v různých formátech nebo tabulkách. Budete muset přesně zkombinovat data, abyste pochopili celkový stav úlohy.

Vaše řešení Power Platform se může například skládat z následujících komponent:

  • Aplikace plátna, která uživatelům umožňuje interakci s daty
  • Modelem řízená aplikace, která umožňuje správcům konfigurovat nastavení aplikace
  • Cloudový tok, který provádí datové operace
  • Instance Dataverse, která ukládá data spojená s operací
  • Funkce Azure, která načítá data z úložiště tabulek Azure a volá se z aplikace.

Údaje o využití pro jednu obchodní operaci mohou zahrnovat všechny součásti úlohy. Tyto informace musí být korelovány, aby poskytly celkový pohled na zdroje a využití zpracování pro operaci.

Doporučení pro analýzu dat

Korelujte protokoly na úrovni aplikace a na úrovni prostředků. Vyhodnoťte data na obou úrovních, abyste optimalizovali, zjišťovali a řešili problémy.

Definujte jasné časy uchovávání při skladování pro chladnou analýzu. Tento postup doporučujeme k umožnění historické analýzy za určité období. Může vám také pomoci kontrolovat náklady na ukládání. Implementujte procesy, které zajistí archivaci dat na levnější úložiště a agregujte data pro dlouhodobou analýzu trendů.

Analyzujte dlouhodobé trendy, abyste mohli předvídat provozní problémy. Vyhodnoťte dlouhodobá data, abyste vytvořili operační strategie a také předpověděli, jaké provozní problémy pravděpodobně nastanou a kdy. Můžete si například všimnout, že průměrné doby odezvy se postupem času pomalu prodlužují a blíží se maximálnímu cíli.

Vizualizace

Vizualizace v monitorování stavu je zásadní pro pochopení stavu úlohy. Vizualizace vám může pomoct rychle identifikovat problémy a trendy a také vám může pomoct pochopit účinek změn, které v úloze provedete.

Řídicí panely

Nejběžnějším způsobem vizualizace dat je použití řídicích panelů, které mohou zobrazovat informace ve formě grafů nebo grafů. Tyto položky lze parametrizovat a analytik může vybrat důležité parametry, jako je časové období, pro jakoukoli konkrétní situaci.

Slaďte řídicí panely s modelem zdraví tak, aby indikovaly, kdy je úloha nebo komponenty úlohy v pořádku, degradované nebo ne v pořádku.

Aby systém řídicích panelů fungoval efektivně, musí být smysluplný pro tým úlohy. Vizualizujte informace, které se týkají stavu úlohy a které jsou také použitelné. Když je úloha nebo součást degradovaná nebo ne v pořádku, členové týmu úlohy by měli být schopni snadno identifikovat, kde v úloze problém vzniká, a zahájit nápravná opatření nebo vyšetřování. Naopak zahrnutí informací, které nejsou použitelné nebo které nesouvisejí se stavem úloh, může způsobit, že řídicí panel bude zbytečně složitý a frustrující pro členy týmu, kteří se snaží rozlišit šum na pozadí od použitelných dat.

Můžete mít řídicí panely pro zúčastněné strany nebo vývojáře, které jsou přizpůsobeny tak, aby zobrazovaly pouze údaje o úloze, které považují za relevantní. Ujistěte se, že tým úlohy rozumí typům datových bodů, které ostatní týmy zajímají, a před sdílením si prohlédli řídicí panely, aby si ověřili jejich přehlednost. Poskytování řídicích panelů o vaší úloze pro zúčastněné strany je dobrý způsob, jak je informovat o stavu úloh, ale nese riziko kontraproduktivity, pokud zúčastněné strany jasně nerozumí datům.

Omezte přístup k řídicímu panelu pouze na oprávněné osoby. Informace na řídicích panelech mohou být citlivé. Měli byste také chránit základní data, abyste uživatelům zabránili v jejich změně.

Nahlašování

Reporting se používá ke generování celkového pohledu na systém. Může zahrnovat historická data a aktuální informace. Požadavky na reporting spadají do dvou širokých kategorií: provozní reporting a reporting zabezpečení.

Provozní reporting obvykle zahrnuje:

  • Agregace statistik, které můžete použít k pochopení využití zdrojů celého systému nebo specifikovaných subsystémů během zadaného časového okna.
  • Identifikace trendů ve využití zdrojů pro celý systém nebo specifikované subsystémy během zadaného období.
  • Sledování výjimek, které se vyskytly v celém systému nebo v určených podsystémech během zadaného období.
  • Určení efektivity aplikace pro nasazené prostředky a pochopení, zda lze objem prostředků a jejich související náklady snížit bez zbytečného ovlivnění výkonu.

Reporting zabezpečení sleduje používání systému zákazníky. Může zahrnovat:

  • Auditování uživatelských operací. Tento úkol vyžaduje zaznamenat jednotlivé požadavky, které každý uživatel provede, spolu s daty a časy. Data by měla být strukturována tak, aby správci umožnila rychle rekonstruovat posloupnost operací, které uživatel provede během určeného období.
  • Sledování využití zdrojů uživatelem. Tato úloha vyžaduje zaznamenání, jak každý požadavek od uživatele přistupuje k různým prostředkům v systému a jak dlouho. Administrátor může tato data použít ke generování reportu o využití podle uživatele za určité období, případně pro vyúčtování.

Upozornění

Abyste zajistili, že systém zůstane v pořádku, bude reagovat a bude zabezpečený, nastavte výstrahy tak, aby na ně operátoři mohli reagovat včas. Výstraha může obsahovat dostatek kontextových informací, které mu pomohou rychle začít s diagnostickými činnostmi.

Doporučení pro výstrahy

  • Definujte proces reakce na výstrahu, který identifikuje odpovědné vlastníky a akce.
  • Nakonfigurujte výstrahy pro dobře definovaný rozsah a upravte jejich podrobnost, abyste minimalizovali šum.
  • Používejte řešení pro automatické upozornění, jako je Splunk nebo Azure Monitor, místo toho, aby lidé museli aktivně hledat problémy.
  • Pomocí výstrah zprovozněte procesy nápravy. Můžete například automaticky vytvářet lístky pro sledování problémů a řešení.

Prahové hodnoty

Upozornění jsou generována při překročení prahových hodnot, jak je detekuje váš monitorovací systém. Ujistěte se, že vám nastavené prahové hodnoty obecně poskytují dostatek času na implementaci nezbytných změn úlohy, abyste se vyhnuli degradaci nebo výpadkům. Měli byste také implementovat nezbytné zpracování chyb a zachytit známé chyby v úloze, abyste snížili počet výstrah. Nakonfigurujte například zásady opakování pro akce v cloudových tocích tak, aby se pokus o opakování uskutečnil v rámci spuštění toku a pouze v případě, že opakované pokusy selžou, je zaznamenáno selhání toku a odešle se výstraha. Další informace viz Doporučení pro návrh spolehlivé strategie monitorování a upozorňování,

Usnadnění díky Power Platform

Power Platform se integruje s Application Insights, což je součást ekosystému Azure Monitor. Tuto integraci použijte k:

  • Příjmu telemetrie o diagnostice a výkonu zaznamenaném platformou Dataverse v Application Insights. Můžete se přihlásit k odběru a přijímat telemetrii o operacích, které aplikace provádějí na vaší databázi Dataverse a v rámci modelem řízených aplikací. Tato telemetrie poskytuje informace, které můžete použít k diagnostice a řešení problémů souvisejících s chybami a výkonem.

  • Připojte aplikace plátna k Application Insights. Tyto analýzy můžete použít k diagnostice problémů a pochopení toho, co uživatelé s vašimi aplikacemi dělají. Můžete shromažďovat informace, které vám pomohou činit lepší obchodní rozhodnutí a zlepšovat kvalitu aplikací.

  • Konfigurace telemetrie Power Automate, aby směřovala do Application Insights. Můžete například monitorovat spuštění cloudového toku a vytvářet upozornění na selhání spuštění cloudového toku.

  • Zachyťte telemetrická data z vašeho agenta Microsoft Copilot Studio pro použití v Azure Application Insights. Tuto telemetrii můžete použít k monitorování protokolovaných zpráv a událostí odesílaných do a z vašeho agent, témat, která se mají aktivovat během konverzací uživatelů, a vlastních událostí telemetrie, které se dají odesílat z vašich témat.

Prostředky Power Platform protokolují aktivity v portálu pro dodržování předpisů Microsoft Purview. Většina akcí je dostupná do 24 hodin od aktivity. Tyto informace nepoužívejte pro monitorování v reálném čase. Pro více informací o protokolování aktivit v Power Platform, viz:

Vaše úloha Power Platform může zahrnovat prostředky Azure. Další informace viz Doporučení pro návrh a vytvoření systému monitorování.

Startovací sada CoE Power Platform je referenční implementace obsahující kolekci komponent a nástrojů, které jsou navrženy tak, aby pomohly začít s vývojem strategie pro přijetí a podporu Power Platform. Součástí startovací sady CoE je bohatá sada řídicích panelů. Více informací: Získejte hluboký vhled do svého osvojení Microsoft Power Platform pomocí řídicího panelu Power BI CoE.

Automatizační sada Power Platform je sada nástrojů, které urychlují používání a podporu Power Automate pro desktopy pro projekty automatizace. Sada poskytuje nástroje, které vám pomohou řídit projekty automatizace a monitorovat je za účelem odhadu ušetřených peněz a návratnosti investic (ROI). Součástí automatizační sady je řídicí centrum, které doplňuje funkci Monitorování spuštění desktopového toku. Klíčovým zaměřením řídicího centra je pohled orchestrátora pro analytiky podpory a organizace, aby mohli monitorovat, přijímat opatření a v případě potřeby upozorňovat.

Další kroky