Rekomendacje dotyczące projektowania niezawodnej strategii monitorowania i obsługi alertów

Artykuł
01/15/2025

Dotyczy tej rekomendacji listy kontrolnej niezawodności dobrze zaprojektowanej Power Platform:

RE:08	Zmierz i opublikuj wskaźniki stanu rozwiązania. W sposób ciągły przechwytuj dane dotyczące czasu pracy i innych danych niezawodności, które są wykorzystywane w całym obciążeniu, a także z poszczególnych składników i przepływów kluczowych.

Ten przewodnik opisuje rekomendacje dotyczące projektowania niezawodnej strategii monitorowania i obsługi alertów. Wdrażaj tę strategię, aby na bieżąco informować zespoły operacyjne o stanie środowiska i zapewniać, że spełniają ustalone wartości docelowe niezawodności w zakresie obciążenia.

Definicje

Termin	Definicja
Metryki	Wartości numeryczne, które są zbierane w regularnych interwałach. Metryki opisują niektóre aspekty systemu w danym czasie.
Dzienniki zasobów	Dane generowane przez system na temat stanu systemu.
Śledzenie	Dane, które zawierają informacje o ścieżce, którą żądanie przechodzi przez usługi i składniki.

Kluczowe strategie projektowania

Przed utworzeniem strategii monitorowania i alertów należy wykonać następujące zadania w ramach planowania niezawodności:

Określenie przepływów krytycznych i niekrytycznych.
Wykonanie analizy trybu awarii (FAM) dla przepływów.
Zidentyfikowanie celów niezawodności.
Zaprojektowanie niezawodnej strategii testowania.

Utwórz strategię monitorowania i alertów mającą na celu zapewnienie świadomości dla zespołów operacyjnych, aby były powiadamiane o zmianach w warunku obciążenia i mogły szybko rozwiązać problemy. Model kondycji przepływów krytycznych i obciążeń, które zawierają przepływy krytyczne, powinien definiować stany prawidłowe, pogorszone i złe. Zaprojektuj stan monitorowania, aby od razu przechwytywać zmiany w tych stanach. Jeśli stany kondycji zmienią się od stanu prawidłowego do pogorszonego lub złego, mechanizmy alertów powinny wyzwalać automatyczne odzyskiwanie danych i alerty dla odpowiedzialnych zespołów.

Wdrażaj następujące zalecenia w celu zaprojektowania strategii monitorowania i alertów spełniającej wymagania firmy.

Wskazówki ogólne

Zrozum różnice między metrykami, dziennikami i śladami.

Włącz rejestrowanie dla wszystkich zasobów w chmurze. W celu włączenia rejestrowania diagnostycznego w środowisku należy użyć automatyzacji i diagnostyki we wdrożeniach.

Wszystkie dzienniki diagnostyczne można przesyłać dalej do scentralizowanego ujścia danych i platformy analitycznej, na przykład obszaru roboczego usługi Log Analytics. Jeśli istnieją regionalne wymagań dotyczące suwerenności danych, należy użyć lokalnych źródeł danych w regionach podlegających tym potrzebom.

Kompromis: przechowywanie dzienników i tworzenie powiązanych z nimi zapytań mogą powodować występowanie pokrewnych kosztów. Należy zauważyć, jaki wpływ ma analiza dzienników i przechowywanie na budżet oraz jaka jest najlepsze równoważenie wykorzystania w celu spełnienia określonych wymagań.

Jeśli obciążenia podlegają jednej lub wielu platformom zgodności, niektóre dzienniki składników służące do obsługi informacji poufnych także podlegają tym strukturom. Wyślij odpowiednie dzienniki składników do systemu zarządzania informacjami i zdarzeniami zabezpieczeń (SIEM), takiego jak Microsoft Sentinel.

Należy utworzyć zasady przechowywania dzienników, które obejmują wymagania dotyczące długookresowego przechowywania, które są wymuszane w ramach struktury zgodności w zależności od obciążenia.

Korzystaj z dzienników strukturalnych dla wszystkich komunikatów dziennika w celu optymalizowania zapytań dotyczących danych dziennika.

Skonfiguruj alerty, które mają wyzwalać, gdy wartości przekroczą progi krytyczne, które korelują ze zmianą stanu modelu kondycji, np. zielony do żółtego albo czerwonego. Konfiguracja progowa to proces ciągłych ulepszeń. Wraz ze rozwojem obciążenia mogą się zmieniać progi.

Warto rozważyć użycie alertów, jeśli stany się poprawiają, na przykład z czerwonego na żółty lub czerwonego na zielony, aby zespoły operacyjne miały możliwość śledzenia tych zdarzeń w przyszłości.

Wizualizuj stan środowiska w czasie rzeczywistym za pomocą niestandardowych pulpitów nawigacyjnych.

Użyj danych zebranych podczas zdarzeń, aby stale poprawiać swoje modele kondycji.

Można wykorzystać usługi monitorowania i alertów na poziomie platformy w chmurze, w tym usługi kondycji na poziomie platformy.

Korzystaj z wbudowanych, stworzonych pod katem wybranego celu zaawansowanych funkcji monitorowania i analityki oferowanych przez dostawcę usług w chmurze, takich jak narzędzia do obsługi szczegółowych informacji w usłudze Azure Monitor.

Implementuj monitorowania tworzenia i odzyskiwania kopii zapasowych w celu przechwytywania informacji, takich jak:

Stan replikacji danych zapewniający, że obciążenia będą wykorzystywane do odzyskiwania danych w ramach celu docelowego punktu odzyskiwania (RPO).
Udane i nieudane kopie zapasowe i odzyskiwania.
Czas trwania odzyskiwania w celu poinformowania o planowaniu odzyskiwania po awarii.

Monitorowanie aplikacji i agentów

Rejestruj dane, gdy aplikacja lub agent działają w środowisku produkcyjnym. Potrzebne są informacje wystarczające do diagnozowania przyczyny problemów w stanie produkcyjnym.

Rejestruj zdarzenia poza granicami usług. Uwzględnij identyfikator korelacji przepływu poza granicami usług. Jeśli transakcja przepływa przez wiele usług i jedna z nich zakończy się niepowodzeniem, identyfikator korelacji ułatwia śledzenie żądań w aplikacji i wskazanie przyczyny niepowodzenia transakcji.

Oddziel rejestrowanie aplikacji i agentów od inspekcji. Rekordy inspekcji są często utrzymywane pod celu zapewnienia zgodności lub wymagań prawnych i muszą być zakończone. Aby uniknąć porzucania transakcji, należy utrzymywać dzienniki inspekcji osobno do dzienników diagnostycznych.

Użyj monitorowania białej skrzynki, aby instrumentować aplikację lub agent za pomocą dzienników semantycznych i metryk. Zbieraj metryki i dzienniki na poziomie aplikacji i agenta, takie jak zużycie pamięci lub opóźnienie żądania, z aplikacji lub agent, aby informować model kondycji oraz wykrywać i przewidywać problemy.

Użyj monitorowania czarnej skrzynki do oceny usług platformy i wynikowej obsługi klienta. Monitorowanie czarnoskrzynkowe testuje aplikację widoczną z zewnątrz lub zachowanie agent bez znajomości wnętrza systemu. Ta metoda jest powszechna w celu mierzenia wskaźników poziomu usług (SLI), celów dotyczących poziomu usług (SLO) i umów dotyczących poziomu usług (SLA).

Monitorowanie danych i magazynu

Monitoruj metryki dostępności kontenerów magazynu. Jeśli metryka spadnie poniżej 100%, oznacza to niepowodzenie zapisu. Przejściowe spadki dostępności mogą mieć miejsce, gdy dostawca usług w chmurze zarządza ładowaniem. Śledź trendy dotyczące dostępności w celu ustalenia, czy występuje problem z obciążeniem. W niektórych przypadkach spadek metryk dostępności dla konteneru magazynu oznacza wąskie gardło w warstwie obliczeniowej skojarzonej z kontenerem magazynu.

Istnieje wiele metryk do monitorowania baz danych. W kontekście niezawodności ważne metryki do monitorowania to:

Czas trwania zapytania
Limity czasu
Czasy oczekiwania
Wykorzystanie pamięci
Blokady

Ułatwienia Power Platform

Power Platform integruje się z programem Application Insights, będącego częścią ekosystemu Azure Monitor. Za pomocą tej integracji możesz wykonać następujące czynności:

Subskrybuj te dane telemetryczne przechwytywane przez platformę Dataverse w Application Insights w ramach diagnostyki, wydajności i operacji wykonywanych przez aplikacje w bazie danych Dataverse i w aplikacjach opartych na modelu. Ta telemetria zawiera informacje, których można użyć do diagnozowania i rozwiązywania problemów związanych z błędami i wydajnością.
Połącz aplikacje kanwy z Application Insights, aby użyć tej analityki w celu diagnozowania problemów, zrozumienia, jak użytkownicy korzystają z Twoich aplikacji, podejmowania lepszych decyzji biznesowych i poprawiania jakości aplikacji.
Skonfiguruj telemetrię Power Automate do przepływu do Application Insights. Tej telemetrii można użyć do monitorowania wykonywania przepływu w chmurze i tworzenia alertów o niepowodzeniach uruchomienia przepływu w chmurze.
Przechwyć dane telemetryczne ze swojego agenta Microsoft Copilot Studio do użycia w usłudze Azure Application Insights. Za pomocą tych danych telemetrycznych można monitorować zarejestrowane komunikaty i zdarzenia wysyłane do i z agent, tematy wyzwalane podczas konwersacji użytkowników oraz niestandardowe zdarzenia telemetrii, które mogą być wysyłane z tematów.

Zasoby platformy Power Platform rejestrują działania w portalu zgodności rozwiązania Microsoft Purview. Większość zdarzeń jest dostępnych w ciągu 24 godzin od działania. Nie należy używać tych informacji do monitorowania w czasie rzeczywistym. Aby uzyskać więcej informacji na temat rejestrowania działań w Power Platform, zobacz temat:

Twoje obciążenie Power Platform może obejmować zasoby platformy Azure. Aby uzyskać więcej informacji o monitorowaniu zaleceń dla zasobów platformy Azure, zobacz Rekomendacje dotyczące projektowania i tworzenia systemu monitorowania.

Zestaw startowy CoE Power Platform jest referencyjną implementacją, która zawiera kolekcję składników i narzędzi opracowanych w celu ułatwienia rozpoczęcia pracy z opracowywaniem strategii przyjęcia i obsługi platformy Power Platform. Zestaw udostępnia pewne funkcje automatyzujące i ułatwia zespołom monitorowanie kompilacji i automatyzację niezbędne do obsługi programu CoE.

Jak sprawdzić kondycję usługi online?

Lista kontrolna niezawodności

Zapoznaj się z kompletną zestawem zaleceń.

Lista kontrolna niezawodności

Udostępnij za pośrednictwem

Rekomendacje dotyczące projektowania niezawodnej strategii monitorowania i obsługi alertów

Kluczowe strategie projektowania

Wskazówki ogólne

Monitorowanie aplikacji i agentów

Monitorowanie danych i magazynu

Ułatwienia Power Platform

Lista kontrolna niezawodności

Opinia

Dodatkowe zasoby

Udostępnij za pośrednictwem

Rekomendacje dotyczące projektowania niezawodnej strategii monitorowania i obsługi alertów

Kluczowe strategie projektowania

Wskazówki ogólne

Monitorowanie aplikacji i agentów

Monitorowanie danych i magazynu

Ułatwienia Power Platform

Informacje pokrewne

Lista kontrolna niezawodności

Opinia

Dodatkowe zasoby