Rekomendacje dotyczące projektowania niezawodnej strategii monitorowania i obsługi alertów
Dotyczy tego Power Platform zalecenia dotyczącego listy kontrolnej niezawodności Well-Architected Reliability:
RE:08 | Zmierz i opublikuj wskaźniki stanu rozwiązania. W sposób ciągły przechwytuj dane dotyczące czasu pracy i innych danych niezawodności, które są wykorzystywane w całym obciążeniu, a także z poszczególnych składników i przepływów kluczowych. |
---|
Ten przewodnik opisuje rekomendacje dotyczące projektowania niezawodnej strategii monitorowania i obsługi alertów. Wdrażaj tę strategię, aby na bieżąco informować zespoły operacyjne o stanie środowiska i zapewniać, że spełniają ustalone wartości docelowe niezawodności w zakresie obciążenia.
Definicje
Termin | Definicja |
---|---|
Metryki | Wartości numeryczne, które są zbierane w regularnych interwałach. Metryki opisują niektóre aspekty systemu w danym czasie. |
Dzienniki zasobów | Dane generowane przez system na temat stanu systemu. |
Śledzenie | Dane, które zawierają informacje o ścieżce, którą żądanie przechodzi przez usługi i składniki. |
Kluczowe strategie projektowania
Przed utworzeniem strategii monitorowania i alertów należy wykonać następujące zadania w ramach planowania niezawodności:
Określenie przepływów krytycznych i niekrytycznych.
Wykonanie analizy trybu awarii (FAM) dla przepływów.
Zidentyfikowanie celów niezawodności.
Zaprojektowanie niezawodnej strategii testowania.
Utwórz strategię monitorowania i alertów mającą na celu zapewnienie świadomości dla zespołów operacyjnych, aby były powiadamiane o zmianach w warunku obciążenia i mogły szybko rozwiązać problemy. Model kondycji przepływów krytycznych i obciążeń, które zawierają przepływy krytyczne, powinien definiować stany prawidłowe, pogorszone i złe. Zaprojektuj stan monitorowania, aby od razu przechwytywać zmiany w tych stanach. Jeśli stany kondycji zmienią się od stanu prawidłowego do pogorszonego lub złego, mechanizmy alertów powinny wyzwalać automatyczne odzyskiwanie danych i alerty dla odpowiedzialnych zespołów.
Wdrażaj następujące zalecenia w celu zaprojektowania strategii monitorowania i alertów spełniającej wymagania firmy.
Wskazówki ogólne
Zrozum różnice między metrykami, dziennikami i śladami.
Włącz rejestrowanie dla wszystkich zasobów w chmurze. W celu włączenia rejestrowania diagnostycznego w środowisku należy użyć automatyzacji i diagnostyki we wdrożeniach.
Wszystkie dzienniki diagnostyczne można przesyłać dalej do scentralizowanego ujścia danych i platformy analitycznej, na przykład obszaru roboczego usługi Log Analytics. Jeśli istnieją regionalne wymagań dotyczące suwerenności danych, należy użyć lokalnych źródeł danych w regionach podlegających tym potrzebom.
Kompromis: Istnieją implikacje kosztowe związane z przechowywaniem i wykonywaniem zapytań dotyczących dzienników. Należy zauważyć, jaki wpływ ma analiza dzienników i przechowywanie na budżet oraz jaka jest najlepsze równoważenie wykorzystania w celu spełnienia określonych wymagań.
Jeśli obciążenia podlegają jednej lub wielu platformom zgodności, niektóre dzienniki składników służące do obsługi informacji poufnych także podlegają tym strukturom. Wyślij odpowiednie dzienniki składników do systemu SIEM (Security Information and zarządzanie wydarzeniami, takiego jak Microsoft Sentinel.
Należy utworzyć zasady przechowywania dzienników, które obejmują wymagania dotyczące długookresowego przechowywania, które są wymuszane w ramach struktury zgodności w zależności od obciążenia.
Korzystaj z dzienników strukturalnych dla wszystkich komunikatów dziennika w celu optymalizowania zapytań dotyczących danych dziennika.
Skonfiguruj alerty, które mają wyzwalać, gdy wartości przekroczą progi krytyczne, które korelują ze zmianą stanu modelu kondycji, np. zielony do żółtego albo czerwonego. Konfiguracja progowa to proces ciągłych ulepszeń. Wraz ze rozwojem obciążenia mogą się zmieniać progi.
Warto rozważyć użycie alertów, jeśli stany się poprawiają, na przykład z czerwonego na żółty lub czerwonego na zielony, aby zespoły operacyjne miały możliwość śledzenia tych zdarzeń w przyszłości.
Wizualizuj stan środowiska w czasie rzeczywistym za pomocą niestandardowych pulpitów nawigacyjnych.
Użyj danych zebranych podczas zdarzeń, aby stale poprawiać swoje modele kondycji.
Można wykorzystać usługi monitorowania i alertów na poziomie platformy w chmurze, w tym usługi kondycji na poziomie platformy.
Korzystaj z wbudowanych, stworzonych pod katem wybranego celu zaawansowanych funkcji monitorowania i analityki oferowanych przez dostawcę usług w chmurze, takich jak narzędzia do obsługi szczegółowych informacji w usłudze Azure Monitor.
Implementuj monitorowania tworzenia i odzyskiwania kopii zapasowych w celu przechwytywania informacji, takich jak:
- Stan replikacji danych zapewniający, że obciążenia będą wykorzystywane do odzyskiwania danych w ramach celu docelowego punktu odzyskiwania (RPO).
- Udane i nieudane kopie zapasowe i odzyskiwania.
- Czas trwania odzyskiwania w celu poinformowania o planowaniu odzyskiwania po awarii.
Monitorowanie aplikacji i współpilotów
Rejestruj dane, gdy aplikacja lub drugi pilot działa w środowisku produkcyjnym. Potrzebne są informacje wystarczające do diagnozowania przyczyny problemów w stanie produkcyjnym.
Rejestruj zdarzenia poza granicami usług. Uwzględnij identyfikator korelacji przepływu poza granicami usług. Jeśli transakcja przepływa przez wiele usług i jedna z nich zakończy się niepowodzeniem, identyfikator korelacji ułatwia śledzenie żądań w aplikacji i wskazanie przyczyny niepowodzenia transakcji.
Oddziel rejestrowanie aplikacji i drugiego pilota od inspekcji. Rekordy inspekcji są często utrzymywane pod celu zapewnienia zgodności lub wymagań prawnych i muszą być zakończone. Aby uniknąć porzucania transakcji, należy utrzymywać dzienniki inspekcji osobno do dzienników diagnostycznych.
Użyj monitorowania białej skrzynki, aby instrumentować aplikację lub copilot za pomocą dzienników semantycznych i metryk. Zbieraj metryki i dzienniki na poziomie aplikacji i drugiego pilota, takie jak zużycie pamięci lub opóźnienie żądania, z aplikacji lub drugiego pilota w celu informowania modelu kondycji oraz wykrywania i przewidywania problemów.
Użyj monitorowania czarnej skrzynki do oceny usług platformy i wynikowej obsługi klienta. Monitorowanie czarnej skrzynki testuje działanie aplikacji lub copilota widoczne z zewnątrz bez znajomości wnętrza systemu. Ta metoda jest powszechna w celu mierzenia wskaźników poziomu usług (SLI), celów dotyczących poziomu usług (SLO) i umów dotyczących poziomu usług (SLA).
Monitorowanie danych i magazynu
Monitoruj metryki dostępności kontenerów magazynu. Jeśli metryka spadnie poniżej 100%, oznacza to niepowodzenie zapisu. Przejściowe spadki dostępności mogą mieć miejsce, gdy dostawca usług w chmurze zarządza ładowaniem. Śledź trendy dotyczące dostępności w celu ustalenia, czy występuje problem z obciążeniem. W niektórych przypadkach spadek metryk dostępności dla konteneru magazynu oznacza wąskie gardło w warstwie obliczeniowej skojarzonej z kontenerem magazynu.
Istnieje wiele metryk do monitorowania baz danych. W kontekście niezawodności ważne metryki do monitorowania to:
- Czas trwania zapytania
- Limity czasu
- Czasy oczekiwania
- Wykorzystanie pamięci
- Blokady
Ułatwienia Power Platform
Power Platform integruje się z programem Application Insights, będącego częścią ekosystemu Azure Monitor. Za pomocą tej integracji możesz wykonać następujące czynności:
Subskrybuj te dane telemetryczne przechwytywane przez platformę Dataverse w Application Insights w ramach diagnostyki, wydajności i operacji wykonywanych przez aplikacje w bazie danych Dataverse i w aplikacjach opartych na modelu. Ta telemetria zawiera informacje, których można użyć do diagnozowania i rozwiązywania problemów związanych z błędami i wydajnością.
Połącz aplikacje kanwy z Application Insights, aby użyć tej analityki w celu diagnozowania problemów, zrozumienia, jak użytkownicy korzystają z Twoich aplikacji, podejmowania lepszych decyzji biznesowych i poprawiania jakości aplikacji.
Skonfiguruj telemetrię Power Automate do przepływu do Application Insights. Tej telemetrii można użyć do monitorowania wykonywania przepływu w chmurze i tworzenia alertów o niepowodzeniach uruchomienia przepływu w chmurze.
Przechwytywanie danych telemetrycznych z Microsoft Copilot Studio drugiego pilota do użycia na platformie Azure Application Insights. Za pomocą tej telemetrii można monitorować zarejestrowane komunikaty i zdarzenia wysyłane do i z drugiego pilota, tematy wyzwalane podczas konwersacji użytkowników oraz niestandardowe zdarzenia telemetrii, które mogą być wysyłane z tematów.
Power Platform zasoby rejestrują działania w Microsoft portal zgodności usługi Purview. Większość zdarzeń jest dostępnych w ciągu 24 godzin od działania. Nie należy używać tych informacji do monitorowania w czasie rzeczywistym. Aby uzyskać więcej informacji na temat rejestrowania działań w Power Platform, zobacz temat:
- Power Apps
- Power Automate
- Copilot Studio
- Power Pages
- Power Platform Złącza
- Zapobieganie utracie danych
- Power Platform Dzienniki administracyjne
- Dataverse inspekcja
Twoje obciążenie Power Platform może obejmować zasoby platformy Azure. Aby uzyskać więcej informacji o monitorowaniu zaleceń dla zasobów platformy Azure, zobacz Rekomendacje dotyczące projektowania i tworzenia systemu monitorowania.
Zestaw startowy CoE Power Platform jest referencyjną implementacją, która zawiera kolekcję składników i narzędzi opracowanych w celu ułatwienia rozpoczęcia pracy z opracowywaniem strategii przyjęcia i obsługi platformy Power Platform. Zestaw udostępnia pewne funkcje automatyzujące i ułatwia zespołom monitorowanie kompilacji i automatyzację niezbędne do obsługi programu CoE.
Informacje pokrewne
Jak sprawdzić kondycję usługi online?
Lista kontrolna niezawodności
Zapoznaj się z kompletną zestawem zaleceń.