Udostępnij za pośrednictwem


Rekomendacje dotyczące projektowania i tworzenia systemu monitorowania

Dotyczy tego Power Platform zalecenia dotyczącego listy kontrolnej doskonałości operacyjnej Well-Architected:

OE:06 Zaprojektuj i wdróż system monitorowania w celu sprawdzenia poprawności wyboru projektu oraz poinformowania o przyszłej decyzji dotyczącej projektu i decyzji biznesowych. Ten system przechwytuje i uwidacznia operacyjne dane telemetryczne, metryki i dzienniki, które są emitowane z obciążenia.

Ten przewodnik opisuje rekomendacje dotyczące projektowania i tworzenia systemu monitorowania. Aby efektywnie monitorować obciążenie na potrzeby zabezpieczeń, wydajności i niezawodności, należy posiadać kompleksowy system z własnym stosem, który zapewnia podstawy dla wszystkich funkcji monitorowania, wykrywania i alertów.

Definicje

Termin Definicja
Dzienniki Zarejestrowane zdarzenia systemowe. Dzienniki mogą zawierać różne typy danych w formacie tekstowym strukturalnym lub swobodnym. Zawierają one sygnaturę czasową.
Metryki Wartości numeryczne, które są zbierane w regularnych interwałach. Metryki opisują niektóre aspekty systemu w danym czasie.

Kluczowe strategie projektowania

Aby zaimplementować kompleksowy projekt systemu monitorowania dla obciążenia, wykonaj następujące podstawowe czynności:

  • Jeśli jest to możliwe, korzystaj z narzędzi do monitorowania udostępnianych przez platformę, które zwykle wymagają niewielkiej konfiguracji i mogą zapewnić szczegółowe informacje na temat obciążenia, które w przeciwnym razie mogą być trudne do uzyskania.

  • Zbieranie dzienników i metryk dla całego stosu obciążenia. Wszystkie składniki i zasoby niskokodowe i oparte na kodzie powinny być skonfigurowane do generowania ustandaryzowanych, znaczących danych, a dane te muszą być zbierane.

  • Przechowuj zebrane dane w standardowym, niezawodnym i bezpiecznym rozwiązaniu do przechowywania danych.

  • Możliwe jest przetwarzanie przechowywanych danych w celu obsługi ich przez rozwiązania do analiz i wizualizacji.

  • Przeanalizuj przetwarzane dane w celu dokładnego określenia stanu obciążenia.

  • Wizualizuj stan obciążenia przy pomocą znaczących pulpitów nawigacyjnych lub raportów dla zespołów obsługi obciążenia i innych interesariuszy.

  • Skonfiguruj alerty z działaniem i innych automatycznych odpowiedzi na inteligentne progi w celu powiadamiania zespołów prac o problemach.

  • Systemy monitorowania i alertów należy uwzględnić w ogólnych praktykach testowania obciążenia.

  • Należy zagwarantować, że systemy monitorowania i alertów znajdują się w zakresie ciągłych ulepszeń. Zachowanie aplikacji i konfiguracji w środowisku produkcyjnym zapewnia możliwości ciągłego szkolenia. Wnioski te można wykorzystać w monitorowaniu i alertach w projektach.

  • Powiąż zbierane i analizowane dane monitorowania z przepływami systemu i użytkowników, aby skorelować kondycję przepływów z danymi, a także ogólną kondycję obciążenia. Analizowanie tych danych pod względem przepływów pomaga dostosować strategię obserwacji do modelu kondycji.

  • Zminimalizuj przechowywanie wszelkich informacji umożliwiających identyfikację, aby zapewnić zgodność z przepisami i rozporządzeniami. Jeśli musisz przechowywać informacje umożliwiające identyfikację, upewnij się, że podczas projektowania rozwiązania uwzględniono wymagania, które umożliwiają poszczególnym osobom żądanie usunięcia ich informacji.

  • Nie należy rejestrować haseł użytkowników ani innych informacji, które mogą być użyte do oszustw dotyczących tożsamości. Dane należy przechować przed ich zapisaniem. Wymagania prawne mogą określać, że informacje gromadzone w ramach inspekcji i zabezpieczenia muszą być zarchiwizowane i zapisane. Dane te są także poufne i mogą być szyfrowane lub w inny sposób chronione, aby zapobiec ich przetwarzaniu.

Należy zautomatyzować wszystkie funkcje systemu monitorowania jak najbardziej, a wszystkie one powinny być cały czas uruchomione przez cały dzień.

Ten potok przepływu pracy przedstawia system monitorowania:

Diagram przedstawiający etapy kompleksowego systemu monitorowania jako potoku.

Kolekcja

Należy skonfigurować wszystkie składniki obciążenia, niezależnie od tego, czy są to składniki niskokodowe, czy oparte na kodzie, czy ustawienia platformy, takie jak środowiska i zasady, w celu przechwytywania danych telemetrycznych i zdarzeń, takich jak dzienniki i metryki.

Dzienniki są szczególnie użyteczne do wykrywania i badania anomalii. Zazwyczaj dzienniki są tworzone przez komponent obciążenia, a następnie wysyłane do platformy monitorowania lub pobierane przez platformę monitorowania z automatyzacją.

Metryki są szczególnie użyteczne do tworzenia modelu kondycji oraz identyfikowania trendów wydajności i niezawodności prac. Metryki są również przydatne do identyfikowania trendów zachowań użytkownika. Te trendy mogą pomóc w podejmowaniu decyzji o usprawnieniach z punktu widzenia klienta. Zazwyczaj metryki są definiowane na platformie monitorowania oraz na platformie monitorowania i w innych narzędziach sondują obciążenie w celu przechwytywania metryk.

Dane dotyczące obciążenia

Korzystaj z gotowej integracji z Application Insights funkcją zbierania danych. Po włączeniu Application Insights można uzyskać wgląd w ważne zdarzenia zarówno w czasie rzeczywistym, jak i w historii.

Dzienniki aplikacji obsługują kompleksowy cykl życia aplikacji. Rejestrowanie jest niezbędne do poznania sposobu działania aplikacji w różnych środowiskach, zdarzeń i warunków, w których wystąpią.

Zaleca się zbieranie dzienników aplikacji i zdarzeń we wszystkich środowiskach głównych. Jeśli jest to możliwe, należy oddzielić dane między środowiskami przy użyciu różnych magazynów danych dla każdego środowiska. Dzięki filtrom można zagwarantować, że środowiska niekrytyczne nie wpływają na interpretację dzienników produkcyjnych. Na koniec odpowiednie wpisy dziennika w aplikacji powinny przechwytywać identyfikator korelacji dla odpowiednich transakcji.

Dane infrastruktury i konfiguracji

W przypadku zasobów infrastruktury w obciążeniach upewnij się, że są zbierane zarówno dzienniki, jak i metryki. Ponieważ Power Platform jest to oferta platformy jako usługi (PaaS), możliwość przechwytywania dzienników związanych z podstawową infrastrukturą może być ograniczona. Można jednak przechwytywać dzienniki i analizy dotyczące zmian konfiguracji i zasad związanych ze stanem prac i zdarzeniami.

Jak najwięcej danych można zbierać z dzienników na platformie w chmurze. Może być możliwe zbieranie dzienników działań dla dzienników subskrypcji i dzienników diagnostycznych dla płaszczyzny zarządzania.

Zagadnienia dotyczące wydajności

W złożonej i bardzo skalowalnej aplikacji może być generowane wiele danych. Ilość danych może spowodować problemy z wydajnością w zależności od sposobu śledzenia na poziomie aplikacji. Rozwiązanie telemetryczne nie może działać jako wąskie gardło i musi być skalowalne w miarę rozbudowy systemu.

Analiza

Po zebraniu danych z różnych źródeł przeanalizuj je, aby ocenić ogólny stan systemu. W tej analizie należy jasno zrozumieć:

  • Jak strukturyzować dane na podstawie kluczowych wskaźników wydajności (KPI) i innych zdefiniowanych wskaźników wydajności.
  • Jak korelować dane przechwytywane w różnych metrykach i plikach dzienników. Ta korelacja jest ważna, gdy śledzisz szereg zdarzeń i możesz pomóc w diagnozowaniu problemów.

W większości przypadków obciążenie będzie mieć różne składniki i dzienniki lub zdarzenia będą przechwytywane w różnych formatach i tabelach. Trzeba będzie dokładne połączyć dane, aby zrozumieć ogólny stan obciążenia.

Na przykład Power Platform rozwiązanie może składać się z następujących składników:

  • Aplikacja kanwy, która umożliwia użytkownikom interakcję z danymi
  • Aplikacja oparta na modelu, która umożliwia administratorom konfigurowanie ustawień aplikacji
  • Przepływ w chmurze, który wykonuje operacje na danych
  • Wystąpienie Dataverse , w którym są przechowywane dane skojarzone z operacją
  • Funkcja platformy Azure, która pobiera dane z usługi Azure Table Storage i jest wywoływana z aplikacji

Dane użycia jednej operacji biznesowej mogą obejmować wszystkie składniki obciążenia. Te informacje należy korelować, aby zapewnić ogólny widok zasobu i użycia przetwarzania operacji.

Rekomendacje dotyczące analizy danych

Koreluj dzienniki na poziomie aplikacji i na poziomie zasobu. Oceniaj dane na obu poziomach, aby zoptymalizować wykrywanie i rozwiązywanie problemów.

Definiowanie jasnych godzin przechowywania danych do zimnej analizy. Zaleca się włączenie analizy historycznej w danym okresie. Pozwala to również na kontrolowanie kosztów magazynu. Implementowanie procesów zapewniające archiwizowanie danych w celu przechowywania i zagregowania danych w celu analizy długotrwałych trendów.

Przeanalizuj aktualne trendy w celu przewidywania problemów operacyjnych. Oceniaj dane długookresowe w celu formularza strategii operacyjnej oraz w celu przewidywania, jakie problemy operacyjne prawdopodobnie wystąpią i kiedy zostaną rozwiązane. Na przykład można zauważyć, że średni czas odpowiedzi jest powoli zwiększany w czasie i zbliża się do maksymalnego celu.

Wizualizacja

Wizualizacja w monitorowaniu kondycji ma krytyczne znaczenie dla zrozumienia stanu obciążenia. Wizualizacja może pomóc w szybkim identyfikowaniu problemów i trendów, a także w zrozumieniu wpływu zmian wprowadzanych w obciążeniu.

Pulpity nawigacyjne

Najczęstszym sposobem wizualizacji danych jest użycie pulpitów nawigacyjnych, które mogą wyświetlać informacje w postaci wykresów lub wykresów. Te elementy mogą być parametryzowane i analityk może wybrać ważne parametry, takie jak okres, dla każdej konkretnej sytuacji.

Wyrównaj pulpity nawigacyjne z modelem kondycji, tak aby wskazywały, kiedy obciążenia lub składniki obciążenia są prawidłowe, gorsze lub w złej kondycji.

Aby system pulpitu nawigacyjnego działał skutecznie, musi być znaczący dla zespołu obciążenia. Wizualizuj informacje związane z stanem obciążenia, które są również praktyczne. W przypadku obciążenia lub składnika w gorszej lub złej kondycji członkowie zespołu obsługi obciążenia powinni mieć możliwość łatwego zidentyfikowania, gdzie pochodzi problem w obciążeniach, oraz rozpoczęcia ich akcji naprawczych lub badań. I odwrotnie, dołączanie informacji, które nie są użyteczne lub które nie są związane ze stanem obciążenia, może sprawić, że pulpit nawigacyjny będzie niepotrzebnie skomplikowany i frustrujący dla członków zespołu, którzy próbują odróżnić szum tła od danych, które można wykorzystać.

Pulpity nawigacyjne mogą być dostępne dla interesariuszy lub deweloperów, którzy są dostosowani tak, aby wyświetlały dane dotyczące prac, które dla nich są odpowiednie. Upewnij się, że zespół obciążenia rozumie typy punktów danych, które interesują inne zespoły, oraz wyświetla podgląd pulpitów nawigacyjnych przed ich udostępnieniem, aby sprawdzić ich czytelność. Udostępnianie pulpitów nawigacyjnych dotyczących obciążenia pracą dla interesariuszy to dobry sposób na informowanie ich o kondycji obciążenia, ale niesie ze sobą ryzyko przyniesienia efektu przeciwnego do zamierzonego, jeśli interesariusze nie rozumieją jasno danych.

Ogranicz dostęp do pulpitu nawigacyjnego do autoryzowanego personelu. Informacje na pulpitach nawigacyjnych mogą być poufne. Należy także chronić podstawowe dane, aby zapobiec ich zmianie przez użytkowników.

Zgłaszanie

Raportowanie służy do generowania ogólnego widoku systemu. Może on uwzględniać dane historyczne i bieżące informacje. Wymagania dotyczące raportowania są podzielone na dwie szerokie kategorie: raportowanie operacyjne i raportowanie bezpieczeństwa.

Raportowanie operacyjne zazwyczaj obejmuje:

  • Agregowanie statystyk, których można użyć do zrozumienia wykorzystania zasobów w ogólnym systemie lub określonych podsystemach w określonym okresie.
  • Identyfikowanie trendów w zakresie używania zasobów dla całego systemu lub określonych podsystemów w określonym okresie.
  • Monitorowanie wyjątków, które wystąpiły w całym systemie lub w określonych podsystemach w określonym okresie.
  • Określenie wydajności aplikacji dla wdrożonych zasobów oraz zrozumienie, czy ilość zasobów i związane z nimi koszty można zmniejszyć bez niepotrzebnego wpływu na wydajność.

Raportowanie zabezpieczeń umożliwia śledzenie korzystania z systemu przez klienta. Można tutaj uwzględnić:

  • Inspekcja operacji użytkowników. To zadanie wymaga rejestrowania poszczególnych żądań ukończonych przez poszczególnych użytkowników wraz z datami i godzinami. Dane powinny mieć strukturę, co umożliwi administratorowi szybkie odtworzenie sekwencji operacji wykonywanych przez użytkownika w określonym okresie.
  • Śledzenie wykorzystania zasobów przez użytkownika. To zadanie wymaga rejestrowania, w jaki sposób każde żądanie od użytkownika uzyskuje dostęp do różnych zasobów w systemie i jak długo. Administrator może użyć tych danych do wygenerowania raportu wykorzystania według użytkownika przez określony okres, a także do rozliczenia.

Alerty

Aby zagwarantować, że system pozostanie w dobrej kondycji, i zapewnić bezpieczeństwo, należy ustawić alerty, aby operatorzy zawsze odpowiadali na nie terminowo. Alert może zawierać wystarczające informacje kontekstowe, które pomogą im szybko rozpocząć pracę z działaniami diagnostycznymi.

Rekomendacje dotyczące alertów

  • Zdefiniuj proces odpowiedzi na alert, który zidentyfikuje właścicieli i akcje, które można rozliczać.
  • Należy skonfigurować alerty dla dobrze zdefiniowanego zakresu i dostosować szczegółowość w celu zminimalizowania zamętu.
  • Zamiast konieczności aktywnego wyszukiwania problemów można użyć rozwiązania do automatycznej obsługi alertów, takiego jak Splunk czy Azure Monitor.
  • Alerty mogą działać w procesach naprawczych. Na przykład można automatycznie tworzyć bilety w celu śledzenia problemów i rozwiązywania problemów.

Progi

Alerty są generowane w momencie przekroczenia progów zgodnie z ustawieniami wykrytymi w systemie monitorowania. Należy zagwarantować, że ustawione progi zazwyczaj zapewniają czas na implementację niezbędnych zmian w obciążeniach, aby uniknąć pogorszenia lub przestojów. Należy również zaimplementować potrzebną obsługę błędów i przyciągać znane błędy w obciążeniach, aby zmniejszyć liczbę alertów. Na przykład skonfiguruj zasady ponawiania prób dla akcji w przepływach w chmurze, tak aby próba ponowienia była podejmowana w ramach przebiegu przepływu i tylko wtedy, gdy wielokrotne ponawianie prób zakończy się niepowodzeniem, a awaria przepływu zostanie zarejestrowana i zostanie wysłany alert. Dowiedz się więcej w temacie Zalecenia dotyczące projektowania niezawodnej strategii monitorowania i alertów.

Ułatwienia Power Platform

Power Platform integruje się z programem Application Insights, będącego częścią ekosystemu Azure Monitor. Używaj tej integracji do wykonywania następujących czynności:

  • Odbieranie telemetrii z diagnostyki i wydajności przechwyconej przez platformę Dataverse w Application Insights. Można subskrybować, aby otrzymywać dane telemetryczne dotyczące operacji wykonywanych przez aplikacje w bazie danych i Dataverse w aplikacjach opartych na modelach. Ta telemetria zawiera informacje, których można użyć do diagnozowania i rozwiązywania problemów związanych z błędami i wydajnością.

  • Połącz swoje aplikacje kanwy z Application Insights. Tych analiz można użyć do diagnozowania problemów i zrozumienia, jak użytkownicy korzystają z aplikacji. Możesz zbierać informacje, które pomogą Ci podejmować lepsze decyzje biznesowe i poprawić jakość swoich aplikacji.

  • Skonfiguruj Power Automate telemetrię do przepływu Application Insights. Można na przykład monitorować wykonania przepływu w chmurze i tworzyć alerty dotyczące niepowodzeń uruchamiania przepływu w chmurze.

  • Przechwytywanie danych telemetrycznych z Microsoft Copilot Studio drugiego pilota do użycia na platformie Azure Application Insights. Za pomocą tej telemetrii można monitorować zarejestrowane komunikaty i zdarzenia wysyłane do i z drugiego pilota, tematy wyzwalane podczas konwersacji użytkowników oraz niestandardowe zdarzenia telemetrii, które mogą być wysyłane z tematów.

Power Platform zasoby rejestrują działania w Microsoft portal zgodności usługi Purview. Większość zdarzeń jest dostępnych w ciągu 24 godzin od działania. Nie należy używać tych informacji do monitorowania w czasie rzeczywistym. Aby uzyskać więcej informacji na temat rejestrowania działań w Power Platform, zobacz temat:

Obciążenie Power Platform może obejmować zasoby platformy Azure. Dowiedz się więcej w temacie Zalecenia dotyczące projektowania i tworzenia systemu monitorowania.

Zestaw startowy CoE Power Platform jest referencyjną implementacją, która zawiera kolekcję składników i narzędzi opracowanych w celu ułatwienia rozpoczęcia pracy z opracowywaniem strategii przyjęcia i obsługi platformy Power Platform. Do zestawu startowego CoE dołączony jest bogaty zestaw pulpitów nawigacyjnych. Dowiedz się więcej w temacie Uzyskiwanie szczegółowych informacji na temat Microsoft Power Platform wdrożenia za pomocą pulpitu nawigacyjnego Power BI CoE.

Zestaw Power Platform Automation Kit to zestaw narzędzi, które przyspieszają korzystanie z aplikacji klasycznej Power Automate w projektach automatyzacji. Zestaw zawiera narzędzia pomocne przy zarządzaniu projektami automatyzacji i monitorowaniu ich w celu szacowania zaoszczędzanych środków i zwrotu z inwestycji (ROI). Częścią zestawu Automation Kit jest centrum sterowania, które uzupełnia funkcję Monitoruj przebiegi przepływu pulpitu. Głównym celem Centrum sterowania jest widok centrum pomocy technicznej dla analityków i organizacji, które w razie potrzeby mogą monitorować, podjąć działania i alerty.

Następne kroki