Rekomendacje dotyczące projektowania i tworzenia systemu monitorowania

Artykuł
01/15/2025

Dotyczy tej rekomendacji listy kontrolnej doskonałości operacyjnej dobrze zaprojektowanej struktury Power Platform:

OE:06	Zaprojektuj i wdróż system monitorowania w celu sprawdzenia poprawności wyboru projektu oraz poinformowania o przyszłej decyzji dotyczącej projektu i decyzji biznesowych. Ten system przechwytuje i uwidacznia operacyjne dane telemetryczne, metryki i dzienniki, które są emitowane z obciążenia.

Ten przewodnik opisuje rekomendacje dotyczące projektowania i tworzenia systemu monitorowania. Aby efektywnie monitorować obciążenie na potrzeby zabezpieczeń, wydajności i niezawodności, należy posiadać kompleksowy system z własnym stosem, który zapewnia podstawy dla wszystkich funkcji monitorowania, wykrywania i alertów.

Definicje

Termin	Definicja
Dzienniki	Zarejestrowane zdarzenia systemowe. Dzienniki mogą zawierać różne typy danych w formacie tekstowym strukturalnym lub swobodnym. Zawierają one sygnaturę czasową.
Metryki	Wartości numeryczne, które są zbierane w regularnych interwałach. Metryki opisują niektóre aspekty systemu w danym czasie.

Kluczowe strategie projektowania

Aby zaimplementować kompleksowy projekt systemu monitorowania dla obciążenia, wykonaj następujące podstawowe czynności:

Tam, gdzie jest to możliwe, korzystaj z narzędzi do monitorowania dostarczanych przez platformę, które zwykle wymagają niewielkiej konfiguracji i mogą zapewnić głęboki wgląd w obciążenie, które w przeciwnym razie mogłoby być trudne do uzyskania.
Zbieranie dzienników i metryk dla całego stosu obciążenia. Wszystkie składniki i zasoby niskokodowe i skoncentrowane na kodzie muszą zostać skonfigurowane w celu uzyskania standardowych, znaczących danych, a te dane należy zebrać.
Przechowuj zebrane dane w standardowym, niezawodnym i bezpiecznym rozwiązaniu do przechowywania danych.
Możliwe jest przetwarzanie przechowywanych danych w celu obsługi ich przez rozwiązania do analiz i wizualizacji.
Przeanalizuj przetwarzane dane w celu dokładnego określenia stanu obciążenia.
Wizualizuj stan obciążenia przy pomocą znaczących pulpitów nawigacyjnych lub raportów dla zespołów obsługi obciążenia i innych interesariuszy.
Skonfiguruj alerty z działaniem i innych automatycznych odpowiedzi na inteligentne progi w celu powiadamiania zespołów prac o problemach.
Systemy monitorowania i alertów należy uwzględnić w ogólnych praktykach testowania obciążenia.
Należy zagwarantować, że systemy monitorowania i alertów znajdują się w zakresie ciągłych ulepszeń. Zachowanie aplikacji i konfiguracji w środowisku produkcyjnym zapewnia możliwości ciągłego szkolenia. Wnioski te można wykorzystać w monitorowaniu i alertach w projektach.
Powiąż zbierane i analizowane dane monitorowania z przepływami systemu i użytkowników, aby skorelować kondycję przepływów z danymi, a także ogólną kondycję obciążenia. Analizowanie tych danych pod kątem przepływów pomaga dostosować strategię wglądu do modelu kondycji.
Zminimalizuj przechowywanie wszelkich informacji umożliwiających identyfikację, aby zapewnić zgodność z przepisami i rozporządzeniami. Jeśli musisz przechowywać informacje umożliwiające identyfikację, upewnij się, że podczas projektowania rozwiązania uwzględniono wymagania, które umożliwiają poszczególnym osobom żądanie usunięcia ich informacji.
Nie należy rejestrować haseł użytkowników ani innych informacji, które mogą być użyte do oszustw dotyczących tożsamości. Dane należy przechować przed ich zapisaniem. Wymagania prawne mogą określać, że informacje gromadzone w ramach inspekcji i zabezpieczenia muszą być zarchiwizowane i zapisane. Dane te są także poufne i mogą być szyfrowane lub w inny sposób chronione, aby zapobiec ich przetwarzaniu.

Należy zautomatyzować wszystkie funkcje systemu monitorowania jak najbardziej, a wszystkie one powinny być cały czas uruchomione przez cały dzień.

Ten potok przepływu pracy przedstawia system monitorowania:

Kolekcja

Należy skonfigurować wszystkie składniki obciążenia, niezależnie od tego, czy są to składniki niskokodowe, czy oparte na kodzie, czy ustawienia platformy, takie jak środowiska i zasady, w celu przechwytywania danych telemetrycznych i zdarzeń, takich jak dzienniki i metryki.

Dzienniki są szczególnie użyteczne do wykrywania i badania anomalii. Zazwyczaj dzienniki są tworzone przez składnik obciążenia, a następnie wysyłane do platformy monitorowania lub ściągane przez platformę monitorowania z automatyzacją.

Metryki są szczególnie użyteczne do tworzenia modelu kondycji oraz identyfikowania trendów wydajności i niezawodności prac. Metryki są również przydatne do identyfikowania trendów zachowań użytkownika. Te trendy mogą pomóc w podejmowaniu decyzji o usprawnieniach z punktu widzenia klienta. Zazwyczaj metryki są definiowane na platformie monitorowania oraz na platformie monitorowania i w innych narzędziach sondują obciążenie w celu przechwytywania metryk.

Dane dotyczące obciążenia

Do zbierania danych można używać gotowej integracji z Application Insights. Po włączeniu Application Insights można uzyskać wgląd w ważne zdarzenia zarówno w czasie rzeczywistym, jak i w historii.

Dzienniki aplikacji obsługują kompleksowy cykl życia aplikacji. Rejestrowanie jest niezbędne do poznania sposobu działania aplikacji w różnych środowiskach, zdarzeń i warunków, w których wystąpią.

Zaleca się zbieranie dzienników aplikacji i zdarzeń we wszystkich środowiskach głównych. Jeśli jest to możliwe, należy oddzielić dane między środowiskami przy użyciu różnych magazynów danych dla każdego środowiska. Dzięki filtrom można zagwarantować, że środowiska niekrytyczne nie wpływają na interpretację dzienników produkcyjnych. Na koniec odpowiednie wpisy dziennika w aplikacji powinny przechwytywać identyfikator korelacji dla odpowiednich transakcji.

Dane infrastruktury i konfiguracji

W przypadku zasobów infrastruktury w obciążeniach upewnij się, że są zbierane zarówno dzienniki, jak i metryki. Ponieważ Power Platform to oferta platformy jako usługi (PaaS), możliwość przechwytywania dzienników związanych z podstawową infrastrukturą może być ograniczona. Można jednak przechwytywać dzienniki i analizy dotyczące zmian konfiguracji i zasad związanych ze stanem prac i zdarzeniami.

Jak najwięcej danych można zbierać z dzienników na platformie w chmurze. Może być możliwe zbieranie dzienników działań dla dzienników subskrypcji i dzienników diagnostycznych dla płaszczyzny zarządzania.

Zagadnienia dotyczące wydajności

W złożonej i bardzo skalowalnej aplikacji może być generowane wiele danych. Ilość danych może spowodować problemy z wydajnością w zależności od sposobu śledzenia na poziomie aplikacji. Rozwiązanie telemetryczne nie może działać jako wąskie gardło i musi być skalowalne w miarę rozszerzania się systemu.

Analiza

Po zebraniu danych z różnych źródeł przeanalizuj je, aby ocenić ogólny stan systemu. W tej analizie należy jasno zrozumieć:

Jak ustrukturyzować dane na podstawie kluczowych wskaźników wydajności (KPI) i innych zdefiniowanych metryk wydajności.
Jak korelować dane przechwytywane w różnych metrykach i plikach dzienników. Ta korelacja jest ważna, gdy śledzisz szereg zdarzeń i możesz pomóc w diagnozowaniu problemów.

W większości przypadków obciążenie będzie mieć różne składniki i dzienniki lub zdarzenia będą przechwytywane w różnych formatach i tabelach. Trzeba będzie dokładne połączyć dane, aby zrozumieć ogólny stan obciążenia.

Na przykład rozwiązanie Power Platform może składać się z następujących składników:

Aplikacja kanwy, która umożliwia użytkownikom interakcję z danymi
Aplikacja oparta na modelu umożliwiająca administratorom skonfigurowanie ustawień aplikacji
Przepływ w chmurze wykonujący operacje danych
Wystąpienie Dataverse, w którym są przechowywane dane skojarzone z operacjami
Funkcja Azure, która pobiera dane z usługi Azure Table Storage i jest wywoływana z aplikacji

Dane użycia jednej operacji biznesowej mogą obejmować wszystkie składniki obciążenia. Te informacje należy korelować, aby zapewnić ogólny widok zasobu i użycia przetwarzania operacji.

Rekomendacje dotyczące analizy danych

Koreluj dzienniki na poziomie aplikacji i na poziomie zasobu. Oceniaj dane na obu poziomach, aby zoptymalizować wykrywanie i rozwiązywanie problemów.

Definiowanie jasnych godzin przechowywania danych do zimnej analizy. Zaleca się włączenie analizy historycznej w danym okresie. Pozwala to również na kontrolowanie kosztów magazynu. Implementowanie procesów zapewniające archiwizowanie danych w celu przechowywania i zagregowania danych w celu analizy długotrwałych trendów.

Przeanalizuj aktualne trendy w celu przewidywania problemów operacyjnych. Oceniaj dane długookresowe w celu formularza strategii operacyjnej oraz w celu przewidywania, jakie problemy operacyjne prawdopodobnie wystąpią i kiedy zostaną rozwiązane. Na przykład można zauważyć, że średni czas odpowiedzi jest powoli zwiększany w czasie i zbliża się do maksymalnego celu.

Wizualizacja

Wizualizacja w monitorowaniu kondycji ma krytyczne znaczenie dla zrozumienia stanu obciążenia. Wizualizacja może pomóc w szybkim identyfikowaniu problemów i trendów, a także w zrozumieniu wpływu zmian wprowadzanych w obciążeniu.

Pulpity nawigacyjne

Najczęstszym sposobem wizualizacji danych jest użycie pulpitów nawigacyjnych, które mogą wyświetlać informacje w formie wykresów lub grafów. Te elementy mogą być parametryzowane i analityk może wybrać ważne parametry, takie jak okres, dla każdej konkretnej sytuacji.

Wyrównaj pulpity nawigacyjne z modelem kondycji, tak aby wskazywały, kiedy obciążenia lub składniki obciążenia są prawidłowe, gorsze lub w złej kondycji.

Aby system pulpitu nawigacyjnego działał skutecznie, musi być znaczący dla zespołu obciążenia. Wizualizuj informacje związane z stanem obciążenia, które są również praktyczne. W przypadku obciążenia lub składnika w gorszej lub złej kondycji członkowie zespołu obsługi obciążenia powinni mieć możliwość łatwego zidentyfikowania, gdzie pochodzi problem w obciążeniach, oraz rozpoczęcia ich akcji naprawczych lub badań. Z drugiej strony uwzględnienie informacji, które nie mają możliwości zastosowania w praktyce lub które nie są związane z kondycją obciążenia, może sprawić, że pulpit nawigacyjny będzie niepotrzebnie złożony i frustrujący dla członków zespołu, którzy próbują odróżnić szum w tle od danych, które można wykorzystać.

Pulpity nawigacyjne mogą być dostępne dla interesariuszy lub deweloperów, którzy są dostosowani tak, aby wyświetlały dane dotyczące prac, które dla nich są odpowiednie. Upewnij się, że zespół obciążenia rozumie typy punktów danych, które interesują inne zespoły, oraz wyświetla podgląd pulpitów nawigacyjnych przed ich udostępnieniem, aby sprawdzić ich czytelność. Udostępnianie pulpitów nawigacyjnych dotyczących obciążenia dla interesariuszy jest dobrym sposobem informowania ich o kondycji obciążenia, ale niesie ze sobą ryzyko przyniesienia efektu przeciwnego do zamierzonego, jeśli interesariusze nie rozumieją jasno danych.

Ogranicz dostęp do pulpitu nawigacyjnego do autoryzowanego personelu. Informacje na pulpitach nawigacyjnych mogą być poufne. Należy także chronić podstawowe dane, aby zapobiec ich zmianie przez użytkowników.

Zgłaszanie

Raportowanie służy do generowania ogólnego widoku systemu. Może on uwzględniać dane historyczne i bieżące informacje. Wymagania dotyczące raportowania są podzielone na dwie szerokie kategorie: raportowanie operacyjne i raportowanie bezpieczeństwa.

Raportowanie operacyjne zazwyczaj obejmuje:

Agregowanie statystyk, których można użyć do zrozumienia wykorzystania zasobów w ogólnym systemie lub określonych podsystemach w określonym okresie.
Identyfikowanie trendów w zakresie używania zasobów dla całego systemu lub określonych podsystemów w określonym okresie.
Monitorowanie wyjątków, które wystąpiły w całym systemie lub w określonych podsystemach w określonym okresie.
Określenie wydajności aplikacji dla wdrożonych zasobów oraz określenie, czy ilość zasobów i związane z nimi koszty można zmniejszyć, nie wpływając niepotrzebnie na wydajność.

Raportowanie zabezpieczeń umożliwia śledzenie korzystania z systemu przez klienta. Można tutaj uwzględnić:

Inspekcja operacji użytkowników. To zadanie wymaga rejestrowania poszczególnych żądań ukończonych przez poszczególnych użytkowników wraz z datami i godzinami. Dane powinny mieć strukturę, co umożliwi administratorowi szybkie odtworzenie sekwencji operacji wykonywanych przez użytkownika w określonym okresie.
Śledzenie wykorzystania zasobów przez użytkownika. To zadanie wymaga rejestrowania, w jaki sposób każde żądanie od użytkownika uzyskuje dostęp do różnych zasobów w systemie i na jak długo. Administrator może użyć tych danych do wygenerowania raportu wykorzystania według użytkownika przez określony okres, a także do rozliczenia.

Alerty

Aby zagwarantować, że system pozostanie w dobrej kondycji, i zapewnić bezpieczeństwo, należy ustawić alerty, aby operatorzy zawsze odpowiadali na nie terminowo. Alert może zawierać wystarczające informacje kontekstowe, które pomogą im szybko rozpocząć pracę z działaniami diagnostycznymi.

Rekomendacje dotyczące alertów

Zdefiniuj proces odpowiedzi na alert, który zidentyfikuje właścicieli i akcje, które można rozliczać.
Należy skonfigurować alerty dla dobrze zdefiniowanego zakresu i dostosować szczegółowość w celu zminimalizowania zamętu.
Zamiast konieczności aktywnego wyszukiwania problemów można użyć rozwiązania do automatycznej obsługi alertów, takiego jak Splunk czy Azure Monitor.
Alerty mogą działać w procesach naprawczych. Na przykład można automatycznie tworzyć bilety w celu śledzenia problemów i rozwiązywania problemów.

Progi

Alerty są generowane w momencie przekroczenia progów zgodnie z ustawieniami wykrytymi w systemie monitorowania. Należy zagwarantować, że ustawione progi zazwyczaj zapewniają czas na implementację niezbędnych zmian w obciążeniach, aby uniknąć pogorszenia lub przestojów. Należy również zaimplementować potrzebną obsługę błędów i przyciągać znane błędy w obciążeniach, aby zmniejszyć liczbę alertów. Na przykład skonfiguruj zasady ponawiania prób dla akcji w przepływach w chmurze, tak aby próba ponowienia była podejmowana w ramach przebiegu przepływu i tylko wtedy, gdy wielokrotne próby zakończą się niepowodzeniem, a błąd przepływu zostanie zarejestrowany i zostanie wysłany alert. Dowiedz się więcej w temacie Rekomendacje dotyczące projektowania niezawodnej strategii monitorowania i alertów.

Ułatwienia Power Platform

Power Platform integruje się z programem Application Insights, będącego częścią ekosystemu Azure Monitor. Używaj tej integracji do wykonywania następujących czynności:

Odbieranie telemetrii z diagnostyki i wydajności przechwyconej przez platformę Dataverse w Application Insights. Można subskrybować, aby otrzymywać dane telemetryczne dotyczące operacji wykonywanych przez aplikacje w bazie danych i Dataverse w aplikacjach opartych na modelach. Ta telemetria zawiera informacje, których można użyć do diagnozowania i rozwiązywania problemów związanych z błędami i wydajnością.
Połącz aplikacje kanwy z Application Insights. Tych analiz można użyć do diagnozowania problemów i zrozumienia, jak użytkownicy korzystają z aplikacji. Możesz zbierać informacje, które pomogą Ci podejmować lepsze decyzje biznesowe i poprawić jakość swoich aplikacji.
Skonfiguruj telemetrię Power Automate do przepływu do Application Insights. Można na przykład monitorować wykonywanie przepływów w chmurze i tworzyć alerty dotyczące niepowodzeń uruchamiania przepływu w chmurze.
Przechwyć dane telemetryczne ze swojego agenta Microsoft Copilot Studio do użycia w usłudze Azure Application Insights. Za pomocą tych danych telemetrycznych można monitorować zarejestrowane komunikaty i zdarzenia wysyłane do i z agent, tematy wyzwalane podczas konwersacji użytkowników oraz niestandardowe zdarzenia telemetrii, które mogą być wysyłane z tematów.

Zasoby platformy Power Platform rejestrują działania w portalu zgodności rozwiązania Microsoft Purview. Większość zdarzeń jest dostępnych w ciągu 24 godzin od działania. Nie należy używać tych informacji do monitorowania w czasie rzeczywistym. Aby uzyskać więcej informacji na temat rejestrowania działań w Power Platform, zobacz temat:

Obciążenie Power Platform może zawierać zasoby Azure. Dowiedz się więcej w temacie Rekomendacje dotyczące projektowania i tworzenia systemu monitorowania.

Zestaw startowy CoE Power Platform jest referencyjną implementacją, która zawiera kolekcję składników i narzędzi opracowanych w celu ułatwienia rozpoczęcia pracy z opracowywaniem strategii przyjęcia i obsługi platformy Power Platform. W zestawie startowym CoE znajduje się bogaty zestaw pulpitów nawigacyjnych. Dowiedzs ię więcej w temacie Uzyskaj szczegółowe informacje na temat wdrażania Microsoft Power Platform za pomocą pulpitu nawigacyjnego CoE Power BI.

Zestaw Power Platform Automation Kit to zestaw narzędzi, które przyspieszają korzystanie z aplikacji klasycznej Power Automate w projektach automatyzacji. Zestaw zawiera narzędzia pomocne przy zarządzaniu projektami automatyzacji i monitorowaniu ich w celu szacowania zaoszczędzanych środków i zwrotu z inwestycji (ROI). Częścią zestawu automatyacji jest centrum sterowania, które uzupełnia funkcję monitorowania przebiegów przepływu pulpitu. Głównym celem Centrum sterowania jest widok centrum pomocy technicznej dla analityków i organizacji, które w razie potrzeby mogą monitorować, podjąć działania i alerty.

Następne kroki

Lista kontrolna doskonałości operacyjnej

Udostępnij za pośrednictwem

Rekomendacje dotyczące projektowania i tworzenia systemu monitorowania

Definicje

Kluczowe strategie projektowania

Kolekcja

Dane dotyczące obciążenia

Dane infrastruktury i konfiguracji

Zagadnienia dotyczące wydajności

Analiza

Rekomendacje dotyczące analizy danych

Wizualizacja

Pulpity nawigacyjne

Zgłaszanie

Alerty

Rekomendacje dotyczące alertów

Progi

Ułatwienia Power Platform

Następne kroki

Opinia

Dodatkowe zasoby

Udostępnij za pośrednictwem

Rekomendacje dotyczące projektowania i tworzenia systemu monitorowania

Definicje

Kluczowe strategie projektowania

Kolekcja

Dane dotyczące obciążenia

Dane infrastruktury i konfiguracji

Zagadnienia dotyczące wydajności

Analiza

Rekomendacje dotyczące analizy danych

Wizualizacja

Pulpity nawigacyjne

Zgłaszanie

Alerty

Rekomendacje dotyczące alertów

Progi

Ułatwienia Power Platform

Informacje pokrewne

Następne kroki

Opinia

Dodatkowe zasoby