Zalecenia dotyczące reagowania na problemy z wydajnością na żywo
Dotyczy tego Power Platform zalecenia dotyczącego listy kontrolnej Well-Architected Performance Efficiency:
PE:09 | Reagowanie na problemy z wydajnością na żywo. Zaplanuj, jak rozwiązać problemy z wydajnością, uwzględniając jasne linie komunikacji i odpowiedzialności. Kiedy wystąpi problematyczna sytuacja, wykorzystaj to, czego się nauczysz, aby zidentyfikować środki zapobiegawcze i włączyć je do swojego obciążenia pracą. Wdrażaj metody szybszego powrotu do normalnej pracy w przypadku wystąpienia podobnych sytuacji. |
---|
W tym przewodniku opisano najlepsze rozwiązania dotyczące reagowania na problemy z wydajnością na żywo. Problemy z wydajnością na żywo odnoszą się do wyzwań i wąskich gardeł w czasie rzeczywistym, które mogą utrudniać optymalne funkcjonowanie obciążenia. Szybkie rozwiązanie tych problemów nie tylko ułatwia natychmiastowe wykrywanie i naprawianie problemów z wydajnością, ale także zapewnia, że obciążenie konsekwentnie spełnia swoje standardy wydajności. Brak rozwiązania ich może prowadzić do komplikacji, w tym spowolnień, awarii i braku odpowiedzi systemu, a także pogorszenia komfortu użytkowania. Mogą również uniemożliwić użytkownikom efektywne wykonywanie zadań, a co za tym idzie, nadszarpnąć reputację organizacji.
Definicje
Termin | Definicja |
---|---|
Korelacja danych | Dopasowywanie dzienników, metryk i zdarzeń z różnych części obciążenia w celu określenia podstawowych przyczyn. |
Analiza głównej przyczyny | Proces identyfikowania podstawowych czynników, które są odpowiedzialne za problem. |
Samoleczenia | Możliwość automatycznego naprawiania problemów bez interwencji człowieka. |
Samoprofilaktyka | Implementacje w obciążeniu w celu zapobiegania potencjalnym problemom i awariom. |
Kluczowe strategie projektowania
W przypadku wystąpienia problemu z wydajnością na żywo należy przygotować odpowiednie dane i plan reagowania na problem. Plan ten powinien zawierać jasne kanały komunikacji i zakres odpowiedzialności. Głównym celem jest określenie, czy problemy z wydajnością są tymczasowe, czy odosobnione, zidentyfikowanie głównej przyczyny problemu z wydajnością oraz wdrożenie rozwiązań, które ułatwiają szybki powrót do regularnych operacji i dostarczają szczegółowych informacji na temat incydentu. Włączenie środków zapobiegawczych do przepływu pracy jest kluczową strategią. Celem jest zapobieżenie ponownemu wystąpieniu tego samego problemu lub zmniejszenie jego wpływu na wydajność, jeśli nie można mu zapobiec.
Przygotuj się na problemy
Idealna odpowiedź na problemy z wydajnością witryny na żywo jest precyzyjna i szybka. Precyzja i szybkość w remediacji wydajności wymagają przygotowania. Aby skutecznie reagować na problemy z wydajnością na żywo, kluczowe jest monitorowanie kluczowych wskaźników wydajności, identyfikowanie głównej przyczyny problemów i wdrażanie odpowiednich rozwiązań lub optymalizacji. Aby wykonać te kroki, może być konieczne przeanalizowanie dzienników obciążeń, przeprowadzenie testów wydajności i zoptymalizowanie kodu lub konfiguracji.
W poniższych przykładach przedstawiono kilka krytycznych obszarów przygotowania:
Miej dokładne diagramy architektury. Twoje diagramy architektury powinny zawierać wszystkie komponenty i pokazywać, w jaki sposób wchodzą one w interakcje. Reprezentacja wizualna może pomóc w identyfikacji wąskich gardeł i pojedynczych punktów awarii, które mogą prowadzić do pogorszenia wydajności lub niedostępności. Idealnie byłoby, gdybyś wyłapywał i usuwał te problemy, zanim spowodują problemy, ale posiadanie aktualnego diagramu może pomóc w zlokalizowaniu problemów w momentach wysokiego stresu.
Sprawdź dostęp do danych. Dane i dzienniki z procesów monitorowania mają kluczowe znaczenie dla reagowania na problemy z wydajnością w czasie rzeczywistym i przeprowadzania analiz przyczyn źródłowych. Ale ważne jest, aby zachować integralność i poufność danych. Reagowanie na problemy z wydajnością aktywnej witryny często wymaga dostępu do podstawowych danych, które mogą być normalnie niedostępne. Musisz upewnić się, że personel ma dostęp do danych, których potrzebuje, gdy pojawią się problemy. Należy jednak udzielać dostępu tylko z ograniczeniami czasowymi i najmniejszymi uprawnieniami, a dostęp ten należy ograniczyć do upoważnionego personelu.
Ustaw automatyczne alerty. Alerty mogą pomóc w identyfikowaniu i rozwiązywaniu problemów natychmiast po ich wystąpieniu. Alerty powinny generować powiadomienia, gdy wydajność obciążenia odbiega od punktów odniesienia wydajności. Z biegiem czasu należy dostosować konfiguracje alertów, aby uniknąć generowania zbyt wielu lub zbyt małych powiadomień. Używane rozwiązania do monitorowania muszą zbierać wystarczającą ilość danych do generowania alertów. Alerty te powinny być zgodne z celami w zakresie skuteczności działania i ustalonymi poziomami bazowymi. Należy unikać generowania alertów dotyczących problemów, które nie są związane z Twoimi celami. Przykłady alertów obejmują pogorszenie czasu odpowiedzi, wydajność Dataverse wywołań interfejsu API lub wtyczek oraz ładowanie stron.
Tworzenie planu klasyfikacji
Tworzenie planu klasyfikacji obejmuje opracowanie ustrukturyzowanego podejścia do identyfikowania, eskalowania, analizowania, ustalania priorytetów i komunikowania problemów z wydajnością na żywo w witrynie. Plan klasyfikacji to strategia reagowania na problemy z wydajnością na żywo. Gwarantuje, że zakłócenia w wydajności są rozwiązywane szybko i skutecznie, z jasnymi rolami i procedurami. Większość problemów z wydajnością nie zasługuje na protokoły odzyskiwania po awarii, ale mogą one wpływać na funkcjonalność obciążenia na tyle, aby wymagać planowania klasyfikacji. Dobrze udokumentowany plan klasyfikacji zapewnia, że wszyscy członkowie zespołu są zgodni i mogą działać szybko, minimalizując wpływ na użytkowników i obciążenia. Plan klasyfikacji powinien zawierać następujące elementy:
Identyfikacja i monitorowanie: Zaimplementuj system do identyfikowania i monitorowania problemów z wydajnością w czasie rzeczywistym. Powinieneś mieć listę danych kontaktowych osób, które są w stanie podejmować decyzje lub eskalować problemy na wyższe poziomy. W planie należy również określić role i obowiązki. Musi udokumentować, które konta uzyskują dostęp do chronionych informacji i na jak długo.
Proces eskalacji: Zdefiniuj przejrzysty proces eskalacji, aby zapewnić, że problemy z wydajnością zostaną eskalowane do odpowiednich zespołów lub osób w odpowiednim czasie. Definicja procesu powinna zawierać dane kontaktowe i wytyczne dotyczące eskalacji problemów.
Analiza głównej przyczyny: Opracuj proces przeprowadzania analizy głównej przyczyny w celu zidentyfikowania podstawowej przyczyny każdego problemu z wydajnością. Proces ten powinien obejmować analizę logów i wskaźników wydajności oraz przeprowadzenie testów diagnostycznych w celu wskazania źródła każdego problemu.
Ustalanie priorytetów: Ustal ramy ustalania priorytetów, aby określić wagę problemów z wydajnością i nadać im priorytety na podstawie ich wpływu na obciążenie i użytkowników.
Komunikacja: Utwórz plan komunikacji, aby informować interesariuszy o stanie problemów z wydajnością i postępach w ich rozwiązywaniu. Weź pod uwagę regularne aktualizacje, raporty o stanie i przejrzyste kanały komunikacji.
Dokumentacja: Udokumentuj plan klasyfikacji, w tym wszystkie jego kroki, procesy i najlepsze rozwiązania. Dokumentacja ta powinna być łatwo dostępna dla członków zespołu, którzy są zaangażowani w reagowanie na problemy z wydajnością.
Opracowanie metod identyfikowania i rozwiązywania problemów
Rozwiązywanie problemów z wydajnością na żywo obejmuje identyfikowanie i rozwiązywanie wszelkich czynników, które mogą powodować obniżenie wydajności lub nieefektywność obciążenia na żywo. Dane zbierane podczas monitorowania są nieocenione przy badaniu i rozwiązywaniu incydentów związanych z wydajnością. Te dane zawierają historyczny zapis wskaźników wydajności. Gdy masz dostępne dane monitorowania, możesz przeanalizować główne przyczyny i zidentyfikować czynniki przyczyniające się do tego. Należy użyć wszystkich odpowiednich danych monitorowania, aby zrozumieć i rozwiązać każdy problem z wydajnością. Monitoruj liczbę wykrywanych przejściowych skoków i odpowiednio dostosuj progi.
Korzystanie z analizy przyczyn źródłowych
Analiza przyczyn źródłowych wymaga sprawdzenia hipotez. Po przejrzeniu danych monitorowania należy wyświetlić listę potencjalnych przyczyn problemu z wydajnością i przetestować je.
Aby przeprowadzić analizę głównej przyczyny problemu z wydajnością na żywo, wykonaj następujące kroki:
Zbierz informacje. Zbierz jak najwięcej informacji o problemie z wydajnością. Przykłady obejmują komunikaty o błędach, dzienniki, wskaźniki wydajności i wszelkie inne istotne dane. Uwzględnij również informacje o użytkownikach, którzy zgłosili problem, takie jak ich urządzenie, sieć i lokalizacja.
Zdefiniuj problem. Jasno zdefiniuj problem, identyfikując objawy i wpływ, jaki problem ma na obciążenie lub użytkowników.
Zbadaj potencjalne przyczyny. Zawęź zakres analizy, identyfikując konkretny komponent lub obszar obciążenia, w którym występuje problem z wydajnością. Zidentyfikuj potencjalne przyczyny problemu z wydajnością na podstawie zebranych informacji. Proces ten może obejmować analizowanie kodu, ustawień konfiguracji, infrastruktury lub zależności zewnętrznych.
Skorelowanie danych. Zanurz się głębiej w zebrane dane, aby zidentyfikować wzorce, anomalie lub korelacje, które mogą przyczynić się do problemu z wydajnością. Korelacja danych jest kluczem do identyfikowania problemów z wydajnością i ich przyczyn. Może to obejmować przeglądanie dzienników, analizowanie wskaźników wydajności i przeprowadzanie testów.
Przetestuj hipotezy. Formułuj hipotezy na podstawie potencjalnych przyczyn, które zidentyfikujesz. Przeprowadź testy, aby potwierdzić lub obalić swoje hipotezy. Należy użyć środowiska testowego, aby sprawdzić, czy można odtworzyć błąd.
Wdrażaj rozwiązania. Po zidentyfikowaniu głównej przyczyny opracuj i zaimplementuj rozwiązania, aby rozwiązać problem z wydajnością.
Monitorowanie i weryfikowanie. Po zaimplementowaniu rozwiązań należy stale monitorować obciążenie, aby upewnić się, że problem z wydajnością został rozwiązany. Weryfikuj skuteczność rozwiązań, monitorując wskaźniki wydajności i opinie użytkowników.
Kompromis: Etapy analizy przyczyn źródłowych, takie jak identyfikacja możliwych przyczyn, testowanie hipotez i dokumentowanie analizy, mogą być czasochłonne. Aby skorelować problemy z wydajnością, należy również zbierać i przechowywać dane. Wymagany czas i infrastruktura mogą zwiększyć nakład pracy zespołów operacyjnych i koszty związane z obciążeniem pracą.
Ryzyko: Jeśli wykonujesz analizę głównej przyczyny bez odpowiednich zabezpieczeń ochronnych, istnieje ryzyko, że ujawnisz poufne informacje podczas zapewniania dostępu do dzienników i danych.
Zaangażuj Microsoft wsparcie
Skontaktuj się z Microsoft pomocą techniczną , aby uzyskać pomoc w rozwiązaniu bieżących problemów z wydajnością. Microsoft Przedstawiciele pomocy technicznej nie tylko mają wiedzę, narzędzia, zasoby i doświadczenie do rozwiązywania problemów, ale mogą również być świadomi wszelkich bieżących globalnych problemów z wydajnością lub przestojów, które mogą mieć wpływ na obciążenie. Umowa pomocy technicznej określa poziom świadczonej pomocy technicznej.
Często najlepiej jest pracować równolegle z Microsoft pomocą techniczną. Rozważmy na przykład strategię, w której niektórzy członkowie zespołu współpracują z pomocą techniczną, podczas gdy inni kontynuują klasyfikację i rozwiązywanie problemów z Microsoft wydajnością.
Ważne jest, aby udostępnić zespołowi informacje kontaktowe pomocy technicznej. Pamiętaj, że wsparcie może również potrzebować dostępu do danych, Microsoft aby skutecznie angażować się w rozwiązywanie problemów.
Aby uzyskać więcej informacji, zobacz Uzyskaj pomoc + obsługę techniczną Power Platform.
Wyciągaj wnioski z ustaleń
Po rozwiązaniu problemu z wydajnością aktywnej witryny musisz sprawdzić, co się stało. Celem jest wyciąganie wniosków z problemów z wydajnością, a nie tylko identyfikowanie problemów. Najlepszym sposobem na naukę jest dokumentacja. Udokumentuj każdy problem i wyjaśnij, jak go rozwiązać. Jeśli dostawca pomógł, współpracuj z nim, aby ulepszyć dokumentację, przeszkolić zespół i odpowiednio zmodyfikować obciążenie pracą.
Dokumentacja powinna wskazywać, jak zapobiec ponownemu wystąpieniu każdego problemu. Wraz z dokumentacją można tworzyć udoskonalone alerty, które ułatwiają wczesne reagowanie na wskaźniki problemów z wydajnością.
Ułatwienia Power Platform
Power Platform i platforma Azure udostępniają kilka narzędzi ułatwiających reagowanie na problemy z wydajnością na żywo:
Azure Monitor to kompleksowe rozwiązanie do monitorowania, które zapewnia wgląd w wydajność i kondycję aplikacji i infrastruktury. Usługa Azure Monitor oferuje funkcje, takie jak metryki, dzienniki, alerty i pulpity nawigacyjne, które ułatwiają monitorowanie i diagnozowanie problemów z wydajnością. Power Platform aplikacje i automatyzacja mogą integrować się z usługą Azure Monitor przy użyciu tej Application Insights funkcji. Standardowe dane telemetryczne wraz z niestandardowymi zdarzeniami śledzenia mogą być rejestrowane i analizowane.
Application Insights to usługa zarządzania wydajnością aplikacji (APM), która pomaga deweloperom i specjalistom DevOps monitorować aplikacje na żywo. Automatycznie wykrywa anomalie wydajności, zbiera dzienniki i zdarzenia na poziomie aplikacji oraz udostępnia narzędzia analityczne do diagnozowania problemów. Power Platform integruje się z Application Insights.
Log Analytics to usługa, która zbiera i analizuje dane dzienników z różnych źródeł, w tym aplikacji, maszyn wirtualnych i zasobów platformy Azure. W przypadku korzystania z usługi Log Analytics można wykonywać zapytania i analizować dane dziennika, aby uzyskać wgląd w wydajność i zachowanie aplikacji. Rozważ użycie usługi Log Analytics, jeśli obciążenie korzysta z zasobów platformy Azure.
Solution Checker przeprowadza rozbudowaną analizę statyczną rozwiązań w oparciu o zestaw reguł najlepszych praktyk i identyfikuje problematyczne wzorce. Rozwiąż wszelkie problemy związane z wydajnością przed wdrożeniem rozwiązania w środowisku produkcyjnym, aby uniknąć problemów z wydajnością działającej lokalizacji.
Lista kontrolna efektywności wydajności
Zapoznaj się z kompletną zestawem zaleceń.