Rekomendacje dotyczące wykonywania analizy trybu awarii

Artykuł
01/15/2025

Dotyczy tej rekomendacji listy kontrolnej niezawodności dobrze zaprojektowanej Power Platform:

RE:03	Analiza trybu awarii (FMA) umożliwia identyfikowanie i ustalanie priorytetów potencjalnych awarii w składnikach rozwiązania. Wykonaj FMA w celu dokonania oceny ryzyka i efektu poszczególnych trybów niepowodzenia. Określ sposób odpowiedzi i odzyskiwania obciążenia.

W tym przewodniku opisano najlepsze metody postępowania przy wykonywaniu analizy trybu awarii (FMA) w obciążeniach. FMA to praktyka identyfikowania potencjalnych punkty niepowodzenia w obrębie obciążenia i skojarzonych z nimi przepływów, a także planowania odpowiednich akcji naprawczych. W każdym kroku przepływu użytkownik określa zasięg wielu typów awarii, co ułatwia projektowanie nowego obciążenia lub ponowne określenie istniejącego obciążenia w celu zminimalizowania efektu szerokiego zasięgu awarii.

Kluczowe znaczenie w FMA ma to, że awarie występują bez względu na to, ile warstw odporności zostanie zastosowanie w różnych warstwach. Bardziej złożone środowiska są narażone na działanie większej liczby typów awarii. Ze względu na to FMA umożliwia projektowanie obciążenia, które wytrzyma większość awarii i płynnie odzyska sprawność po awarii.

Po pominięciu FMA lub wykonaniy niekompletnej analizy przez użytkownika istnieje ryzyko, że jego działanie będzie nieoczekiwane i będą potencjalne awarie powodowanych przez nieoptymalny projekt.

Definicje

Termin	Definicja
Tryb awarii	Typ problemu, który może spowodować, że jeden lub więcej składników obciążenia zostanie błędnie rozwiązanych lub zostanie uszkodzony aż do momentu niedostępności.
Ograniczanie ryzyka	Działania, które zidentyfikowano w celu rozwiązania problemów są albo aktywne, albo reaktywne.
Wykrywanie	Monitorowanie danych i aplikacji oraz ich przetwarzanie w alertach i procedury.

Kluczowe strategie projektowania

W kontekście FMA zrozumienie wymagań wstępnych jest kluczowe. Rozpocznij od przejrzenia i wdrożenia zaleceń dotyczących identyfikowania przepływów i ustalania priorytetów w oparciu o krytyczne znaczenie. Artefakty danych pełnią niezwykle ważną rolę w opisie ścieżek danych w tych przepływach. W podejściu FMA należy skupić się na elementach planowania przepływów o znaczeniu krytycznym, identyfikowaniu zależności (zarówno wewnętrznych, jak i zewnętrznych) i opracowaniu strategii planowania.

Wymagania wstępne

Przejrzyj i implementuj rekomendacje dotyczące identyfikowania i przepływów klasyfikacji. Wynika to z identyfikowania i ustalania priorytetów przepływów użytkowników i systemów na podstawie krytycznych informacji.

Zebrane dane i artefakty utworzone w pracy zawierają opis ścieżki danych uwzględnianej w przepływach. Aby FMA działało prawidłowo, dokładność i staranność artefaktów mają krytyczne znaczenie.

Podejście FMA

Po określeniu przepływów krytycznych można zaplanować ich wymagane składniki. Następnie należy krok po kroku śledzić przepływ w celu zidentyfikowania zależności, w tym usług innych firm i potencjalnych punktów niepowodzenia, oraz zaplanować strategie ograniczania ryzyka.

Rozkładanie obciążenia na elementy

W przypadku przechodzenia od ideologii do projektowania należy zidentyfikować typy składników wymaganych do obsługi obciążenia. Obciążenie określa niezbędne składniki, które należy zaplanować.

Po utworzeniu początkowego projektu architektury można zweryfikować przepływy w celu zidentyfikowania składników dyskretnych używanych w tych przepływach oraz utworzenia list lub diagramów przepływu pracy opisujących przepływy i ich składniki. Aby zrozumieć krytyczne znaczenie składników, należy użyć definicji krytyczności przypisanych do przepływów. Należy uwzględnić wpływ, jak na przepływy składników wpływa działanie na przepływy.

Identyfikowanie zależności

Zidentyfikuj zależności prac w celu wykonania analizy jednego punktu niepowodzenia. Dekomponowanie obciążenia i powiązanych przepływów zapewniają wgląd w zależności wewnętrzne i zewnętrzne od obciążenia.

Zależności wewnętrzne to składniki w zakresie obciążenia, które są wymagane do działania obciążenia. Typowe zależności wewnętrzne to interfejsy API lub rozwiązania do zarządzania kluczami, takie jak usługa Azure Key Vault. W przypadku tych zależności należy przechwytywać dane niezawodności, takie jak umowy dotyczące poziomu usług (SLA) dotyczące dostępności czy ograniczenia skalowania. Zależności zewnętrzne są składnikami wymaganymi poza zakresem obciążenia, takim jak inna aplikacja lub usługa innych firm. Typowe zależności zewnętrzne to rozwiązania uwierzytelniania, takie jak Microsoft Entra ID i infrastruktura Power Platform.

Zidentyfikuj i dokumentuj zależności w obciążeniach i uwzględnij je w artefaktach dokumentacji przepływu.

Punkty niepowodzenia

Podczas przepływów krytycznych w obciążeniach należy rozważyć każdy składnik i określić sposób, w jaki tryb awarii może mieć wpływ na ten składnik i jego zależności. Należy pamiętać, że podczas planowania uwzględniającego odporności i odzyskiwania danych należy rozważyć wiele trybów awarii. W danym momencie na dowolny składnik może mieć wpływ więcej niż jeden tryb awarii. Tryby niepowodzenia to:

Awaria regionalna: Cała Power Platform lub region Azure jest niedostępny
Awaria usługi: Co najmniej jedna usługa Power Platform lub Azure nie jest dostępna
Rozproszony atak typu „odmowa usługi” (DDoS) lub inny złośliwy atak
Nieprawidłowa konfiguracja aplikacji lub składnika
Błąd operatora
Awaria planowanej konserwacji
Przeciążenie składnika

Należy wziąć pod uwagę prawdopodobieństwo wystąpienia poszczególnych typów niepowodzenia. Niektóre z nich są bardzo mało prawdopodobne, na przykład w przypadku wielu stref lub spoza regionu, a dodanie planowania poza zakresem zasobów i czasu nie jest dobrym rozwiązaniem.

Ograniczanie ryzyka

Strategie migracji są podzielone na dwie szerokie kategorie: tworzenie bardziej ryzykownych zmian i projektowanie wydajności.

Tworzenie większej odporności oznacza zapewnienie, że aplikacja jest projektowana zgodnie z najlepszymi praktykami w zakresie skalowalności. Przykłady: podział aplikacji monolitycznej na pojedyncze aplikacje i mikrousługi i używanie konfiguracji zainstalowanych na platformie, na przykład zasad ponowień. Aby uzyskać więcej informacji, zobacz Rekomendacje dotyczące nadmiarowości i Rekomendacje dotyczące funkcji samozachowawczych.

Aby zaprojektować tę obniżoną wydajność, należy zidentyfikować punkty potencjalnych awarii, które mogą wyłączyć co najmniej jeden składnik przepływu, ale nie całkowicie wyłączyć tego przepływu. Aby zachować funkcjonalność przepływu kompleksowego, może być konieczne ponowne kierowanie jeden lub więcej kroków do innych składników lub zaakceptowanie, że składnik, który zakończył się niepowodzeniem, uruchamia funkcję, więc ta funkcja nie jest już dostępna w interfejsie użytkownika. Aby powrócić do przykładu aplikacji e-commerce, składnik, taki jak mikrousługa, może spowodować, że aparat rekomendacji będzie niedostępny, ale klienci mogą nadal wyszukiwać produkty i zawierać transakcje.

Należy również zaplanować ograniczenie ryzyka między zależnościami. Duże zależności odgrywają kluczową rolę w funkcji aplikacji i dostępności. Jeśli ich nie ma lub jest awaria, może to spowodować istotne efekty. Brak słabych zależności może mieć wpływ jedynie na określone funkcje i nie wpływa na ogólną dostępność. To rozróżnienie odzwierciedla koszt utrzymania wysokiej dostępności relacji między usługą a jej zależnościami. Zależności należy sklasyfikować jako mocne lub słabe w celu określenia, które składniki są niezbędne dla aplikacji.

Jeśli aplikacja ma duże zależności, bez których nie może działać, wartości docelowe dostępności i odzyskiwania tych zależności powinny być zgodne z celami samej aplikacji. Jeśli cykl życia aplikacji jest bardzo ograniczony i istnieje cykl życia jego zależności, dynamika działania aplikacji może być ograniczona, szczególnie w przypadku nowych wersji.

Wykrywanie

Wykrywanie awarii jest niezbędne, aby prawidłowo zidentyfikować punkty niepowodzenia w analizie oraz prawidłowo zaplanować strategię eliminowania błędów. Wykrywanie w tym kontekście oznacza monitorowanie infrastruktury, danych i aplikacji oraz powiadamianie w razie pojawiającego się problemu. Zautomatyzuj wykrywanie w miarę możliwości i buduj odporność w procesach operacyjnych, aby alerty zawsze były powtarzane i że odpowiadały na nie odpowiednio szybko, aby spełnić potrzeby biznesowe. Aby uzyskać więcej informacji, zobacz Rekomendacje dotyczące monitorowania.

Wynik

Aby uzyskać wynik analizy, należy utworzyć zestaw dokumentów, które w efektywny sposób informują o ustaleniach, decyzjach podjęte w odniesieniu do składników przepływu i ograniczenia ryzyka oraz wpływie niepowodzenia na obciążenie.

W analizie należy określić priorytet trybów niepowodzenia i strategii ograniczenia ryzyka, które zostały określone na podstawie ważności i prawdopodobieństwa wystąpienia awarii. Te priorytety należy wykorzystać do skupienia dokumentacji na trybach niepowodzenia, które są typowe i na tyle poważne, aby można było poświęcać czas, działania i zasoby na projektowanie strategii ograniczenia ryzyka. Na przykład mogą wystąpić tryby niepowodzenia, które są bardzo rzadkim zdarzeniem podczas wystąpienia lub wykrywania. Projektowanie strategii ograniczenia ryzyka i zarządzanie nimi nie jest warte swoich kosztów.

Zajrzyj do przykładowej tabeli, aby zapoznać się z punktem początkowym dokumentacji.

Podczas pierwszego ćwiczeń w ramach projektu FMA tworzone dokumenty będą najczęściej dotyczyć teoretycznego planowania. Dokumenty FMA należy przeglądać i regularnie aktualizować, aby zapewnić ich aktualne informacje na temat prac. Testowanie w warunkach chaosu i doświadczeń ze świata rzeczywistego ułatwiają dopracowanie w czasie.

Przykład

W poniższej tabeli przedstawiono przykład FMA dla aplikacji wydatków hostowanej jako aplikacja kanwy Power Apps z wewnętrzną bazą danych Microsoft Dataverse i interfejsami APIM hostowanymi w systemie innej firmy.

Przepływ użytkownika: logowanie użytkowników, przesyłanie wnioski o koszty i współpraca z raportem o wydatkach

Składnik	Ryzyko	Prawdopodobieństwo	Efekt/Ograniczenie ryzyka/Uwaga	Awaria
Identyfikator usługi Microsoft Entra	Przestój usługi	Minimum	Pełen przestój obciążenia. Eliminowanie zależne od Microsoft.	Pełny
Identyfikator usługi Microsoft Entra	Nieprawidłowa konfiguracja	Średnia	Użytkownicy nie mogą się zalogować. Brak efektu podrzędnego. Problem z konfiguracją raportów pomocy dla zespołu tożsamości.	None
Power Apps	Przestój usługi	Minimum	Pełen przestój dla użytkowników zewnętrznych. Eliminowanie zależne od Microsoft.	Pełny
Power Apps	Przestój regionalny	Bardzo nisko	Pełen przestój dla użytkowników zewnętrznych. Eliminowanie zależne od Microsoft.	Pełny
Power Apps	Atak DDoS	Średnia	Możliwość zakłóceń. Microsoft zarządza zabezpieczeniami DDoS (P3 i P4).	Potencjalny częściowy przestój
Dataverse	Przestój usługi	Minimum	Pełen przestój obciążenia. Eliminowanie zależne od Microsoft.	Pełny
Dataverse	Przestój regionalny	Bardzo nisko	Grupa automatycznego trybu failover jest przejmowana do regionu pomocniczego. Potencjalny przestój podczas trybu failover. Cele czasu odzyskiwania (RTO) i cele punktów odzyskiwania (RPO), które należy określić podczas testowania niezawodności.	Potencjalne pełne
Dataverse	Złośliwy atak (wstrzyknięcie)	Średnia	Minimalne ryzyko.	Potencjalnie niskie ryzyko
API Management	Przestój usługi	Minimum	Pełen przestój dla użytkowników zewnętrznych. Eliminowanie zależne od Microsoft.	Pełny
API Management	Przestój regionalny	Bardzo nisko	Pełen przestój dla użytkowników zewnętrznych. Eliminowanie zależne od Microsoft.	Pełny
API Management	Atak DDoS	Średnia	Możliwość zakłóceń. Microsoft zarządza zabezpieczeniami DDoS (P3 i P4).	Potencjalny częściowy przestój
Twoje rozwiązanie Power Platform	Nieprawidłowa konfiguracja	Średnia	Podczas wdrażania należy przechwytywać nieprawidłowe konfiguracje. Jeśli te zmiany nastąpią podczas aktualizacji konfiguracji, administratorzy muszą wycofać zmiany. Aktualizacja konfiguracji powoduje krótki zewnętrzny przestój.	Potencjalny pełen przestój

Ułatwienia Power Platform

Power Platform integruje się z programem Application Insights, będącego częścią ekosystemu Azure Monitor. Za pomocą tej integracji możesz wykonać następujące czynności:

Subskrybuj te dane telemetryczne przechwytywane przez platformę Dataverse w Application Insights w ramach diagnostyki, wydajności i operacji wykonywanych przez aplikacje w bazie danych Dataverse i w aplikacjach opartych na modelu. Ta telemetria zawiera informacje, których można użyć do diagnozowania i rozwiązywania problemów związanych z błędami i wydajnością.
Połącz aplikacje kanwy z Application Insights, aby użyć tej analityki w celu diagnozowania problemów, zrozumienia, jak użytkownicy korzystają z Twoich aplikacji, podejmowania lepszych decyzji biznesowych i poprawiania jakości aplikacji.
Skonfiguruj telemetrię Power Automate do przepływu do Application Insights. Tej telemetrii można użyć do monitorowania wykonywania przepływu w chmurze i tworzenia alertów o niepowodzeniach uruchomienia przepływu w chmurze.
Przechwyć dane telemetryczne ze swojego agenta Microsoft Copilot Studio do użycia w usłudze Azure Application Insights. Za pomocą tych danych telemetrycznych można monitorować zarejestrowane komunikaty i zdarzenia wysyłane do i z agent, tematy wyzwalane podczas konwersacji użytkowników oraz niestandardowe zdarzenia telemetrii, które mogą być wysyłane z tematów.

Zasoby platformy Power Platform rejestrują działania w portalu zgodności rozwiązania Microsoft Purview. Większość zdarzeń jest dostępnych w ciągu 24 godzin od działania. Nie należy używać tych informacji do monitorowania w czasie rzeczywistym. Aby uzyskać więcej informacji na temat rejestrowania działań w Power Platform, zobacz temat:

Lista kontrolna niezawodności

Zapoznaj się z kompletną zestawem zaleceń.

Lista kontrolna niezawodności

Udostępnij za pośrednictwem

Rekomendacje dotyczące wykonywania analizy trybu awarii

Kluczowe strategie projektowania

Wymagania wstępne

Podejście FMA

Rozkładanie obciążenia na elementy

Identyfikowanie zależności

Punkty niepowodzenia

Ograniczanie ryzyka

Wykrywanie

Wynik

Przykład

Ułatwienia Power Platform

Lista kontrolna niezawodności

Opinia

Dodatkowe zasoby