Rekomendacje dotyczące definiowania celów niezawodności

Artykuł
09/11/2024

Dotyczy tego Power Platform zalecenia dotyczącego listy kontrolnej niezawodności Well-Architected Reliability:

RE:04

Zdefiniuj wartości docelowe niezawodności i odzyskiwania dla składników, przepływów i całego rozwiązania. Zwizualizuj cele do negocjacji, uzyskaj i ustaw oczekiwania oraz ustaw działania mające na celu osiągnięcie idealnego stanu. Do tworzenia modelu kondycji można użyć zdefiniowanych wartości docelowych. Model kondycji definiuje stany, które są w dobrej kondycji, pogarszającej się kondycji i w złej kondycji.

W tym przewodniku opisano rekomendacje dotyczące definiowania metryk docelowych dostępności i odzyskiwania dla obciążeń o znaczeniu krytycznym. Cele niezawodności są pochodne dzięki ćwiczeniom na warsztatach z interesariuszami biznesowymi.

Wartości docelowe zostały ulepszone dzięki monitorowaniu i testom. Należy pracować z wewnętrznymi interesariuszami w celu ustanowienia oczekiwań niezawodności. To ćwiczenie pomoże także interesariuszom w zakresie wyboru projektu architektury i zrozumieniu, że projektujesz, aby jak najlepiej spełniać uzgodnione cele.

Microsoft Power Platform umożliwia obsługę większości zagadnień dotyczących dostępności i niezawodności na poziomie infrastruktury. Jednak odpowiedzialność za dostępność budowanych obciążeń należy do Ciebie. Należy pamiętać, że nawet w przypadku zobowiązań do wysokiej dostępności Microsoft ryzyko przestoju systemu nigdy nie wynosi zero.

Rozważ użycie następujących metryk do ilościowego określania wymagań biznesowych.

Termin	Definicja
Cel poziomu usług (SLO)	Wartość docelowa procentowa reprezentująca stan składnika i warstwy niezawodności. Im wyższa warstwa, tym bardziej wiarygodne jest składnik. Złożona wartość SLO reprezentuje zagregowany element docelowy całego obciążenia i uwzględnia poziomy SLO składników.
Wskaźniki na poziomie usługi (SLI)	Metryka emitowana przez usługę. Metryki SLI są agregowane w celu ilościowego określenia wartości SLO.
Umowa dotycząca poziomu usług (SLA)	Umowa kontraktowa zawarta między dostawcą usługi a klientem usługi. Umowa definiuje SLO. Niepowodzenie umowy może spowodować konsekwencje finansowe dla dostawcy usługi.
Czas średni do odzyskiwania (MTTR)	Czas przywracania składnika po wykryciu błędu.
Średni czas między niepowodzeniem (MTBF)	Czas trwania, dla którego obciążenia mogą wykonywać oczekiwane funkcje bez przerwy, do momentu jego awarii.
Cel czasu odzyskiwania (RTO)	Maksymalny dopuszczalny czas, w czasie, gdy aplikacja nie może być dostępna po zdarzeniu.
Cel punktu odzyskiwania (RPO)	Maksymalny dopuszczalny czas trwania utraty danych podczas zdarzenia.

Zdefiniuj wartości docelowe obciążenia dla tych metryk w kontekście przepływów użytkowników i systemów. Zidentyfikuj i oceń te przepływy według tego, jak krytyczne są dla Twoich wymagań. Użyj tych wartości, aby obciążenia związanego z architekturą, przeglądem, testowaniem i zarządzaniem zdarzeniami. Niepowodzenie realizacji celów wpłynie na działalność poza poziomem tolerancji.

Kluczowe strategie projektowania

Dyskusje techniczne nie powinny stymulować sposobu definiowania wartości docelowych niezawodności dla przepływów krytycznych. Zamiast tego interesariusze biznesowi powinni się skoncentrować na swoich wymaganiach i oczekiwaniach użytkowników końcowych w zakresie obciążenia. Eksperci techniczni pomagają interesariuszom w przypisywaniu liczbowych wartości spełniających te wymagania. Wymiana informacji pozwala ekspertom technicznym na dyskusję i zawarcie umowy w sprawie dopuszczalnych SLO.

Rozważ przykład mapowania wymagań na mierzalne wartości numeryczne. Interesariusze szacują, że w przypadku krytycznego przepływu użytkowników godzina przestoju w godzinach pracy powoduje utratę X dolarów w przychodzie miesięcznym. Ta kwota w dolaraxh jest porównywana z szacowanym kosztem projektowania przepływu, w przypadku dostępności SLO 99,95 procent, a nie 99,9 procent. Przed podjęciem decyzji należy określić, czy ryzyko utraty przychodów nie zmniejsza dodanych kosztów i nie jest konieczne do zarządzania, aby chronić je.

Postępuj zgodnie z tym wzorcem podczas analizy przepływów i tworzenia pełnej listy wartości docelowych.

Należy pamiętać, że wartości docelowe niezawodności różnią się od wartości docelowych wydajności. Celem niezawodności jest skupienie się na dostępności i odzyskiwaniu danych. Aby ustawić cele niezawodności, należy rozpocząć od zdefiniowania jak najmniejszej liczby wymagań, a następnie zdefiniowanie bardziej konkretnych metryk spełniających najwyższe wymagania.

Wymagania dotyczące niezawodności i odzyskiwania najwyższego poziomu oraz korelowane metryki mogą obejmować na przykład dostępność aplikacji 99,9 procent dla wszystkich regionów lub docelowy poziom RTO 5 godzin dla regionu Ameryka. Zdefiniowanie tych typów celów pomaga określić, które przepływy krytyczne są związane z tymi celami. Następnie można rozważyć wartości docelowe na poziomie składnika.

Metryki dostępności

Wartości docelowe dostępności odpowiadają metrykom SLO, SLA i SLI.

SLO i SLA

Metryki dostępności korelują z wartościami SLO, które są używać do definiowania wartości SLA. SLO obciążenia określa, ile przestojów można zrównać w danym okresie; na przykład mniej niż 1 godzina na miesiąc. Aby upewnić się, że można osiągnąć wartość docelową SLO, należy przejrzeć SLA od Microsoft dla każdego składnika.

Aby ustanowić swoje SLO, pomyśl o:

Wymagania niefunkcyjne obciążenia (na przykład wskaźniki szczytowych żądań, użytkownicy współbieżni) w ciągu najbliższych 1–2 lat.
Dostępne metryki dotyczące tego, co można mierzyć w danym okresie. Te dane będą informować o tym, jakie SLI należy określić.

Po zebraniu umów SLA dla poszczególnych składników obciążenia należy obliczyć złożoną umowę SLA. Złożona umowy SLA powinny być zgodne z docelowym SLO obciążenia. Obliczanie złożonej umowy SLA obejmuje kilka czynników, w zależności od projektu architektury.

Definiowanie odpowiednich SLO wymaga czasu i dokładnego rozważenia. Interesariusze biznesowi powinni poznać bezpieczeństwo danych. Te opinie powinny poinformować o celach.

Wartości SLA

W poniższej tabeli zdefiniowano typowe wartości SLA.

SLA	Przestój na tydzień	Przestój na miesiąc	Przestój na rok
99%	1.68 godziny	7.2 godziny	3.65 dni
99,9%	10.1 min	43.2 min	8.76 godziny
99,95%	5 min	21.6 min	4.38 godziny
99,99%	1.01 min	4.32 min	52.56 min
99,999%	6 s	25.9 s	5.26 min

Myśląc o złożonych umowach SLA w kontekście przepływów użytkowników i systemów należy pamiętać, że różne przepływy użytkowników i systemów mają różne definicje krytyczności. Podczas tworzenia złożonych SLA należy uwzględnić te różnice. Przepływy niekrytyczne mogą zawierać składniki, które należy pominąć w obliczeniach, ponieważ nie wpływają na obsługę klienta, jeśli nie są dostępne.

SLI

Można pomyśleć o składnikach SLI jako metrykach na poziomie składnika, które wpływają na SLO. Najważniejsze SLI to te, które wpływają na przepływy krytyczne z punktu widzenia klientów. W przypadku wielu przepływów umowy SLA obejmują przepustowość, wydajność, poziom błędów i dostępność. Dobre rozwiązanie SLI jest pomocne w identyfikowaniu SLO narażonych na ryzyko naruszenia. W miarę możliwości należy korelować SLI z określonymi klientami.

Aby uniknąć zbierania bezużytecznych metryk, należy ograniczyć liczbę wskaźników SLI dla każdego przepływu. W miarę możliwości celem jest posiadanie trzech SLI dla przepływu.

Metryki odzyskiwania

Wartości docelowe odzyskiwania odpowiadają metrykom RTO, RPO, MTTR i MTBF. W przeciwieństwie do celów dostępności wartości docelowe odzyskiwania tych miar nie zależą w dużym stopniu od SLA od Microsoft. Microsoft publikuje gwarancje RTO i RPO tylko dla niektórych produktów, takich jak SQL Database.

Definicje realistycznych celów w zakresie odzyskiwania danych polegają na analizie trybu awarii oraz planach i testowaniu pod kątem ciągłości działania i odzyskiwania po awarii. Przed zakończeniem tej pracy należy omówić z interesariuszami cele, do których aspirują, i upewnić się, że projekt architektury zapewnia wsparcie celów w zakresie odzyskiwania danych zgodnie z Twoją najlepszą wiedzą. Należy wyraźnie komunikować się z interesariuszami, że żadne części obciążenia, które nie są dokładnie testowane pod kątem metryk odzyskiwania, nie powinny mieć gwarancji SLA. Upewnij się, że interesariusze rozumieją, że wartości docelowe odzyskiwania mogą zmieniać się w czasie, gdy są aktualizowane obciążenia. Obciążenie może być bardziej złożone, gdy nowe technologie poprawiają sposób pracy użytkownika. Te zmiany mogą zwiększyć lub zmniejszyć metryki odzyskiwania danych.

Uwaga

MTBF może być trudnym elementem do zdefiniowania i gwarantowania. Platformy jako usługa (PaaS) lub oprogramowanie jako usługa (SaaS) mogą zakończyć się błędem i odzyskać bez powiadomienia dostawcy usługi w chmurze, a proces może być całkowicie przejrzysty dla użytkownika. W przypadku definiowania wartości docelowych tej metryki należy obejmować tylko składniki pod kontrolą.

Budowanie modelu kondycji

Zebrane dane na potrzeby celów niezawodności są wykorzystywane do tworzenia modelu kondycji dla każdego obciążenia i skojarzonych z nimi przepływów krytycznych. Model kondycji definiuje stany dobrej, pogorszonej i złej kondycji* dla przepływów i obciążeń. Stany zapewniają odpowiednią priorytety operacyjne. Ten model jest również nazywany modelem sygnalizacji świetlnej. W modelu jest przypisywany kolor zielony do dobrej kondycji, żółty do pogorszonej i czerwony do złej. Model kondycji pozwala zagwarantować, że wiadomo, kiedy stan przepływu zmienia się z dobrej kondycji na pogorszoną lub złą.

Sposób definiowania stanów dobrej, pogorszonej lub złej kondycji zależy od wartości docelowych niezawodności. Oto kilka przykładów sposobów definiowania stanów:

Stan zielony lub dobrej kondycji oznacza, że kluczowe wymagania i wartości docelowe są w pełni spełnione i że zasoby są używane w optymalnej formie.
Stan żółty lub pogorszonej kondycji wskazuje, że dla jednego lub większej liczby składników przepływu są alerty dotyczące zdefiniowanego progu, ale przepływ jest operacyjny. Na przykład wykryto ograniczanie magazynów.
Stan czerwony lub zlej kondycji oznacza, że obniżenie jakości występuje dłużej niż zezwala na to cel niezawodności lub że przepływ stał się niedostępny.

Uwaga

Model kondycji nie powinien traktować wszystkich awarii tak samo. Model kondycji powinien rozróżniać błędy przejściowe i nieprzejściowe . Należy wyraźnie rozróżniać błędy, które można odzyskać, i stany prawdziwej katastrofy.

Model działa w oparciu o strategię monitorowania i alertów, która jest opracowywana i obsługiwana z wykorzystaniem zasad doskonalenia w sposób ciągły. Wraz z rozwojem prac trzeba rozwijać swoje modele kondycji.

Szczegółowe wskazówki dotyczące konfiguracji monitorowania i alertów można znaleźć w przewodniku po monitorowaniu kondycji.

Wizualizacja

Aby zespoły operacyjne i udziałowcy w zakresie obciążenia zostali poinformowani o stanie w czasie rzeczywistym i ogólnych trendach modelu kondycji obciążenia, należy rozważyć utworzenie pulpitów nawigacyjnych w rozwiązaniu do monitorowania. Rozwiązania do wizualizacji należy omawiać z interesariuszami, aby zapewnić, że dostarczasz im informacje, które będą dla nich łatwo wykorzystywane i łatwo je zużywają. Mogą także chcieć wyświetlić generowane raporty tygodniowo, miesięcznie lub kwartalnie.

Ułatwienia Power Platform

Umowy SLA Power Platform oferuje zobowiązania firmy Microsoft dotyczące czasu pracy i połączeń. Różne usługi mają różne umowy SLA, a czasami jednostki SKU w ramach usługi mają różne umowy SLA. Aby uzyskać więcej informacji, zobacz umowy dotyczące poziomu usług dotyczące usług online.

Umowy Power Platform SLA zawierają procedury uzyskiwania kredytu związanego z usługą, jeśli nie są spełnione warunki SLA, oraz definicje dostępności dla każdej usługi. Ten aspekt umowy SLA pełni rolę zasad ochrony porządku publicznego.

Aplikacje Microsoft Business Applications zapewniają funkcje ciągłości biznesowej i odzyskiwania danych (BCDR) dla wszystkich środowisk typu produkcyjnego w aplikacjach Dynamics 365 i Power Platform SaaS. Dowiedz się, jak Microsoft zapewnia odporność danych produkcyjnych podczas regionalnych przestojów.

Dopasowanie organizacyjne

Cloud Adoption Framework zapewnia zalecenia dotyczące umowy SLO i SLI związane z monitorowaniem w całej organizacji.

Aby uzyskać więcej informacji, zobacz SLO dotyczące monitorowania chmury.

Lista kontrolna niezawodności

Zapoznaj się z kompletną zestawem zaleceń.

Lista kontrolna niezawodności

Udostępnij za pośrednictwem

Rekomendacje dotyczące definiowania celów niezawodności

Kluczowe strategie projektowania

Metryki dostępności

SLO i SLA

Wartości SLA

SLI

Metryki odzyskiwania

Budowanie modelu kondycji

Wizualizacja

Ułatwienia Power Platform

Dopasowanie organizacyjne

Lista kontrolna niezawodności

Opinia

Dodatkowe zasoby