Udostępnij za pośrednictwem


Lista kontrolna przeglądu projektu dotycząca niezawodności

Ta lista kontrolna przedstawia zestaw zaleceń, których można użyć do oceny strategii niezawodności, odporności i odzyskiwania po awarii w projekcie architektury. W celu zapewnienia niezawodności zidentyfikuj najlepszą infrastrukturę i projekt aplikacji dla swojego obciążenia roboczego. Podejmij te decyzje na podstawie wymagań biznesowych mapowanych na metryki docelowe dostępności i możliwości odzyskiwania.

Aby zaimplementować niezawodny projekt, dokładnie rozważ punkty decyzyjne w projekcie i pamiętaj o tym, jak te decyzje wpływają na obciążenie. Ta lista kontrolna i towarzyszące przewodniki zawierają zasoby ułatwiające podejmowanie tych decyzji. Spraw, aby niezawodność obciążeń była istotnym aspektem cyklu projektowania, rozwijania i eksploatacji.

Lista kontrolna

Podejdź do projektowania z naciskiem na niezawodność, aby zapewnić, że tworzysz projekt, który jest odporny, łatwy w zarządzaniu i powtarzalny. Jeśli nie uwzględnisz praktyk dotyczących niezawodności i rozważysz kompromisy, projekt jest potencjalnie zagrożony. Starannie zastanów się nad wszystkimi punktami, które zostały uwzględnione na liście kontrolnej, aby zaszczepić zaufanie do sukcesu systemu.

  Kod Zalecenie
RE:01 Skoncentruj się na projektowaniu pracy, aby była prosta i efektywna. Użyj praktycznego podejścia, aby uniknąć niepotrzebnej złożoności podczas spełniania celów i wymagań biznesowych.
RE:02 Identyfikowanie i ocenianie przepływów użytkowników i systemów. Użyj skali krytycznej na podstawie wymagań biznesowych, aby określić priorytety przepływów.
RE:03 Użyj analizy trybu awarii (FMA), aby zidentyfikować potencjalne błędy w obciążeniu. Zidentyfikuj zależności i punkty awarii oraz opracuj strategie ograniczania ryzyka dla tych awarii.
RE:04 Zdefiniuj cele niezawodności i odzyskiwania dla Twojego obciążenia. Użyj celów, aby kierować projektem i jako podstawę modelu zdrowia.
RE:05
RE:05
RE:05
Dodaj nadmiarowość na różnych poziomach, szczególnie w przypadku przepływów krytycznych, aby pomóc spełnić cele dotyczące niezawodności. Rozważ nadmiarowe składniki infrastruktury, takie jak zasoby obliczeniowe i sieć, a także wiele wystąpień rozwiązania.
RE:06
RE:06
Zaimplementuj terminową i niezawodną strategię skalowania na poziomie aplikacji, danych i infrastruktury. Bazuj strategię skalowania na rzeczywistych lub przewidywanych wzorcach użycia i minimalizuj interwencję ręczną.
RE:07 Wzmocnij odporność swojego obciążenia roboczego, wdrażając środki samoodnowy i samonaprawy. Korzystaj z wbudowanych funkcji i dobrze ugruntowanych wzorców chmurowych, aby zapewnić, że obciążenie pozostaje funkcjonalne w trakcie incydentów i odzyskuje sprawność po ich wystąpieniu.
RE:08 Testuj scenariusze odporności i dostępności, stosując zasady inżynierii chaosu. Upewnij się, że Twój system łagodnej degradacji i strategia skalowania są skuteczne, przeprowadzając testy awarii i symulowane testy obciążeniowe.
RE:09 Zaimplementuj uporządkowane, przetestowane i udokumentowane plany ciągłości działania i odzyskiwania po awarii (BCDR), które są zgodne z celami odzyskiwania. Plany muszą obejmować wszystkie składniki i cały system.
RE:10 Mierz i modeluj sygnały zdrowotne rozwiązania. Ciągłe zbieranie danych dotyczących czasu pracy i innych danych niezawodnościowych z całego środowiska pracy, a także z poszczególnych składników i kluczowych przepływów operacyjnych.

Następne kroki

Zalecamy zapoznanie się z kompromisami dotyczącymi niezawodności, aby zapoznać się z innymi pojęciami.

kompromisy niezawodności