Lista kontrolna przeglądu projektu dotycząca niezawodności

Artykuł
03/05/2025

Ta lista kontrolna przedstawia zestaw zaleceń, których można użyć do oceny strategii niezawodności, odporności i odzyskiwania po awarii w projekcie architektury. W celu zapewnienia niezawodności zidentyfikuj najlepszą infrastrukturę i projekt aplikacji dla swojego obciążenia roboczego. Podejmij te decyzje na podstawie wymagań biznesowych mapowanych na metryki docelowe dostępności i możliwości odzyskiwania.

Aby zaimplementować niezawodny projekt, dokładnie rozważ punkty decyzyjne w projekcie i pamiętaj o tym, jak te decyzje wpływają na obciążenie. Ta lista kontrolna i towarzyszące przewodniki zawierają zasoby ułatwiające podejmowanie tych decyzji. Spraw, aby niezawodność obciążeń była istotnym aspektem cyklu projektowania, rozwijania i eksploatacji.

Lista kontrolna

Podejdź do projektowania z naciskiem na niezawodność, aby zapewnić, że tworzysz projekt, który jest odporny, łatwy w zarządzaniu i powtarzalny. Jeśli nie uwzględnisz praktyk dotyczących niezawodności i rozważysz kompromisy, projekt jest potencjalnie zagrożony. Starannie zastanów się nad wszystkimi punktami, które zostały uwzględnione na liście kontrolnej, aby zaszczepić zaufanie do sukcesu systemu.

	Kod	Zalecenie
☐	RE:01	Skoncentruj się na projektowaniu pracy, aby była prosta i efektywna. Użyj praktycznego podejścia, aby uniknąć niepotrzebnej złożoności podczas spełniania celów i wymagań biznesowych.
☐	RE:02	Identyfikowanie i ocenianie przepływów użytkowników i systemów. Użyj skali krytycznej na podstawie wymagań biznesowych, aby określić priorytety przepływów.
☐	RE:03	Użyj analizy trybu awarii (FMA), aby zidentyfikować potencjalne błędy w obciążeniu. Zidentyfikuj zależności i punkty awarii oraz opracuj strategie ograniczania ryzyka dla tych awarii.
☐	RE:04	Zdefiniuj cele niezawodności i odzyskiwania dla Twojego obciążenia. Użyj celów, aby kierować projektem i jako podstawę modelu zdrowia.
☐	RE:05 RE:05 RE:05	Dodaj nadmiarowość na różnych poziomach, szczególnie w przypadku przepływów krytycznych, aby pomóc spełnić cele dotyczące niezawodności. Rozważ nadmiarowe składniki infrastruktury, takie jak zasoby obliczeniowe i sieć, a także wiele wystąpień rozwiązania.
☐	RE:06 RE:06	Zaimplementuj terminową i niezawodną strategię skalowania na poziomie aplikacji, danych i infrastruktury. Bazuj strategię skalowania na rzeczywistych lub przewidywanych wzorcach użycia i minimalizuj interwencję ręczną.
☐	RE:07	Wzmocnij odporność swojego obciążenia roboczego, wdrażając środki samoodnowy i samonaprawy. Korzystaj z wbudowanych funkcji i dobrze ugruntowanych wzorców chmurowych, aby zapewnić, że obciążenie pozostaje funkcjonalne w trakcie incydentów i odzyskuje sprawność po ich wystąpieniu.
☐	RE:08	Testuj scenariusze odporności i dostępności, stosując zasady inżynierii chaosu. Upewnij się, że Twój system łagodnej degradacji i strategia skalowania są skuteczne, przeprowadzając testy awarii i symulowane testy obciążeniowe.
☐	RE:09	Zaimplementuj uporządkowane, przetestowane i udokumentowane plany ciągłości działania i odzyskiwania po awarii (BCDR), które są zgodne z celami odzyskiwania. Plany muszą obejmować wszystkie składniki i cały system.
☐	RE:10	Mierz i modeluj sygnały zdrowotne rozwiązania. Ciągłe zbieranie danych dotyczących czasu pracy i innych danych niezawodnościowych z całego środowiska pracy, a także z poszczególnych składników i kluczowych przepływów operacyjnych.

Następne kroki

Zalecamy zapoznanie się z kompromisami dotyczącymi niezawodności, aby zapoznać się z innymi pojęciami.

kompromisy niezawodności

Udostępnij za pośrednictwem

Lista kontrolna przeglądu projektu dotycząca niezawodności

Lista kontrolna

Następne kroki

Opinia

Dodatkowe zasoby