Lista kontrolna przeglądu projektu dotycząca niezawodności
Ta lista kontrolna przedstawia zestaw zaleceń, których można użyć do oceny strategii niezawodności, odporności i odzyskiwania po awarii w projekcie architektury. W celu zapewnienia niezawodności zidentyfikuj najlepszą infrastrukturę i projekt aplikacji dla swojego obciążenia roboczego. Podejmij te decyzje na podstawie wymagań biznesowych mapowanych na metryki docelowe dostępności i możliwości odzyskiwania.
Aby zaimplementować niezawodny projekt, dokładnie rozważ punkty decyzyjne w projekcie i pamiętaj o tym, jak te decyzje wpływają na obciążenie. Ta lista kontrolna i towarzyszące przewodniki zawierają zasoby ułatwiające podejmowanie tych decyzji. Spraw, aby niezawodność obciążeń była istotnym aspektem cyklu projektowania, rozwijania i eksploatacji.
Lista kontrolna
Podejdź do projektowania z naciskiem na niezawodność, aby zapewnić, że tworzysz projekt, który jest odporny, łatwy w zarządzaniu i powtarzalny. Jeśli nie uwzględnisz praktyk dotyczących niezawodności i rozważysz kompromisy, projekt jest potencjalnie zagrożony. Starannie zastanów się nad wszystkimi punktami, które zostały uwzględnione na liście kontrolnej, aby zaszczepić zaufanie do sukcesu systemu.
Kod | Zalecenie | |
---|---|---|
☐ | RE:01 | Skoncentruj się na projektowaniu pracy, aby była prosta i efektywna. Użyj praktycznego podejścia, aby uniknąć niepotrzebnej złożoności podczas spełniania celów i wymagań biznesowych. |
☐ | RE:02 | Identyfikowanie i ocenianie przepływów użytkowników i systemów. Użyj skali krytycznej na podstawie wymagań biznesowych, aby określić priorytety przepływów. |
☐ | RE:03 | Użyj analizy trybu awarii (FMA), aby zidentyfikować potencjalne błędy w obciążeniu. Zidentyfikuj zależności i punkty awarii oraz opracuj strategie ograniczania ryzyka dla tych awarii. |
☐ | RE:04 | Zdefiniuj cele niezawodności i odzyskiwania dla Twojego obciążenia. Użyj celów, aby kierować projektem i jako podstawę modelu zdrowia. |
☐ |
RE:05 RE:05 RE:05 |
Dodaj nadmiarowość na różnych poziomach, szczególnie w przypadku przepływów krytycznych, aby pomóc spełnić cele dotyczące niezawodności. Rozważ nadmiarowe składniki infrastruktury, takie jak zasoby obliczeniowe i sieć, a także wiele wystąpień rozwiązania. |
☐ |
RE:06 RE:06 |
Zaimplementuj terminową i niezawodną strategię skalowania na poziomie aplikacji, danych i infrastruktury. Bazuj strategię skalowania na rzeczywistych lub przewidywanych wzorcach użycia i minimalizuj interwencję ręczną. |
☐ | RE:07 | Wzmocnij odporność swojego obciążenia roboczego, wdrażając środki samoodnowy i samonaprawy. Korzystaj z wbudowanych funkcji i dobrze ugruntowanych wzorców chmurowych, aby zapewnić, że obciążenie pozostaje funkcjonalne w trakcie incydentów i odzyskuje sprawność po ich wystąpieniu. |
☐ | RE:08 | Testuj scenariusze odporności i dostępności, stosując zasady inżynierii chaosu. Upewnij się, że Twój system łagodnej degradacji i strategia skalowania są skuteczne, przeprowadzając testy awarii i symulowane testy obciążeniowe. |
☐ | RE:09 | Zaimplementuj uporządkowane, przetestowane i udokumentowane plany ciągłości działania i odzyskiwania po awarii (BCDR), które są zgodne z celami odzyskiwania. Plany muszą obejmować wszystkie składniki i cały system. |
☐ | RE:10 | Mierz i modeluj sygnały zdrowotne rozwiązania. Ciągłe zbieranie danych dotyczących czasu pracy i innych danych niezawodnościowych z całego środowiska pracy, a także z poszczególnych składników i kluczowych przepływów operacyjnych. |
Następne kroki
Zalecamy zapoznanie się z kompromisami dotyczącymi niezawodności, aby zapoznać się z innymi pojęciami.
kompromisy niezawodności