Sdílet prostřednictvím


Kontrolní seznam pro kontrolu návrhu pro spolehlivost

Tento kontrolní seznam představuje sadu doporučení, která můžete použít k vyhodnocení strategií spolehlivosti, odolnosti a zotavení po selhání v návrhu architektury. Pokud chcete zajistit spolehlivost, identifikujte nejlepší infrastrukturu a návrh aplikací pro vaši úlohu. Tato rozhodnutí proveďte na základě vašich obchodních požadavků, které jsou namapované na metriky cíle dostupnosti a obnovitelnosti.

Pokud chcete implementovat spolehlivý návrh, důkladně zvažte rozhodovací body ve vašem návrhu a mějte na paměti, jak tato rozhodnutí ovlivňují vaše úlohy. Tento kontrolní seznam a doprovodné příručky poskytují zdroje, které vám pomůžou při rozhodování. Zajištění spolehlivosti úloh je ústředním aspektem v celém životním cyklu návrhu, vývoje a provozu úloh.

Kontrolní seznam

Přistupujte ke svému návrhu se zaměřením na spolehlivost, abyste zajistili, že navrhnete úlohu, která je odolná, spravovatelná a opakovatelná. Pokud nezahrnujete postupy spolehlivosti a zvažte kompromisy, je váš návrh potenciálně ohrožen. Pečlivě zvažte všechny body popsané v kontrolním seznamu, abyste mohli instilovat důvěru v úspěch vašeho systému.

  Kód Doporučení
RE:01 Zaměřte se na návrh úloh na jednoduchost a efektivitu. Při plnění obchodních cílů a požadavků použijte praktický přístup, abyste se vyhnuli zbytečné složitosti.
RE:02 Identifikace a hodnocení toků uživatelů a systémů Pomocí škálování závažnosti na základě vašich obchodních požadavků upřednostněte toky.
RE:03 K identifikaci potenciálních selhání ve vaší úloze použijte analýzu režimu selhání (FMA). Identifikujte závislosti a body selhání a vyvíjejte strategie pro zmírnění těchto selhání.
RE:04 Definujte cíle spolehlivosti a obnovení pro vaši úlohu. Použijte cíle jako vodítko pro svůj návrh a jako základ svého zdravotního modelu.
RE:05
RE:05
RE:05
přidat redundanci na různých úrovních, zejména pro kritické toky, aby bylo možné splnit cíle spolehlivosti. Zvažte redundantní komponenty infrastruktury, jako jsou výpočetní prostředky a síť, a několik instancí vašeho řešení.
RE:06
RE:06
Implementovat včasnou a spolehlivou strategii škálování na úrovni aplikace, dat a infrastruktury. Založte strategii škálování na skutečném nebo předpovídaném způsobu použití a minimalizujte ruční zásah.
RE:07 posílit odolnost vašich úloh implementací opatření pro sebezáchování a samoopravení. Používejte integrované funkce a dobře zavedené cloudové vzory, které vaší úloze pomůžou zůstat funkční během incidentů a zotavit se z incidentů.
RE:08 Testování odolnosti a dostupnosti pomocí principů chaosového inženýrství. Ujistěte se, že vaše strategie řádného snížení výkonu a škálování jsou efektivní provedením aktivní poruchy a simulovaného zátěžového testování.
RE:09 Implementovat strukturované, testované a zdokumentované plány provozní kontinuity a zotavení po havárii (BCDR), které odpovídají cílům obnovení. Plány musí zahrnovat všechny komponenty a systém jako celek.
RE:10 Měřit a modelovat signály stavu řešení. Nepřetržitě zachytává data o provozu a dalších spolehlivostech z celé úlohy a také z jednotlivých komponent a klíčových toků.

Další kroky

Doporučujeme, abyste si prostudovali kompromisy pro spolehlivost a prozkoumali další koncepty.