Kontrolní seznam pro kontrolu návrhu pro spolehlivost
Tento kontrolní seznam představuje sadu doporučení, která můžete použít k vyhodnocení strategií spolehlivosti, odolnosti a zotavení po selhání v návrhu architektury. Pokud chcete zajistit spolehlivost, identifikujte nejlepší infrastrukturu a návrh aplikací pro vaši úlohu. Tato rozhodnutí proveďte na základě vašich obchodních požadavků, které jsou namapované na metriky cíle dostupnosti a obnovitelnosti.
Pokud chcete implementovat spolehlivý návrh, důkladně zvažte rozhodovací body ve vašem návrhu a mějte na paměti, jak tato rozhodnutí ovlivňují vaše úlohy. Tento kontrolní seznam a doprovodné příručky poskytují zdroje, které vám pomůžou při rozhodování. Zajištění spolehlivosti úloh je ústředním aspektem v celém životním cyklu návrhu, vývoje a provozu úloh.
Kontrolní seznam
Přistupujte ke svému návrhu se zaměřením na spolehlivost, abyste zajistili, že navrhnete úlohu, která je odolná, spravovatelná a opakovatelná. Pokud nezahrnujete postupy spolehlivosti a zvažte kompromisy, je váš návrh potenciálně ohrožen. Pečlivě zvažte všechny body popsané v kontrolním seznamu, abyste mohli instilovat důvěru v úspěch vašeho systému.
Kód | Doporučení | |
---|---|---|
☐ | RE:01 | Zaměřte se na návrh úloh na jednoduchost a efektivitu. Při plnění obchodních cílů a požadavků použijte praktický přístup, abyste se vyhnuli zbytečné složitosti. |
☐ | RE:02 | Identifikace a hodnocení toků uživatelů a systémů Pomocí škálování závažnosti na základě vašich obchodních požadavků upřednostněte toky. |
☐ | RE:03 | K identifikaci potenciálních selhání ve vaší úloze použijte analýzu režimu selhání (FMA). Identifikujte závislosti a body selhání a vyvíjejte strategie pro zmírnění těchto selhání. |
☐ | RE:04 | Definujte cíle spolehlivosti a obnovení pro vaši úlohu. Použijte cíle jako vodítko pro svůj návrh a jako základ svého zdravotního modelu. |
☐ |
RE:05 RE:05 RE:05 |
přidat redundanci na různých úrovních, zejména pro kritické toky, aby bylo možné splnit cíle spolehlivosti. Zvažte redundantní komponenty infrastruktury, jako jsou výpočetní prostředky a síť, a několik instancí vašeho řešení. |
☐ |
RE:06 RE:06 |
Implementovat včasnou a spolehlivou strategii škálování na úrovni aplikace, dat a infrastruktury. Založte strategii škálování na skutečném nebo předpovídaném způsobu použití a minimalizujte ruční zásah. |
☐ | RE:07 | posílit odolnost vašich úloh implementací opatření pro sebezáchování a samoopravení. Používejte integrované funkce a dobře zavedené cloudové vzory, které vaší úloze pomůžou zůstat funkční během incidentů a zotavit se z incidentů. |
☐ | RE:08 | Testování odolnosti a dostupnosti pomocí principů chaosového inženýrství. Ujistěte se, že vaše strategie řádného snížení výkonu a škálování jsou efektivní provedením aktivní poruchy a simulovaného zátěžového testování. |
☐ | RE:09 | Implementovat strukturované, testované a zdokumentované plány provozní kontinuity a zotavení po havárii (BCDR), které odpovídají cílům obnovení. Plány musí zahrnovat všechny komponenty a systém jako celek. |
☐ | RE:10 | Měřit a modelovat signály stavu řešení. Nepřetržitě zachytává data o provozu a dalších spolehlivostech z celé úlohy a také z jednotlivých komponent a klíčových toků. |
Další kroky
Doporučujeme, abyste si prostudovali kompromisy pro spolehlivost a prozkoumali další koncepty.