Kontrolní seznam pro kontrolu návrhu pro spolehlivost

Článek
03/05/2025

Tento kontrolní seznam představuje sadu doporučení, která můžete použít k vyhodnocení strategií spolehlivosti, odolnosti a zotavení po selhání v návrhu architektury. Pokud chcete zajistit spolehlivost, identifikujte nejlepší infrastrukturu a návrh aplikací pro vaši úlohu. Tato rozhodnutí proveďte na základě vašich obchodních požadavků, které jsou namapované na metriky cíle dostupnosti a obnovitelnosti.

Pokud chcete implementovat spolehlivý návrh, důkladně zvažte rozhodovací body ve vašem návrhu a mějte na paměti, jak tato rozhodnutí ovlivňují vaše úlohy. Tento kontrolní seznam a doprovodné příručky poskytují zdroje, které vám pomůžou při rozhodování. Zajištění spolehlivosti úloh je ústředním aspektem v celém životním cyklu návrhu, vývoje a provozu úloh.

Kontrolní seznam

Přistupujte ke svému návrhu se zaměřením na spolehlivost, abyste zajistili, že navrhnete úlohu, která je odolná, spravovatelná a opakovatelná. Pokud nezahrnujete postupy spolehlivosti a zvažte kompromisy, je váš návrh potenciálně ohrožen. Pečlivě zvažte všechny body popsané v kontrolním seznamu, abyste mohli instilovat důvěru v úspěch vašeho systému.

	Kód	Doporučení
☐	RE:01	Zaměřte se na návrh úloh na jednoduchost a efektivitu. Při plnění obchodních cílů a požadavků použijte praktický přístup, abyste se vyhnuli zbytečné složitosti.
☐	RE:02	Identifikace a hodnocení toků uživatelů a systémů Pomocí škálování závažnosti na základě vašich obchodních požadavků upřednostněte toky.
☐	RE:03	K identifikaci potenciálních selhání ve vaší úloze použijte analýzu režimu selhání (FMA). Identifikujte závislosti a body selhání a vyvíjejte strategie pro zmírnění těchto selhání.
☐	RE:04	Definujte cíle spolehlivosti a obnovení pro vaši úlohu. Použijte cíle jako vodítko pro svůj návrh a jako základ svého zdravotního modelu.
☐	RE:05 RE:05 RE:05	přidat redundanci na různých úrovních, zejména pro kritické toky, aby bylo možné splnit cíle spolehlivosti. Zvažte redundantní komponenty infrastruktury, jako jsou výpočetní prostředky a síť, a několik instancí vašeho řešení.
☐	RE:06 RE:06	Implementovat včasnou a spolehlivou strategii škálování na úrovni aplikace, dat a infrastruktury. Založte strategii škálování na skutečném nebo předpovídaném způsobu použití a minimalizujte ruční zásah.
☐	RE:07	posílit odolnost vašich úloh implementací opatření pro sebezáchování a samoopravení. Používejte integrované funkce a dobře zavedené cloudové vzory, které vaší úloze pomůžou zůstat funkční během incidentů a zotavit se z incidentů.
☐	RE:08	Testování odolnosti a dostupnosti pomocí principů chaosového inženýrství. Ujistěte se, že vaše strategie řádného snížení výkonu a škálování jsou efektivní provedením aktivní poruchy a simulovaného zátěžového testování.
☐	RE:09	Implementovat strukturované, testované a zdokumentované plány provozní kontinuity a zotavení po havárii (BCDR), které odpovídají cílům obnovení. Plány musí zahrnovat všechny komponenty a systém jako celek.
☐	RE:10	Měřit a modelovat signály stavu řešení. Nepřetržitě zachytává data o provozu a dalších spolehlivostech z celé úlohy a také z jednotlivých komponent a klíčových toků.

Další kroky

Doporučujeme, abyste si prostudovali kompromisy pro spolehlivost a prozkoumali další koncepty.

kompromisy spolehlivosti

Sdílet prostřednictvím

Kontrolní seznam pro kontrolu návrhu pro spolehlivost

Kontrolní seznam

Další kroky

Váš názor

Další materiály