可靠性建議清單
此清單提供了一組建議,讓您可以用來評估體系結構設計中的可靠性、韌性和故障復原原則。 若要保證可靠性,請確定您的工作負載的最佳基礎結構和應用程式設計。 根據與可用性和可恢復性目標指標對應的業務需求來做出這些決策。
若要執行可靠的設計,請徹底考慮設計中的決策點,並瞭解這些決策如何影響工作負載。 此確認清單及其隨附的指南提供能幫助您做出這些決策的資源。 將工作負載可靠性作為工作負載設計、開發和營運生命週期之每個階段的核心考慮因素。
檢查清單
設計時把焦點放在可靠性,以協助確保設計具有韌性、可管理和可重複的工作負載。 如果您不包括可靠性實踐並考慮取捨,則設計可能存在風險。 仔細考慮檢查清單中涵蓋的所有要點,以逐漸對系統成功有信心。
程式碼 | 建議 | |
---|---|---|
☐ | 回復:01 | 設計工作負載以對齊業務目標,並避免不必要的複雜性或開銷。 使用實用且平衡的方法做出設計決策,以實現所需的結果。 讓您的設計滿足必要條件,以減少效率低下和潛在問題。 |
☐ | 回復:02 | 識別並評估使用者和系統流程。 根據您的業務需求使用重要性規模來確定流程的優先順序。 |
☐ | 回復:03 | 使用故障模式分析 (FMA) 來找出解決方案元件中的潛在故障並確定其優先順序。 執行 FMA 以協助您評估每種故障模式的風險和影響。 決定工作負載的回覆和復原方式。 |
☐ | 回復:04 | 定義元件、流和整體解決方案的可靠性和恢復目標 。 將目標視覺化來進行談判、達成共識、設定期望和推動行動,以達到理想狀態。 使用定義的目標組建健全情況模型。 健全狀況模型會定義正常、降級和不良狀態的外觀。 |
☐ | 回復:05 回復:05 |
通過實施錯誤處理和瞬態故障處理來增強工作負載的彈性。 在解決方案中建置功能以處理元件失效和瞬態錯誤。 |
☐ | 回復:06 | 通過在測試和生產環境中應用混沌工程原則來測試彈性和可用性方案。 透過執行使用中故障和類比負載測試以使用測試來確保正常降級執行原則有效。 |
☐ | 回復:07 | 實施與恢復目標 對齊的結構化、經過測試和記錄的業務連續性和災難恢復 (BCDR) 計劃。 計畫必須涵蓋所有元件和整個系統。 |
☐ | 回復:08 | 測量併發佈解決方案的運行狀況指標。 從整個工作負載以及單個元件和關鍵流程中,持續擷取上線時間和其他可靠性資料。 |