可靠度設計原則
可靠的工作負載必須具有彈性,以便能夠檢測中斷和故障並從中恢復,並始終如一地提供功能。 它必須能夠在合理的時間範圍內從故障中恢復。 它還必須可用,以便用戶可以在商定的時間範圍內以商定的質量級別一致且可靠地訪問工作負載。
使用 Well-Architected Framework Microsoft Azure 中的 以下設計原則來幫助確保整個生命週期的可靠性。 從推薦的最佳實踐開始,並證明每個可靠性原則的好處。 設置策略后,使用 Reliability checklist (可靠性檢查表 ) 作為下一步。
如果不將這些原則應用於設計,則工作負載很可能不會準備好預測或處理生產中的問題。 結果可能是導致財務損失的服務中斷。 在關鍵工作負載的情況下,不應用這些原則可能會危及安全。
針對業務需求進行設計
收集和了解業務需求,重點關注工作負載的預期使用方式。 |
---|
要求應包括用戶體驗、工作流、數據和特定於工作負載的功能。 目標應該是現實的,並根據給定的預算與所有利益相關者達成一致。 這些要求應該清楚地定義對團隊和利益相關者的期望。 記錄要求以指南技術選擇、實施和運營。
詳細瞭解如何在 Azure Well-Architected Framework 中針對業務要求 進行設計。
針對復原力進行設計
工作負載必須回應故障並繼續以完整或減少的功能運行。 |
---|
設計工作負載,使其能夠識別故障和元件中斷。 使系統具有彈性,以便它可以容忍故障並順利處理它們。 通知使用者系統狀態,並設置哪些元件不可用以及預期恢復需要多長時間的預期。
詳細瞭解如何在 Azure Well-Architected Framework 中設計復原 能力。
針對復原進行設計
工作負載必須能夠從故障中恢復,同時將對用戶體驗和業務目標的干擾降至最低。 |
---|
制定結構化、經過測試和記錄的恢復計劃,以實現快速恢復。 確保您的支援和運營團隊能夠訪問這些計劃,並經常執行恢復演練,以避免在實際中斷期間出現混亂和混亂。
詳細瞭解 Azure Well-Architected Framework 中的恢復 設計。
針對作業進行設計
工作負載必須是可觀察的,並且開發團隊必須能夠從失敗中吸取教訓。 |
---|
將監控構建到您的工作負載中,以便開發和支持團隊有足夠的數據來分析何時、為什麼以及哪個元件出現故障。 構建有意義的警報,以便在發生故障時通知支持團隊。 使用分析和洞察來推動改進。
詳細瞭解如何在 Azure Well-Architected Framework 中設計操作 。
保持簡單
避免對架構設計、應用程式代碼和操作進行過度設計。 |
---|
專注於業務需求,並刪除不必要的功能和元件。 建立提高一致性的開發和部署標準。 利用平臺提供的功能和預構建的資產來最大限度地縮短開發時間。
詳細瞭解如何在 Azure Well-Architected Framework 中保持簡單 。