設計可靠的監視和警示原則的建議
適用於此 Power Platform Well-Architected 可靠性檢查表建議:
回復:08 | 測量並發佈解決方案的運作狀況指標。 從整個工作負載以及單個元件和關鍵流程中,持續擷取上線時間和其他可靠性資料。 |
---|
本指南介紹設計可靠監視和警示策略的建議。 實施此策略可讓您的營運團隊隨時了解環境的健全狀態,並確保符合工作負載既定的可靠性目標。
定義
詞彙 | 定義 |
---|---|
計量 | 定期收集的數值。 計量描述了特定時間系統的某些方面。 |
資源記錄 | 系統產生的有關系統狀態的資料。 |
追蹤 | 提供有關要求通過服務和元件的路徑資訊的資料。 |
關鍵設計原則
在建立監視和警示策略之前,做為可靠性規劃的一部分,請為您的工作負載執行以下任務:
識別關鍵和非關鍵流程。
對您的流程執行失效模式分析 (FMA)。
找出可靠性目標。
設計健全的測試原則。
建立監視和警示策略以提高營運團隊的意識,以便他們收到工作負載狀況變化的通知並快速解決問題。 關鍵流程和包含關鍵流程的工作負載的運作狀況模型應定義良好、降級和不良狀態。 設計您的監視姿勢以立即捕捉這些狀態的變化。 當健全狀態從良好變為降級或不良時,警示機制應觸發自動恢復措施,並向負責團隊發出警示。
實施以下建議來設計滿足您的業務要求的監視和警示策略。
一般指南
為所有雲端資源啟用記錄。 在部署中使用自動化和治理,以在整個環境中啟用診斷記錄。
將所有診斷記錄轉送至集中式資料接收器和分析平台,例如 Log Analytics 工作區。 如果您有區域資料主權要求,則必須在受這些要求約束的區域中使用本機資料接收器。
權衡:存儲和查詢日誌會產生成本影響。 注意記錄分析和保留如何影響您的預算,並確定滿足您的要求的最佳使用率平衡。
如果您的工作負載受一個或多個合規性框架的約束,則某些處理敏感資訊的元件記錄也受這些框架的限制。 將相關元件日誌發送到安全資訊和事件管理 (SIEM) 系統,例如 Microsoft Sentinel。
建立一個記錄保留原則,其中包含合規性框架對您的工作負載施加的長期保留要求。
對所有記錄訊息使用結構化記錄,以最佳化記錄資料的查詢。
設定警示,以便在值超過與運作狀況模型狀態變更相關的關鍵閾值 (例如從綠色變為黃色或紅色) 時觸發。 閾值設定是一種持續改進的做法。 隨著工作負載的變化,您定義的閾值可能會發生變化。
考慮在狀態改善時使用警示,例如從紅色變為黃色或從紅色變為綠色,以便營運團隊可以追蹤這些事件以供將來參考。
使用自訂儀表板視覺化環境的即時運作狀況。
使用事件期間收集的資料不斷改進您的運作狀況模型。
整合雲端平台監視和警示服務,包括平台層級運作狀況。
整合雲端提供者提供的專用進階監視和分析,例如 Azure Monitor 深入解析工具。
實施備份和復原監視以擷取:
- 資料複製狀態,以確保您的工作負載在目標復原點目標 (RPO) 內實現復原。
- 成功和失敗的備份和復原。
- 用於通知災害復原計畫的復原持續時間。
監控應用程式和副駕駛
在應用程式或 copilot 在生產環境運行時記錄數據。 您需要足夠的資訊來診斷生產狀態中問題的原因。
在服務邊界記錄事件。 包括跨服務邊界流動的相互關聯識別碼。 如果交易流程經多個服務且其中一個服務失敗,則相互關聯識別碼可協助您追蹤應用程式中的要求,並找出交易失敗的原因。
將應用程式和 Copilot 紀錄記錄與審計分開。 稽核記錄通常是出於合規性或監管要求而維護的,並且必須完整。 為了避免遺失交易,請將稽核記錄與診斷記錄分開維護。
使用白盒監控通過語義日誌和指標檢測應用程式或 Copilot。 從應用程式或 Copilot 收集應用程式和 Copilot 級別的指標和日誌,例如記憶體消耗或請求延遲,以通知運行狀況模型並檢測和預測問題。
使用黑盒子監視來衡量平台服務和由此產生的客戶體驗。 黑匣子監控測試外部可見的應用程式或 Copilot 行為,而無需瞭解系統的內部。 這種方法通常用於衡量以客戶為中心的服務等級計量 (SLI)、服務等級目標 (SLO) 和服務等級協定 (SLA)。
監視資料和儲存體
監視儲存容器的可用性計量。 當該計量低於 100% 時,表示寫入失敗。 當您的雲端提供者管理負載時,可用性可能會發生暫時下降。 追蹤可用性趨勢以確定您的工作負載是否有問題。 在某些情況下,儲存容器的可用性計量下降表示與儲存容器關聯的計算層存在瓶頸。
有許多資料庫計量需要監視。 在可靠性方面,需要監視的重要計量包括:
- 查詢持續時間
- 逾時
- 等待時間
- 記憶體壓力
- 鎖定
Power Platform 簡易化
Power Platform 與 Application Insights 整合,後者是 Azure Monitor 生態系統的一部分。 您可以使用此整合來:
訂閱以接收 Application Insights 中 Dataverse 平台擷取的遙測資料,其為應用程式在 Dataverse 資料庫和模型導向應用程式中執行的診斷、效能和作業。 此遙測提供的資訊可用於診斷和疑難排解與錯誤和效能相關的問題。
將您的畫布應用程式連接到 Application Insights,以使用這些分析來診斷問題、了解使用者實際使用您的應用程式執行哪些操作、推動更好的商務決策,並提高應用程式的品質。
設定 Power Automate 遙測以流入 Application Insights。 您可以使用此遙測來監視雲端流執行,並為雲端流程執行失敗建立警示。
從 Copilot Microsoft Copilot Studio 捕獲遙測數據以在 Azure Application Insights 中使用。 您可以使用此遙測來監控發送到 Copilot 和從 Copilot 發送的記錄消息和事件、在使用者對話期間觸發的主題,以及可以從您的主題發送的自定義遙測事件。
Power Platform resources 在 Purview 合規門戶中 Microsoft 記錄活動。 大多數活動在活動開始後 24 小時內顯示。 請勿使用此資訊進行即時監控。 有關記錄 Power Platform 中活動的詳細資訊,請參閱:
- Power Apps
- Power Automate
- Copilot Studio
- Power Pages
- Power Platform 連接
- 數據丟失防護
- Power Platform 管理日誌
- Dataverse 審計
Power Platform 工作負載可能包括 Azure 資源。 若要詳細了解 Azure 資源的監視建議,請參閱設計和建立監視系統的建議。
Power Platform 卓越中心入門套件是包含一組元件和工具的參考實作,專門用來協助您開始建立採納和支援 Power Platform 的原則。 套件提供自動化和工具,可協助團隊建立支援 CoE 所需的監視和自動化。
相關資訊
可靠性檢查清單
請參閱完整的建議集。