共用方式為


設計可靠的監視和警示原則的建議

適用於此 Power Platform Well-Architected 可靠性檢查表建議:

回復:08 測量並發佈解決方案的運作狀況指標。 從整個工作負載以及單個元件和關鍵流程中,持續擷取上線時間和其他可靠性資料。

本指南介紹設計可靠監視和警示策略的建議。 實施此策略可讓您的營運團隊隨時了解環境的健全狀態,並確保符合工作負載既定的可靠性目標。

定義

詞彙 定義
計量 定期收集的數值。 計量描述了特定時間系統的某些方面。
資源記錄 系統產生的有關系統狀態的資料。
追蹤 提供有關要求通過服務和元件的路徑資訊的資料。

關鍵設計原則

在建立監視和警示策略之前,做為可靠性規劃的一部分,請為您的工作負載執行以下任務:

建立監視和警示策略以提高營運團隊的意識,以便他們收到工作負載狀況變化的通知並快速解決問題。 關鍵流程和包含關鍵流程的工作負載的運作狀況模型應定義良好、降級和不良狀態。 設計您的監視姿勢以立即捕捉這些狀態的變化。 當健全狀態從良好變為降級或不良時,警示機制應觸發自動恢復措施,並向負責團隊發出警示。

實施以下建議來設計滿足您的業務要求的監視和警示策略。

一般指南

了解計量記錄追蹤之間的差異。

為所有雲端資源啟用記錄。 在部署中使用自動化和治理,以在整個環境中啟用診斷記錄。

將所有診斷記錄轉送至集中式資料接收器和分析平台,例如 Log Analytics 工作區。 如果您有區域資料主權要求,則必須在受這些要求約束的區域中使用本機資料接收器。

權衡:存儲和查詢日誌會產生成本影響。 注意記錄分析和保留如何影響您的預算,並確定滿足您的要求的最佳使用率平衡。

如果您的工作負載受一個或多個合規性框架的約束,則某些處理敏感資訊的元件記錄也受這些框架的限制。 將相關元件日誌發送到安全資訊和事件管理 (SIEM) 系統,例如 Microsoft Sentinel

建立一個記錄保留原則,其中包含合規性框架對您的工作負載施加的長期保留要求。

對所有記錄訊息使用結構化記錄,以最佳化記錄資料的查詢。

設定警示,以便在值超過與運作狀況模型狀態變更相關的關鍵閾值 (例如從綠色變為黃色或紅色) 時觸發。 閾值設定是一種持續改進的做法。 隨著工作負載的變化,您定義的閾值可能會發生變化。

考慮在狀態改善時使用警示,例如從紅色變為黃色或從紅色變為綠色,以便營運團隊可以追蹤這些事件以供將來參考。

使用自訂儀表板視覺化環境的即時運作狀況。

使用事件期間收集的資料不斷改進您的運作狀況模型

整合雲端平台監視和警示服務,包括平台層級運作狀況。

整合雲端提供者提供的專用進階監視和分析,例如 Azure Monitor 深入解析工具

實施備份和復原監視以擷取:

  • 資料複製狀態,以確保您的工作負載在目標復原點目標 (RPO) 內實現復原。
  • 成功和失敗的備份和復原。
  • 用於通知災害復原計畫的復原持續時間。

監控應用程式和副駕駛

在應用程式或 copilot 在生產環境運行時記錄數據。 您需要足夠的資訊來診斷生產狀態中問題的原因。

在服務邊界記錄事件。 包括跨服務邊界流動的相互關聯識別碼。 如果交易流程經多個服務且其中一個服務失敗,則相互關聯識別碼可協助您追蹤應用程式中的要求,並找出交易失敗的原因。

將應用程式和 Copilot 紀錄記錄與審計分開。 稽核記錄通常是出於合規性或監管要求而維護的,並且必須完整。 為了避免遺失交易,請將稽核記錄與診斷記錄分開維護。

使用白盒監控通過語義日誌和指標檢測應用程式或 Copilot。 從應用程式或 Copilot 收集應用程式和 Copilot 級別的指標和日誌,例如記憶體消耗或請求延遲,以通知運行狀況模型並檢測和預測問題。

使用黑盒子監視來衡量平台服務和由此產生的客戶體驗。 黑匣子監控測試外部可見的應用程式或 Copilot 行為,而無需瞭解系統的內部。 這種方法通常用於衡量以客戶為中心的服務等級計量 (SLI)、服務等級目標 (SLO) 和服務等級協定 (SLA)。

監視資料和儲存體

監視儲存容器的可用性計量。 當該計量低於 100% 時,表示寫入失敗。 當您的雲端提供者管理負載時,可用性可能會發生暫時下降。 追蹤可用性趨勢以確定您的工作負載是否有問題。 在某些情況下,儲存容器的可用性計量下降表示與儲存容器關聯的計算層存在瓶頸。

有許多資料庫計量需要監視。 在可靠性方面,需要監視的重要計量包括:

  • 查詢持續時間
  • 逾時
  • 等待時間
  • 記憶體壓力
  • 鎖定

Power Platform 簡易化

Power Platform 與 Application Insights 整合,後者是 Azure Monitor 生態系統的一部分。 您可以使用此整合來:

  • 訂閱以接收 Application Insights 中 Dataverse 平台擷取的遙測資料,其為應用程式在 Dataverse 資料庫和模型導向應用程式中執行的診斷、效能和作業。 此遙測提供的資訊可用於診斷和疑難排解與錯誤和效能相關的問題。

  • 將您的畫布應用程式連接到 Application Insights,以使用這些分析來診斷問題、了解使用者實際使用您的應用程式執行哪些操作、推動更好的商務決策,並提高應用程式的品質。

  • 設定 Power Automate 遙測以流入 Application Insights。 您可以使用此遙測來監視雲端流執行,並為雲端流程執行失敗建立警示。

  • 從 Copilot Microsoft Copilot Studio 捕獲遙測數據以在 Azure Application Insights 中使用。 您可以使用此遙測來監控發送到 Copilot 和從 Copilot 發送的記錄消息和事件、在使用者對話期間觸發的主題,以及可以從您的主題發送的自定義遙測事件。

Power Platform resources 在 Purview 合規門戶中 Microsoft 記錄活動。 大多數活動在活動開始後 24 小時內顯示。 請勿使用此資訊進行即時監控。 有關記錄 Power Platform 中活動的詳細資訊,請參閱:

Power Platform 工作負載可能包括 Azure 資源。 若要詳細了解 Azure 資源的監視建議,請參閱設計和建立監視系統的建議

Power Platform 卓越中心入門套件是包含一組元件和工具的參考實作,專門用來協助您開始建立採納和支援 Power Platform 的原則。 套件提供自動化和工具,可協助團隊建立支援 CoE 所需的監視和自動化。

如何檢查我的在線服務運行狀況?

可靠性檢查清單

請參閱完整的建議集。