異常管理
本文可協助您瞭解 FinOps Framework 中的異常管理功能,以及如何在 Microsoft Cloud 中實作此功能。
定義
異常管理是指及時偵測和解決異常或非預期的成本和使用模式的做法。
使用自動化工具來偵測異常並通知專案關係人。 定期檢閱使用趨勢,以顯示自動化工具可能遺漏的異常狀況。
若要找出異常的根本原因,請調查應用程式行為、資源使用率和資源組態的變更。
透過對異常偵測、分析和解決的系統化方法,組織可以將影響預算和商務營運的非預期成本降到最低。 此外,他們甚至可以識別並防止可在成本資料中出現的安全性和可靠性事件。
開始使用
第一次開始在雲端中管理成本時,您會使用入口網站中提供的原生工具。
- 從主動式警示開始。
- 訂閱環境中每個訂用帳戶的異常警示 ,以在根據歷程記錄使用量偵測到異常尖峰或下降時收到電子郵件警示。
- 建議您 [訂閱已排程的警示],以與專案關係人共用最近成本趨勢的圖表。 它可協助您推動認知,因為成本隨著時間變化,並可能攔截異常模型可能遺漏的變更。
- 若要追蹤該特定範圍或工作負載,請考慮 在成本管理中建立預算。 針對更精細的目標指定篩選並設定實際和預測成本的警示。
- 使用詳細的成本明細、使用量分析和視覺效果,定期檢閱成本,以找出可能遺漏的潛在異常。
- 使用成本分析中的智慧檢視,檢視針對每個訂用帳戶自動偵測到的異常深入解析。
- 在成本分析中使用可自訂的檢視,手動尋找非預期的變更。
- 請考慮儲存自訂檢視,其顯示特定工作負載經過一段時間的成本,以節省時間。
- 請考慮使用 Power BI 建立更詳細的使用報告。
- 識別異常之後,請採取適當的動作來解決它。
- 請與管理相關雲端資源的工程師一起檢閱異常詳細資料。 在建置和管理雲端服務時,某些自動偵測到的「異常」已規劃或至少已知的資源設定變更。
- 如果您需要較低層級的使用量詳細資料,請檢閱 Azure 監視器計量中的資源使用率。
- 如果您需要資源詳細資料,請檢閱 Azure Resource Graph 中的資源組態變更。
建置在基本之上
此時,您已設定自動化警示,並在理想情況下儲存檢視和報告,以簡化定期檢查。
- 建立並自動化 KPI,例如:
- 每月或每季的異常數目。
- 每月或每季異常的總成本影響
- 偵測和解決異常的回應時間。
- 誤判為真和誤否定數目。
- 擴充異常偵測和回應處理序的涵蓋範圍,以包含所有成本。
- 定義、記錄和自動化工作流程,以在偵測到異常時引導回應處理序。
- 培養持續學習、創新和共同作業的文化。
- 根據意見反應、產業最佳做法和新興技術,定期檢閱和精簡異常管理處理序。
- 提升知識共用和跨功能共同作業,以推動異常偵測和回應功能的持續改善。
在 FinOps Foundation 深入瞭解
此功能是 FinOps Foundation FinOps 架構的一部分,FinOps Foundation 是一家致力於推進雲端成本管理和最佳化的非盈利組織。 如需 FinOps 的詳細資訊,包括實用的劇本、訓練和認證計劃等等,請參閱 FinOps Framework 檔中的異常管理功能 文章。
您也可以在 FinOps Foundation YouTube 頻道中找到相關的影片:
相關內容
相關的 FinOps 功能:
相關產品:
相關解決方案: