异常管理

本文可帮助你了解 FinOps Framework 中的异常管理功能以及如何在 Microsoft Cloud 中实现此功能。


定义

异常管理是指及时检测和解决异常或意外成本和使用模式的做法。

使用自动化工具检测异常并通知利益干系人。 定期查看使用趋势,以揭示自动化工具可能错过的异常。

若要发现异常的根本原因,请调查应用程序行为、资源利用率和资源配置的变化。

通过系统性的异常情况检测、分析和解决方法,组织可以最大程度地减少影响预算和业务运营的意外成本。 而且,他们甚至可以发现和预防成本数据中可能显现的安全性和可靠性事件。


入门

刚开始在云中管理成本时,你会使用门户中提供的本机工具。

  • 从主动警报开始。
    • 订阅环境中每个订阅的异常警报 ,以便在根据历史使用情况在规范化使用情况中检测到异常峰值或下降时接收电子邮件警报。
    • 请考虑订阅计划性警报,与利益干系人共享最近成本趋势的图表。 它可以帮助你推动感知,因为成本随时间变化,并可能捕获异常模型可能错过的更改。
    • 若要跟踪该特定范围或工作负荷,请考虑 在成本管理中创建预算。 指定筛选器,并为实际成本和预测成本设置警报,以进行精细化的针对性操作。
  • 使用详细的成本明细、使用情况分析和可视化效果定期查看成本,以确定可能错过的潜在异常。
  • 识别异常后,采取适当的操作来解决它。
    • 与管理相关云资源的工程师一起查看异常详细信息。 某些自动检测的“异常”计划或至少是已知的资源配置更改,作为构建和管理云服务的一部分。
    • 如果需要较低级别的使用情况详细信息,请在 Azure Monitor 指标中查看资源利用率。
    • 如果需要资源详细信息,请查看 Azure Resource Graph 中的资源配置更改

扩展基础知识

在这时,你已配置了自动警报,在理想情况下,你也保存了视图和报表以简化定期检查。

  • 建立并自动执行 KPI,例如:
    • 每月或每季度的异常数。
    • 每月或每季度异常的总成本影响
    • 检测和解决异常的响应时间。
    • 假正数和假负数。
  • 扩大异常情况检测和响应过程的覆盖范围,以包含所有成本。
  • 定义、记录和自动化工作流,以在检测到异常时指导响应过程。
  • 培养持续学习、创新和协作的文化。
    • 根据反馈、行业最佳做法和新兴技术定期评审和优化异常管理流程。
    • 促进知识共享和跨职能协作,以推动异常情况检测和响应功能的持续改进。

有关详细信息,请前往 FinOps 基金会

此功能是 FinOps 基金会提供的 FinOps 框架的一部分,FinOps 基金会是一个致力于推进云成本管理和优化的非营利性组织。 有关 FinOps 的详细信息,包括有用的 playbook、培训和认证计划等,请参阅 FinOps Framework 文档中的异常管理功能 文章。

还可以在 FinOps Foundation YouTube 频道中找到相关视频:


相关的 FinOps 功能:

相关产品:

相关解决方案: