执行持续优化以减少无意义的警报

在本单元中，你将了解可用于监视站点可靠性的进程。你还将了解如何对警报进行持续优化以减少无意义的警报。

监视和警报

通过监视和警报，系统可以在发生中断时告知人们，或者告诉他们即将中断的内容。如果有人需要调查问题，则警报应提供相关信息，以便人们知道从何处着手。

当你查看现有警报或编写新的警报规则时，请考虑以下准则，以使警报保持相关性，并让你的待命轮转更愉快：

对用户的监视也称为“基于症状的监视”。这与“基于原因的监视”相反。用户不关心数据推送是否失败，他们关心其结果是否是全新的。

通常，用户关心以下内容：

数据库服务器不可用和用户数据不可用之间有一个细微但重要的区别。前者是直接原因，后者是一种症状。

有时没有触发警报的症状，但仍需向你发出警报。例如，内存不足。你希望规则在引起症状之前将可能成为问题的内容通知你。在这种情况下，你可以编写一个规则在这种情况下发出警报。

不过，请不要编写在调用警报上触发的基于原因的规则，这些规则可以以其他方式捕获。

需要尽快关注但不需要立即关注的警报是次要警报。下面是一些建议，可用于记录次要警报，以便日后跟进：

Bug 或票证跟踪系统可用于此类警报：只要将同一警报正确地置于单个票证或 bug 中，警报就可以打开 bug。然后，这些 bug 可以进行会审处理，然后分配给其他人进行跟进。在这些类型的问题变得严重之前，必须对其加以解决，这一点很重要。请考虑你的团队成员有多少时间可以用来解决 bug。
每日（或更频繁）报表可能有用：将长期存在的临界值以下的警报（例如，数据库已满 90% 以上）写入显示所有活动警报的报表中。指派某人每天对这份报表进行会审。
每个警报都应通过工作流系统进行跟踪：这确保发现并解决它们。

一般情况下，创建一个可提升响应能力的系统，但不会产生直接人工干预的高成本。

剧本（有时称为 Runbook）是警报系统的重要组成部分。剧本中有一个条目，其中说明了应对每个出现症状的警报或警报系列采取的措施。

如果有人接收到警报并确定没有任何错误，则表明你需要删除规则，将其降级或以其他方式收集数据。准确度低于 50% 的警报将被视为已损坏。即使是那些只有 10% 的时间会触发误报的警报也应重新评估。

每周查看所有触发的待命警报并分析季度警报统计信息，可以帮助你查看专注于单个警报时丢失的模式。

下面是可能违反上述准则的一些原因：

你有一个已知的原因，该原因实际低于你的症状中的噪声：例如，如果你的服务具有 99.99% 的可用性，但是有一个导致 0.001% 的请求失败的常见事件，则你不能将其作为症状发出警报，因为它处于混乱状态，但是你可以捕获导致事件。
你无法在入口点进行监视，因为丢失了数据解析：例如，你忍受某些终结点速度慢，如信用卡验证。在负载均衡器中，这种差异可能会丢失。你将需要向下遍历堆栈，并从具有差异的最高位置发出警报。
症状出现时为时已晚：例如，配额已用完。你需要在为时已晚之前向某人发出警报，有时这意味着要找到发出警报的原因。例如，你的使用量大于 80%，并且将在 4 小时内以最近 1 小时的增长率耗尽。

但是，你也应该能够找到不太紧急的类似原因。例如，你的配额大于 90%，并且将在 4 天内以最近 1 天的增长率耗尽。这一组情况将适用于大多数案例。然后，你可以将问题作为票证或电子邮件警报或每日问题报告来处理，而不是警报所代表的最后一次升级。
你的警报设置比它尝试检测的问题更复杂：目标应该是简单、可靠、自我保护的系统。