扩展对可靠性的理解
为了能够有效设置监视来提高可靠性,需要更好地了解要衡量的内容。 本单元中,我们提出一些可能性,希望可以扩展你对可靠性的理解。
先来看一下可靠性的一些方面:
可用性
当人们谈论可靠性时,往往会从可用性开始。 系统是“向上”还是“向下”?其他人能访问你的网站或服务吗? 是否可以使用需要的产品? 从依赖于服务的外部客户和内部用户这两者的角度来考虑,这一点非常重要。 可用性可能是耗用你时间最多的可靠性方面了。 从它开始讨论可靠性是一个不错的选择,但它只是其中的一个方面。
延迟
延迟是指请求和响应之间的延迟量。 你可能听说过“缓慢就是新型的停机”这句流行语。人们需要快速的性能,他们会对让他们等待的网站或服务失去耐心。 有很好的研究表明,如果某个网站不能满足客户的响应时间要求,他们可能会转向竞争对手。
吞吐量
吞吐量衡量处理事务的速度,也就是说在指定时间内,网站、应用程序或服务成功处理的事务数。 这在运行管道或批处理系统时尤其重要。 如果管道或批处理系统处理速度不够快,则不符合我们的预期,并将视为不可靠。
Coverage
覆盖范围指在你预计处理的数据中实际处理的数据量。 再次重申,我们在确定可靠性时需要衡量满足期望的程度。
正确性
正确性是可靠性的一个方面,但它经常被忽视。 针对数据运行的流程产生正确的结果还是期望的结果? 确定可靠性时,这是一个要纳入监视的重要因素。 无论服务或站点多快或可用性多高,如果返回的结果不正确,在客户眼里就是不可靠的。 监视结果是否正确是监视可靠性的重要部分。
保真度
这里的保真度最好通过一个示例让大家明白。 假设你访问视频流式处理网站的主页。 该页面由以下几个单独的部分组成:新发布、个性化建议、10 大热门电影等等。 其中每个部分可能由单独的后端服务生成。 如果其中一项服务(例如个性化引擎)出现故障,网站访问者没有收到“很抱歉,此站点出现故障”的消息,也没有看到空白页。 相反,他们看到该部分的主页已删除,或替换为静态内容。 在技术上,我们称之为用户获得了“降级”体验,而不是完整的所需页面。
衡量保真度,就是衡量服务用户接收“降级”体验与完整体验(完全保真)的频率。 如果任何容错服务能够在出现问题时以降级模式继续运行,这个度量指标就非常有用。
新鲜度
“新鲜度”指的是在对客户来说时效性很重要的情况下(例如提供体育比分或选举结果的服务),如何及时更新信息。 如果提供的数据保持最新,这些服务将被视为可靠。
持久性
持久性是可靠性的另一个稍显细化的部分。 如果正在运行提供存储的服务,就知道客户写入服务的数据如果稍后可以读取是多么的重要。 这是一种持久性预期。
尽管这里未穷尽可靠性的方方面面,但希望让你看到一些未曾想到过的内容,并扩展对过程可靠性的理解。 我们将这种理解带入下一单元,围绕着当说到可靠性时需要衡量的内容,开始探索一些关键性问题。