

为了能够有效设置监视来提高可靠性,需要更好地了解要衡量的内容。 本单元中,我们提出一些可能性,希望可以扩展你对可靠性的理解。


Diagram with the word reliability in a circle in the middle connected to empty circles at the end of each spoke.


Diagram with the word reliability in a circle in the middle connected to circles at the end of each spoke, with the word availability added to one circle.

当人们谈论可靠性时,往往会从可用性开始。 系统是“向上”还是“向下”?其他人能访问你的网站或服务吗? 是否可以使用需要的产品? 从依赖于服务的外部客户和内部用户这两者的角度来考虑,这一点非常重要。 可用性可能是耗用你时间最多的可靠性方面了。 从它开始讨论可靠性是一个不错的选择,但它只是其中的一个方面。


Diagram with the word reliability in a circle in the middle connected to circles at the end of each spoke, with the word latency added to previous diagram in a different circle.

延迟是指请求和响应之间的延迟量。 你可能听说过“缓慢就是新型的停机”这句流行语。人们需要快速的性能,他们会对让他们等待的网站或服务失去耐心。 有很好的研究表明,如果某个网站不能满足客户的响应时间要求,他们可能会转向竞争对手。


Diagram with the word reliability in a circle in the middle connected to circles at the end of each spoke, with the word throughput added to previous diagram in a different circle.

吞吐量衡量处理事务的速度,也就是说在指定时间内,网站、应用程序或服务成功处理的事务数。 这在运行管道或批处理系统时尤其重要。 如果管道或批处理系统处理速度不够快,则不符合我们的预期,并将视为不可靠。


Diagram with the word reliability in a circle in the middle connected to circles at the end of each spoke, with the word coverage added to previous diagram in a different circle.

覆盖范围指在你预计处理的数据中实际处理的数据量。 再次重申,我们在确定可靠性时需要衡量满足期望的程度。


Hub and spoke diagram with the word reliability in a circle in the middle connected to circles at the end of each spoke, with the word correctness added to previous diagram in a different circle.

正确性是可靠性的一个方面,但它经常被忽视。 针对数据运行的流程产生正确的结果还是期望的结果? 确定可靠性时,这是一个要纳入监视的重要因素。 无论服务或站点多快或可用性多高,如果返回的结果不正确,在客户眼里就是不可靠的。 监视结果是否正确是监视可靠性的重要部分。


Diagram with the word reliability in a circle in the middle connected to circles at the end of each spoke, the word fidelity added to previous diagram in a different circle.

这里的保真度最好通过一个示例让大家明白。 假设你访问视频流式处理网站的主页。 该页面由以下几个单独的部分组成:新发布、个性化建议、10 大热门电影等等。 其中每个部分可能由单独的后端服务生成。 如果其中一项服务(例如个性化引擎)出现故障,网站访问者没有收到“很抱歉,此站点出现故障”的消息,也没有看到空白页。 相反,他们看到该部分的主页已删除,或替换为静态内容。 在技术上,我们称之为用户获得了“降级”体验,而不是完整的所需页面。

衡量保真度,就是衡量服务用户接收“降级”体验与完整体验(完全保真)的频率。 如果任何容错服务能够在出现问题时以降级模式继续运行,这个度量指标就非常有用。


Diagram with the word reliability in a circle in the middle connected to circles at the end of each spoke, the word freshness added to previous diagram in a different circle.

“新鲜度”指的是在对客户来说时效性很重要的情况下(例如提供体育比分或选举结果的服务),如何及时更新信息。 如果提供的数据保持最新,这些服务将被视为可靠。


Diagram with the word reliability in a circle in the middle connected to circles at the end of each spoke, the word durability added to previous diagram in a different circle filling in the entire diagram.

持久性是可靠性的另一个稍显细化的部分。 如果正在运行提供存储的服务,就知道客户写入服务的数据如果稍后可以读取是多么的重要。 这是一种持久性预期。

尽管这里未穷尽可靠性的方方面面,但希望让你看到一些未曾想到过的内容,并扩展对过程可靠性的理解。 我们将这种理解带入下一单元,围绕着当说到可靠性时需要衡量的内容,开始探索一些关键性问题。