A hierarquia de fiabilidade de Dickerson

Concluído

O mapa para o percurso de aprendizagem Melhore a sua Fiabilidade baseia-se num modelo do mundo da engenharia de fiabilidade do site denominado Hierarquia de Fiabilidade de Dickerson. Mikey Dickerson foi um SRE (Engenheiro de Fiabilidade do Site) que se tornou no administrador fundador dos Serviços Digitais dos Estados Unidos. Ele criou essa hierarquia enquanto enfrentava uma das maiores crises de confiabilidade de todos os tempos.

a diagram of a pyramid showing the seven levels of the hierarchy of reliability.

O modelo segue o padrão da hierarquia de necessidades de Abraham Maslow, que aborda a motivação humana. Tal como na hierarquia de Maslow, para progredir na hierarquia é necessário certificar-se de que cada nível mais baixo foi primeiramente abordado. Os níveis em que nos concentramos neste percurso de aprendizagem, de baixo para cima, são:

Monitorização

Este nível é a base importante sobre a qual os outros níveis se apoiam. É a fonte de informação que lhe permite ter conversas concretas sobre fiabilidade na sua organização em torno de dados objetivos. Quando você faz alterações, essa prática é como você sabe o efeito. Em termos ainda mais severos, essa prática é como você sabe se as coisas estão melhorando ou não. Até que você seja sólido no monitoramento, você não pode fazer o resto do trabalho.

resposta a incidentes

Todo ambiente de produção tem algum tipo de interrupção. Não é possível contestar este facto. A pergunta a fazer é então "o que faz quando ocorre um incidente? O que acontece quando os sistemas estão fora do ar e os clientes são afetados?" Você precisa de um processo padrão que seja eficaz na triagem do problema, na mobilização dos recursos certos e, em seguida, na mitigação do problema. Ao mesmo tempo, você também quer ter certeza de que está se comunicando com as partes interessadas sobre o problema.

Análise pós-incidente (aprender com as falhas)

Esse processo nos permite nivelar nossas práticas de operações, investigando, revisando e discutindo coletivamente a experiência de cada incidente significativo. A revisão pós-incidente permite-nos aprender com as falhas e é crucial para o trabalho de fiabilidade.

Teste/lançamento (implementação)

O nível seguinte centra-se nos processos de teste, lançamento e implementação. Pode pensar neste nível como "quão bom é a criar sistemas e processos capazes de apanhar os problemas antes de causarem incidentes?"

Planeamento da capacidade/dimensionamento

O sucesso e o crescimento que vem com ele, pode ser tanto uma ameaça à confiabilidade quanto qualquer problema com um sistema. Um cliente não pode dizer a diferença entre um sistema que está inativo porque há um bug no código e outro que está inativo porque é incapaz de lidar com a carga de muitas pessoas tentando acessá-lo simultaneamente. Este nível da hierarquia direciona-nos a prestar atenção ao planeamento de capacidade e ao dimensionamento como formas de abordar esta ameaça.

Experiência do utilizador e processo de desenvolvimento

Há mais dois níveis na hierarquia que não são abordados no caminho de aprendizagem Melhore sua confiabilidade : o processo de desenvolvimento e o trabalho para criar uma boa experiência do usuário (UX). Esses dois assuntos não são discutidos no caminho de aprendizagem Melhore sua confiabilidade , mas outros bons módulos do Learn sobre esses assuntos estão disponíveis.

Criámos um módulo de aprendizagem separado para cada nível na hierarquia de fiabilidade. Esperamos que se junte a nós para todos os cinco módulos neste caminho de aprendizagem.

Verifique o seu conhecimento

1.

Qual é o primeiro nível fundamental na hierarquia de fiabilidade de Dickerson?