Resumo
Neste módulo, discutimos a revisão pós-incidente em profundidade. Essa é uma das nossas ferramentas mais poderosas para transformar os incidentes que todos nós experimentamos em combustível para melhorar a nossa prática de operações. Isso é uma parte fundamental para aumentar a nossa confiabilidade.
Exploramos alguns dos aspectos de sistemas complexos que tornam os incidentes inevitáveis. Devido a essa inevitabilidade, faz sentido focar não apenas em tentar evitar uma catástrofe, mas também em como podemos responder a uma. Isso nos dá um incentivo para localizar e usar ferramentas que podem ajudar a melhorar essa resposta como parte da fase de análise no ciclo de vida do incidente.
É aí que a revisão pós-incidente entra em cena. Depois de obter uma boa noção do que é (e do que não é) uma revisão pós-incidente e a sua finalidade, exploramos as características e os componentes que são necessários para torná-la eficaz.
Em seguida, houve uma discussão sobre o processo e em como começar a usar as ferramentas disponíveis no Azure.
Para melhorar as chances de sucesso, exploramos como evitar as armadilhas comuns nas quais as pessoas caem ao executar revisões pós-incidente e algumas boas práticas que você pode usar para ajudar a tornar as revisões pós-incidente um grande sucesso.