Resumo
Os incidentes acontecem a todas as pessoas. Se você executar qualquer sistema de basicamente qualquer tamanho, em algum momento, ele falhará e você terá uma interrupção. É um facto. É por isso que a Resposta a Incidentes é o segundo nível na Hierarquia de Confiabilidade de Dickerson, logo após o Monitoramento.
A questão então se torna: como você reage nesses momentos? Você responde com urgência usando um plano ou processo definido ou tem uma reação ad hoc? Sabemos, por boas pesquisas na área, que o tempo de recuperação é um dos indicadores de uma organização de alto desempenho. Ter um bom processo de resposta a incidentes é crucial para reduzir este período de recuperação.
Neste módulo, analisámos as fases de um incidente e explorámos alguns dos componentes chave de um plano de resposta a incidentes para cada uma dessas fases. Discutimos a importância de poder rastrear bem os incidentes e as maneiras de automatizar esse processo usando as ferramentas fornecidas pelo Azure. Também analisámos os principais aspetos da comunicação durante um incidente. Por fim, exploramos algumas das ferramentas que o Azure fornece que podem ajudar sua organização a ser mais eficiente durante a correção de um incidente.