Сводка
У всех случаются инциденты. Если вы запускаете любую систему в основном любого размера, в какой-то момент времени она завершится ошибкой, и у вас будет сбой. Это просто факт. Поэтому ответ на инциденты является вторым уровнем в иерархии надежности Dickerson сразу после мониторинга.
Затем вопрос становится: Как вы реагируете в эти моменты? Вы реагируете на срочность с помощью заданного плана или процесса, или у вас есть нерегламентированная реакция? Мы знаем из хороших исследований в области, что время восстановления является одним из показателей высокопроизводительной организации. Наличие хорошего процесса реагирования на инциденты имеет решающее значение для сокращения этого периода восстановления.
В этом модуле мы рассмотрели этапы инцидента и изучили некоторые ключевые компоненты плана реагирования на инцидент для каждого из этих этапов. Мы обсудили важность правильного отслеживания инцидентов и способов автоматизации этого процесса с помощью инструментов Azure. Мы также рассмотрели ключевые аспекты взаимодействия во время инцидента. Наконец, мы изучили некоторые средства, предоставляемые Azure, которые помогут вашей организации быть более эффективными во время исправления инцидента.