Характеристики и жизненный цикл инцидента
Как вы узнали в последнем уроке, инцидент — это нарушение работы службы, которое влияет на ваших клиентов и конечных пользователей. Инциденты происходят во многих формах, начиная от замедления производительности, которые разочаровывают пользователей ("медленно вниз") до сбоев системы, которые отрисовывают службу или сайт полностью недоступны в течение определенного периода времени.
Характеристики инцидента
Инциденты обычно непредвиденные и, кажется, происходят в худшее время (например, 2:00 утра или когда вы глубоко погружены в важный проект). Именно поэтому инциденты часто опасаются и избегаются, даже до точки, когда люди иногда преуменьшают важность инцидента. Внутреннее давление иногда настолько велико, что в организации возникает соблазн неправильно маркировать нарушение работы или не сообщать о нем из-за боязни выговора.
По крайней мере, инциденты создают незапланированную работу, и потому что вы проводите большую часть вашего времени делать запланированную работу с хорошей идеей того, что вы должны делать, вы, вероятно, считаете инциденты плохими вещами. Однако есть еще один способ посмотреть на это: инциденты действительно инвестиции* в предоставлении стоимости, которую вы пытаетесь доставить конечным пользователям. Независимо от причины или степени воздействия инцидента, все инциденты имеют одну общую черту: они могут предоставить ценный опыт обучения.
Вы должны рассматривать инциденты как пульс ваших систем. Они расскажут вам о системе больше, чем вы знали, и это очень хорошо. Если у вас есть сильный фундамент мониторинга и узнать больше о том, что происходит в вашей системе, он неизбежно создаст больше оповещений и инцидентов и возможностей для реагирования. По крайней мере, инциденты говорят вам, что происходит, и, таким образом, увеличьте вашу операционную осведомленность. В предыдущем модуле по мониторингу мы высказали предположение, что это важный предвестник работ по обеспечению надежности.
Жизненный цикл инцидента
Если вы хотите повысить статус группы реагирования на инциденты до "элиты или высокого исполнителя", необходимо выглядеть за рамки идеи нарушения работы службы или инцидента в виде простой линейной временная шкала и приблизиться к нему с циклической точки зрения.
Жизненный цикл инцидента можно разделить на отдельные этапы, логически следуйте одному за другим в цикле, который возвращается обратно в начало. Каждый раз, когда вы идете по этому циклу (и вы будете делать это много раз), если вы обрабатываете его правильно, можно вернуться к началу с более глубокого понимания ваших систем. Выполнив некоторые запланированные действия, вы также можете лучше подготовиться к быстрому и эффективному реагированию в следующий раз, когда произойдет инцидент.
Этапы инцидента
Отдельные этапы реагирования на инциденты выглядят немного по-разному в зависимости от используемой модели. В этом модуле мы рассмотрим пять следующих этапов, которые вы проходите при реагировании на инцидент.
- Обнаружение. Этот этап заключается в том, что знания мониторинга из предыдущего модуля в этом пути обучения вступают в игру. Средства мониторинга собирают информацию из журналов, анализируют эту информацию в соответствии с настроенными клиентом целями и отправляют оповещения, которые можно использовать, чтобы сообщить вам, что требуется вмешательство человека.
- Ответ. Этот этап происходит после того, как вы и ваша команда получат это оповещение. Мы подробно рассмотрим этот этап в этом модуле, поэтому будет много больше говорить об этой идее в один момент.
- Исправление. На этом этапе вы восстанавливаете системы до нормальной функциональности. Как вы это сделаете, зависит от причины нарушения работы службы. Восстановление работы службы и ее доступности для ваших клиентов — ваша главная задача. Тем не менее, ваша работа не останавливается после этого.
- Анализ. Чтобы получить долгосрочное значение от инцидентов, необходимо учиться на них. Этот этап — это процесс сбора информации о том, что произошло, и когда во время инцидента и увидеть, что вы можете узнать из него, задав правильные вопросы. Существует весь модуль на Обучение из сбоя, который обращается к этому этапу.
- Готовность. Вы должны включить уроки, полученные на этапе анализа, в практику операций. Если существуют какие-то действия, которые помогут предотвратить подобный отказ в будущем, они также будут частью этого этапа.
Прежде чем создавать план реагирования на инциденты, необходимо понять характеристики и значение инцидентов, а также изучить этапы жизненного цикла инцидента. На следующем шаге необходимо убедиться, что ваша стратегия реагирования построена на прочной основе.