Рекомендации по разработке стратегии реагирования на чрезвычайные ситуации

Статья
10/16/2024

Применяется к следующей рекомендации контрольного списка по достижению операционной эффективности Power Platform Well-Architected:

OE:07

Разработайте эффективную процедуру действий в чрезвычайных ситуациях. Убедитесь, что ваша рабочая нагрузка дает значимые сигналы о работоспособности системы. Собирайте полученные данные и используйте их для создания действенных оповещений, которые обеспечивают реагирование на чрезвычайные ситуации с помощью панелей мониторинга и запросов. Четко определите обязанности людей, такие как дежурство по сменам, управление инцидентами, доступ к экстренным ресурсам и анализ последствий инцидента.

В этом руководстве описаны рекомендации по разработке стратегии реагирования на чрезвычайные ситуации. Некоторые рабочие нагрузки могут быть критически важными, а проблемы, возникающие в течение жизненного цикла рабочей нагрузки, могут быть достаточно серьезными, чтобы оправдать объявление их чрезвычайными. Вы можете внедрить строго контролируемые и целенаправленные процессы и процедуры, которым может следовать ваша команда, чтобы обеспечить спокойное и организованное решение проблемы. Чрезвычайные ситуации естественным образом повышают уровень стресса у каждого и могут привести к обстановке хаоса, если ваша команда не будет хорошо подготовлена. Чтобы свести к минимуму стресс и замешательство, разработайте стратегию реагирования, поделитесь ею со своей организацией и регулярно проводите обучение реагированию на чрезвычайные ситуации.

Ключевые стратегии проектирования

Стратегия реагирования на чрезвычайные ситуации должна представлять собой четко определенный набор процессов и процедур. Каждый процесс и процедура должны иметь сценарии, чтобы гарантировать, что каждый шаг продвигает вашу команду к быстрому и безопасному решению проблемы. Чтобы разработать стратегию реагирования на чрезвычайные ситуации, необходимо выполнить следующие шаги:

Предварительные условия
- Разработка системы мониторинга
- Создание плана реагирования на инциденты
Этапы инцидента
- Обнаружение и локализация
- Рассмотрение
Этапы после инцидента
- Анализ первопричин (RCA)
- Анализ после события
Текущая деятельность
- Учебно-тренировочные занятия по реагированию на чрезвычайные ситуации

В следующих разделах приведены подробные рекомендации для каждого из этих этапов.

Система мониторинга

Чтобы иметь надежную стратегию реагирования на чрезвычайные ситуации, необходимо иметь надежную систему мониторинга или платформу наблюдения. Ваша платформа наблюдения должна иметь следующие характеристики:

Комплексный мониторинг. Убедитесь, что вы тщательно отслеживаете свою рабочую нагрузку с точки зрения конфигурации и приложений, а также используете мониторинг инфраструктуры, если компоненты вашей рабочей нагрузки размещаются в облаке или в локальной среде. Убедитесь, что все компоненты рабочей нагрузки охвачены стратегией мониторинга. Например, если рабочая нагрузка взаимодействует с ресурсами Azure или локальной системой, включите эти компоненты в мониторинг.
Подробное ведение журнала. Включите подробное ведение журнала для ваших компонентов, чтобы обеспечить поддержку в расследовании проблем. Структурируйте журналы так, чтобы ими было легко управлять. Настройте автоматическую отправку журналов в приемники данных для подготовки к анализу.
Полезные панели мониторинга. Создавайте панели мониторинга на основе вашей модели работоспособности, адаптированные для каждой рабочей группы в вашей организации. Разные группы отвечают за разные аспекты работоспособности рабочей нагрузки.
Действенные оповещения. Создавайте оповещения, которые будут полезны для ваших групп по рабочим нагрузкам. Избегайте оповещений, которые не требуют действий от ваших команд. Слишком большое количество предупреждений такого типа может привести к тому, что люди будут игнорировать или блокировать уведомления о предупреждениях.
Автоматические уведомления. Убедитесь, что соответствующие рабочие группы автоматически получают оповещения, требующие от них действий. Например, ваша группа поддержки уровня 1 должна получать уведомления обо всех оповещениях, тогда как ваши инженеры по безопасности должны получать оповещения только о событиях безопасности.

Дополнительные сведения см. в разделе Рекомендации по разработке и созданию платформы мониторинга.

План реагирования на инциденты

Основой стратегии реагирования на чрезвычайные ситуации является план реагирования на инциденты. Как и в случае с планом аварийного восстановления, четко и тщательно определите роли, обязанности и процедуры реагирования на инцидент. План должен представлять собой документ с контролем версий, который подлежит регулярным проверкам, гарантирующим его актуальность.

Четко определите следующие компоненты в своем плане.

Роли

Определите менеджера по реагированию на инциденты. Этот человек является ответственным лицом за инциденты от начала до устранения, включая анализ первопричин. Менеджер по реагированию на инциденты следит за соблюдением процессов и информированием соответствующих сторон в ходе выполнения своей работы группой реагирования.

Определите руководителя аналитических исследований. Этот человек гарантирует, что анализ последствий будет проведен вскоре после разрешения инцидента. Он составляет отчет, который поможет вам применить выводы, полученные в результате инцидента.

Процессы и процедуры

Ваша группа по рабочей нагрузке должна определить и понять критерии чрезвычайной ситуации. Когда ваша команда определит, что ситуация серьезная, вы можете объявить о чрезвычайной ситуации и инициировать план аварийного восстановления. В менее серьезных случаях проблема может не соответствовать критериям стихийного бедствия, но ее все равно следует считать чрезвычайной ситуацией, что требует разработки плана реагирования на чрезвычайные ситуации. Чрезвычайные ситуации могут быть либо внутренними для вашей рабочей нагрузки, например ошибки в коде вашего приложения, либо результатом проблемы с зависимостью вашей рабочей нагрузки, например, недоступность API или базы данных. Чрезвычайная ситуация также может быть вызвана сбоем в работе вашего поставщика (например, проблемой c Microsoft Entra ID или Power Platform). Группа поддержки должна быть в состоянии определить, соответствует ли проблема критериям чрезвычайной ситуации, даже если команда не имеет представления об основной проблеме.

Точно определите планы коммуникации и эскалации. В зависимости от типа уведомления об оповещениях, которое они получают, убедитесь, что члены вашей команды поддержки уровня 1 могут легко связаться с соответствующими командами для эскалации проблем.

Другие аспекты, которые следует включить

Задокументируйте все стандартные инструменты, которые используются во время инцидентов для внутренней коммуникации, такие как Microsoft Teams, и для отслеживания действий в ходе инцидента, такие как инструменты управления запросами в службу поддержки или инструменты планирования невыполненной работы.

Задокументируйте свои учетные данные для чрезвычайных ситуаций, также известные как аварийные учетные записи. Добавьте пошаговое руководство, описывающее, как их следует использовать.

Создавайте инструкции по реагированию на чрезвычайные ситуации и ведите учет времени их проведения.

Задокументируйте все необходимые правовые или нормативные меры, такие как информирование об утечках данных.

Обнаружение и локализация происшествий

Если у вас есть хорошо продуманная система мониторинга, которая отслеживает аномалии и автоматически оповещает о них, вы можете быстро обнаружить проблемы и определить их серьезность. Если проблема считается чрезвычайной ситуацией, план может быть инициирован. В некоторых случаях служба поддержки не получает уведомления через систему мониторинга. Пользователи могут сообщать о проблемах в службу поддержки, используя каналы связи группы поддержки. Или они могут связаться с людьми, с которыми они регулярно работают или которые, как они знают, работают с Power Platform, например с администраторами службы Power Platform или рабочей группой центра передовых технологий. Независимо от того, каким образом группа поддержки уведомляется, они всегда должны выполнять одни и те же действия для проверки проблемы и определения ее серьезности. Отклонение от плана реагирования может усилить стресс и замешательство.

Рассмотрение

Первым шагом в устранении проблемы является определение компонента рабочей нагрузки, вызывающего проблему. Действия, которые необходимо выполнить во время рассмотрения ситуации, зависят от типа проблемы. Команда для определенного направления поддержки рабочей нагрузки должна создать процедуры для инцидентов, которые связаны с ее работой. Например, группы по безопасности должны рассматривать проблемы безопасности и следовать разработанным ими сценариям. Важно, чтобы команды следовали четко определенным сценариям при выполнении работы по расстановке приоритетов. Эти сценарии должны представлять собой пошаговые инструкции, включающие процессы отката для отмены изменений, которые неэффективны или могут вызвать другие проблемы. После устранения проблемы следуйте четко определенным процессам, чтобы безопасно вернуть затронутый компонент в поток рабочей нагрузки.

Отчет по анализу первопричин

Владелец инцидента или кто-то, кто работал в тесном контакте с ним, должен создавать отчеты об анализе первопричин (RCA). Эта стратегия гарантирует точный учет инцидента. Обычно в организациях имеется определенный шаблон RCA с инструкциями о том, как должна быть представлена информация и какие виды информации можно или нельзя передавать. Если вам необходимо создать собственный шаблон и рекомендации, убедитесь, что заинтересованные лица рассмотрели и утвердили их.

Анализ последствий инцидента

Беспристрастный человек должен проводить анализ последствий без определения вины. Во время сеансов анализ последствий каждый человек делится своими выводами об инциденте. Каждая команда, участвовавшая в реагировании на инцидент, должна быть представлена людьми, работавшими над инцидентом. Эти люди должны прийти на сессию подготовленными с примерами действий, которые были успешными, и областей, которые можно улучшить. Сессия не является форумом для возложения вины за инцидент или проблемы, которые могут возникнуть во время реагирования. Руководитель аналитических исследований должен покинуть сеанс с четким списком действий, направленных на улучшение, включая следующее:

Улучшения плана реагирования. Процессы или процедуры, возможно, придется пересмотреть и переписать, чтобы лучше отразить подходящие действия.
Улучшения в системе мониторинга. Возможно, потребуется пересмотреть пороговые значения, чтобы раньше обнаружить конкретный тип инцидента, или может потребоваться внедрение нового мониторинга, чтобы выявить поведение, которое не было ранее учтено.
Улучшение рабочей нагрузки. Инцидент может выявить уязвимость в рабочей нагрузке, которую необходимо устранить как постоянное исправление.

Возможности в Power Platform

Power Platform интегрируется с Application Insights, которая является частью экосистемы Azure Monitor. Используйте эту интеграцию для того, чтобы обеспечить следующее:

Получение телеметрии по диагностике и производительности, захваченной платформой Dataverse в Application Insights. Вы можете подписаться на получение телеметрии об операциях, которые приложения выполняют на вашей базы данных Dataverse и в приложениях на основе модели. Эта телеметрия предоставляет информацию, которую можно использовать для диагностики и устранения проблем, связанных с ошибками и производительностью.
Подключение приложений на основе холста к Application Insights. Вы можете использовать эту аналитику для диагностики проблем и понимания того, как пользователи используют ваши приложения. Вы сможете собирать информацию, которая поможет вам принимать более эффективные бизнес-решения и улучшать качество ваших приложений.
Настройте передачу данных телеметрии Power Automate в Application Insights, например, для мониторинга выполнения облачных потоков и создания оповещений о сбоях выполнения облачных потоков.
Собирайте данные телеметрии из вашего агента Microsoft Copilot Studio для использования в Azure Application Insights. Эти данные телеметрии можно использовать для отслеживания зарегистрированных сообщений и событий, отправляемых в агент и из него, тем, которые будут запускаться во время разговоров с пользователями, и пользовательских событий телеметрии, которые могут быть отправлены из ваших тем.

Application Insights — это комплексное решение для сбора, анализа и реагирования на данные мониторинга из облачных сред и локальных сред. Оно включает в себя надежную платформу оповещений, которую вы можете настроить для отправки автоматических уведомлений и других действий.

Комплект автоматизации Power Platform — это набор инструментов, который ускоряет использование и поддержку Power Automate для компьютеров для проектов автоматизации. В комплект входят инструменты, которые помогут вам управлять проектами автоматизации и отслеживать их для оценки сэкономленных средств и рентабельности инвестиций (ROI). Частью комплекта автоматизации является центр управления, который дополняет существующую функцию мониторинга выполнения классических потоков. Ключевой задачей центра управления является представление оркестратора, позволяющее аналитикам службы поддержки и организациям отслеживать, принимать меры и при необходимости отправлять оповещения.

Следующие шаги

Контрольный список операционной эффективности

Поделиться через