Рекомендации по разработке стратегии реагирования на чрезвычайные ситуации
Применимо к этой рекомендации Power Platform контрольного списка хорошо спроектированного операционного совершенства:
ОЭ:07 | Разработайте эффективную процедуру действий в чрезвычайных ситуациях. Убедитесь, что ваша рабочая нагрузка дает значимые сигналы о работоспособности системы. Собирайте полученные данные и используйте их для создания действенных оповещений, которые позволяют принимать экстренные меры с помощью информационных панелей и запросов. Четко определите обязанности людей, такие как дежурство по сменам, управление инцидентами, доступ к экстренным ресурсам и анализ последствий инцидента. |
---|
В этом руководстве описаны рекомендации по разработке стратегии реагирования на чрезвычайные ситуации. Некоторые из ваших рабочих нагрузок могут быть критически важными, а проблемы, возникающие в течение жизненного цикла рабочей нагрузки, могут быть достаточно серьезными, чтобы оправдать объявление их чрезвычайными ситуациями. Вы можете внедрить строго контролируемые и целенаправленные процессы и процедуры, которым может следовать ваша команда, чтобы обеспечить спокойное и организованное решение проблемы. Чрезвычайные ситуации естественным образом повышают уровень стресса у каждого и могут привести к обстановке хаоса, если ваша команда не будет хорошо подготовлена. Чтобы свести к минимуму стресс и замешательство, разработайте стратегию реагирования, поделитесь ею со своей организацией и регулярно проводите обучение реагированию на чрезвычайные ситуации.
Ключевые стратегии проектирования
Стратегия реагирования на чрезвычайные ситуации должна представлять собой четко определенный набор процессов и процедур. Каждый процесс и процедура должны иметь сценарии, чтобы гарантировать, что каждый шаг продвигает вашу команду к быстрому и безопасному решению проблемы. Чтобы разработать стратегию реагирования на чрезвычайные ситуации, необходимо выполнить следующие шаги:
- Предварительные условия
- Разработка системы мониторинга
- Создание плана реагирования на инциденты
- Этапы инцидента
- Обнаружение и сдерживание
- Рассмотрение
- Этапы после инцидента
- Анализ первопричин (RCA)
- Анализ после события
- Текущая деятельность
- Учебно-тренировочные занятия по реагированию на чрезвычайные ситуации
В следующих разделах приведены подробные рекомендации для каждого из этих этапов.
Система мониторинга
Чтобы иметь надежную стратегию реагирования на чрезвычайные ситуации ответ, вам необходимо иметь надежную систему мониторинга или платформу наблюдения. Ваша платформа наблюдения должна иметь следующие характеристики:
Комплексный мониторинг: убедитесь, что вы тщательно контролируете свою рабочую нагрузку с точки зрения конфигурации и приложений, а также включите мониторинг инфраструктуры, если компоненты вашей рабочей нагрузки размещены в облаке или локальный. Убедитесь, что ваша стратегия мониторинга охватывает все компоненты вашей рабочей нагрузки. Например, если ваша рабочая нагрузка взаимодействует с ресурсами Azure или системой локальный, включите эти компоненты в свой мониторинг.
Подробное ведение журнала: включите подробное ведение журнала для ваших компонентов, чтобы помочь в расследовании при рассмотрении проблемы. Структурируйте журналы так, чтобы ими было легко управлять. Настройте автоматическую отправку журналов в приемники данных для подготовки к анализу.
Полезные панели мониторинга: создавайте панели мониторинга на основе вашей модели здоровья, адаптированные для каждой команды в вашей организации. Разные группы отвечают за разные аспекты работоспособности рабочей нагрузки.
Оповещения с практическими рекомендациями: создавайте оповещения, полезные для ваших рабочих групп. Избегайте оповещений, которые не требуют действий от ваших команд. Слишком большое количество предупреждений такого типа может привести к тому, что люди будут игнорировать или блокировать уведомления о предупреждениях.
Автоматические уведомления: убедитесь, что соответствующие команды автоматически получают оповещения, требующие от них действий. Например, ваша группа поддержки уровня 1 должна получать уведомления обо всех оповещениях, тогда как ваши инженеры по безопасности должны получать оповещения только о событиях безопасности.
Подробнее читайте в разделе Рекомендации по проектированию и созданию структуры мониторинга.
План реагирования на инциденты
Основой стратегии реагирования на чрезвычайные ситуации является план реагирования на инциденты. Как и в случае с планом восстановления после аварии, четко и подробно определите роли, обязанности и процедуры реагирования на инцидент. План должен представлять собой документ с контролем версий, который подлежит регулярным проверкам, гарантирующим его актуальность.
Четко определите следующие компоненты в своем плане.
Роли
Определите менеджера по реагированию на инциденты. Этот человек является ответственным лицом за инциденты от начала до устранения, включая анализ первопричин. Менеджер по инцидентам ответ обеспечивает соблюдение процессов и информирование соответствующих сторон в ходе выполнения командой ответ своей работы.
Определите руководителя аналитических исследований. Этот человек гарантирует, что анализ последствий будет проведен вскоре после разрешения инцидента. Он составляет отчет, который поможет вам применить выводы, полученные в результате инцидента.
Процессы и процедуры
Ваша группа по рабочей нагрузке должна определить и понять критерии чрезвычайной ситуации. Когда ваша команда определит, что ситуация серьезная, вы можете объявить о чрезвычайной ситуации и инициировать план аварийного восстановления. В менее серьезных случаях проблема может не соответствовать критериям катастрофы, но ее все равно следует считать чрезвычайной ситуацией, требующей инициирования чрезвычайного плана ответ. Чрезвычайные ситуации могут быть либо внутренними по отношению к вашей рабочей нагрузке, например, ошибки в коде вашего приложения, либо результатом проблемы с зависимостью вашей рабочей нагрузки, например, недоступность API или базы данных. Чрезвычайная ситуация также может быть вызвана сбоем в работе вашего поставщика (например, проблемой c Microsoft Entra ID или Power Platform). Группа поддержки должна иметь возможность определить, соответствует ли проблема критериям чрезвычайной ситуации, даже если группа не имеет представления о сути проблемы.
Точно определите планы коммуникации и эскалации. Убедитесь, что члены вашей группы поддержки уровня 1 могут легко связаться с соответствующими группами для эскалации проблем, исходя из типа получаемого ими уведомления о тревоге.
Другие аспекты, которые следует включить
Задокументируйте все стандартные инструменты, которые используются во время инцидентов для внутренней коммуникации, например Microsoft Teams, а также для отслеживания действий в ходе инцидента, например инструменты тикетирования или инструменты планирования невыполненных работ.
Задокументируйте свои учетные данные для чрезвычайных ситуаций, также известные как аварийные учетные записи. Добавьте пошаговое руководство, описывающее, как их следует использовать.
Создайте инструкции по проведению учений в чрезвычайных ситуациях ответ и ведите учет времени проведения учений.
Документируйте все необходимые правовые или нормативные меры, такие как сообщение об утечках данных.
Обнаружение и локализация инцидентов
Если у вас есть хорошо продуманная система мониторинга, которая отслеживает аномалии и автоматически оповещает о них, вы можете быстро обнаружить проблемы и определить их серьезность. Если проблема считается чрезвычайной ситуацией, план может быть инициирован. В некоторых случаях служба поддержки не уведомляется через систему мониторинга. Пользователи могут сообщать о проблемах в службу поддержки, используя каналы связи группы поддержки. Или они могут связаться с людьми, с которыми они регулярно работают или с которыми, как они знают, работают Power Platform, например, с вашими Power Platform администраторами служб или командой Центра передового опыта. Независимо от того, каким образом группа поддержки уведомляется, они всегда должны выполнять одни и те же действия для проверки проблемы и определения ее серьезности. Отклонение от плана реагирования может усилить стресс и замешательство.
Рассмотрение
Первым шагом в устранении проблемы является определение компонента рабочей нагрузки, вызывающего проблему. Действия, которые необходимо выполнить во время рассмотрения ситуации, зависят от типа проблемы. Команда, отвечающая за определенную область поддержки рабочей нагрузки, должна разработать процедуры для инцидентов, связанных с ее работой. Например, группы по безопасности должны рассматривать проблемы безопасности и следовать разработанным ими сценариям. Важно, чтобы команды следовали четко определенным сценариям при выполнении работы по расстановке приоритетов. Эти сценарии должны представлять собой пошаговые инструкции, включающие процессы отката для отмены изменений, которые неэффективны или могут вызвать другие проблемы. После устранения проблемы следуйте четко определенным процессам, чтобы безопасно вернуть затронутый компонент в поток рабочей нагрузки.
Отчет по анализу первопричин
Отчеты об анализе первопричин (RCA) должен составлять ответственный за инцидент или лицо, тесно с ним сотрудничавшее. Эта стратегия гарантирует точный учет инцидента. Обычно в организациях имеется определенный шаблон RCA с инструкциями о том, как должна быть представлена информация и какие виды информации можно или нельзя передавать. Если вам необходимо создать собственный шаблон и инструкции, убедитесь, что заинтересованные стороны их рассмотрели и одобрили.
Анализ последствий инцидента
Беспристрастный человек должен проводить анализ последствий без определения вины. Во время сеансов анализ последствий каждый человек делится своими выводами об инциденте. Каждая команда, участвовавшая в инциденте ответ, должна быть представлена лицами, работавшими над инцидентом. Эти люди должны прийти на сессию подготовленными, имея при себе примеры успешных действий и областей, которые можно улучшить. Сессия не является форумом для поиска виновных в инциденте или обсуждения проблем, которые могут возникнуть в ходе ответ. Руководитель аналитических исследований должен покинуть сеанс с четким списком действий, направленных на улучшение, включая следующее:
- Улучшения плана реагирования. Процессы или процедуры, возможно, придется пересмотреть и переписать, чтобы лучше отразить подходящие действия.
- Улучшения в системе мониторинга. Возможно, потребуется пересмотреть пороговые значения, чтобы раньше обнаружить конкретный тип инцидента, или может потребоваться внедрение нового мониторинга, чтобы выявить поведение, которое не было ранее учтено.
- Улучшение рабочей нагрузки. Инцидент может выявить уязвимость в рабочей нагрузке, которую необходимо устранить как постоянное исправление.
Рекомендации
Ваша стратегия реагирования на чрезвычайные ситуации должна быть тесно согласована с вашей общей Power Platform стратегией поддержки. Обсудите с вашими Power Platform администраторами и командой Центра передового опыта варианты поддержки и экстренного реагирования ответ, а также процессы, которые, возможно, уже определены.
Когда вы определяете процесс поддержки и путь эскалации, важно классифицировать решения с учетом критичности. Такая практика позволяет вам устанавливать процессы, которые гарантируют, что критически важные приложения будут иметь необходимые защитные барьеры для их поддержки, не подавляя при этом инновации в сценариях производительности и не перегружая ваши команды по устранению инцидентов ответ. Определяя свои модели поддержки, продумайте также путь перехода. Решение может изначально требовать только поддержки на уровне производительности, но со временем его функциональность или база пользователей могут вырасти, и потребуется более высокий уровень поддержки. Определите, как создатели могут запросить более официальную поддержку и перенести решение в поддерживаемые среды.
Возможности в Power Platform
Power Platform интегрируется с Application Insights, которая является частью экосистемы Azure Monitor. Используйте эту интеграцию для того, чтобы обеспечить следующее:
Получение телеметрии по диагностике и производительности, захваченной платформой Dataverse в Application Insights. Вы можете подписаться на получение телеметрии об операциях, которые приложения выполняют на вашей базы данных Dataverse и в приложениях на основе модели. Эта телеметрия предоставляет информацию, которую можно использовать для диагностики и устранения проблем, связанных с ошибками и производительностью.
Подключение приложений на основе холста к Application Insights. Вы можете использовать эту аналитику для диагностики проблем и понимания того, как пользователи используют ваши приложения. Вы сможете собирать информацию, которая поможет вам принимать более эффективные бизнес-решения и улучшать качество ваших приложений.
Настройте Power Automate телеметрию для передачи в Application Insights; например, для мониторинга выполнения облачный поток и создания оповещений об ошибках выполнения облачный поток.
Собирайте данные телеметрии от вашего Microsoft Copilot Studio второго пилота для использования в Azure Application Insights. Вы можете использовать эту телеметрию для мониторинга зарегистрированных сообщений и событий, отправляемых вашему второму пилоту и получаемых от него, тем, которые будут запускаться во время разговоров пользователей, а также пользовательских событий телеметрии, которые могут отправляться из ваших тем.
Application Insights — это комплексное решение для сбора, анализа и реагирования на данные мониторинга из облачных сред и локальных сред. Оно включает в себя надежную платформу оповещений, которую вы можете настроить для отправки автоматических уведомлений и других действий.
Комплект автоматизации Power Platform — это набор инструментов, который ускоряет использование и поддержку Power Automate для компьютеров для проектов автоматизации. В комплект входят инструменты, которые помогут вам управлять проектами автоматизации и отслеживать их для оценки сэкономленных средств и рентабельности инвестиций (ROI). Частью комплекта автоматизации является центр управления, который дополняет существующую функцию мониторинга запусков классический поток. Ключевой задачей центра управления является представление оркестратора, позволяющее аналитикам службы поддержки и организациям отслеживать, принимать меры и при необходимости отправлять оповещения.
Дополнительные сведения
- Рекомендации по проектированию и созданию системы мониторинга
- Рекомендации по разработке надежной стратегии мониторинга и оповещения
- Стратегия поддержки пользователей и производителей