Recomendaciones para diseñar una estrategia de respuesta a emergencias
Se aplica a esta recomendación de la lista de verificación de Excelencia Operacional Bien Diseñada: Power Platform
OE:07 | Desarrolle una práctica eficaz de operaciones de emergencia. Asegúrese de que su carga de trabajo emite señales de estado significativas. Recopile los datos resultantes y utilícelos para generar alertas prácticas que activen respuestas de emergencia a través de paneles y consultas. Defina claramente las responsabilidades humanas, como las rotaciones de guardia, la administración de incidentes, el acceso a recursos de emergencia y la ejecución de autopsias. |
---|
Esta guía describe las recomendaciones para diseñar una estrategia de respuesta a emergencias. Algunas de sus cargas de trabajo pueden ser críticas para la misión y los problemas que surgen durante el ciclo de vida de una carga de trabajo pueden ser lo suficientemente graves como para justificar su declaración como emergencias. Puede implementar procesos y procedimientos estrictamente controlados y enfocados que su equipo pueda seguir para garantizar que un problema se gestione de manera tranquila y ordenada. Las emergencias aumentan naturalmente los niveles de estrés de todos y pueden generar un ambiente caótico si su equipo no está bien preparado. Para ayudar a minimizar el estrés y la confusión, diseñe una estrategia de respuesta, comparta la estrategia de respuesta con su organización y realice capacitación periódica en respuesta a emergencias.
Estrategias clave de diseño
Una estrategia de respuesta a emergencias debe consistir en un conjunto bien definido de procesos y procedimientos. Cada proceso y procedimiento debe tener scripts para garantizar que cada paso haga avanzar a su equipo hacia la resolución rápida y segura de un problema. Para desarrollar una estrategia de respuesta a emergencias, considere la siguiente descripción general:
- Requisitos previos
- Desarrollar un sistema de supervisión
- Crear un plan de respuesta a incidentes
- Fases de incidentes
- Detección y contención
- Selección
- Fases tras incidentes
- Análisis de la causa raíz (RCA)
- Post mortem
- Actividad en curso
- Pruebas de respuesta ante emergencias
En las siguientes secciones se proporcionan recomendaciones para cada una de estas fases.
Sistema de monitoreo
Para tener una estrategia de emergencia respuesta sólida, es necesario contar con un sistema de monitoreo sólido o una plataforma de observación. Su plataforma de observabilidad debe tener las siguientes características:
Monitoreo holístico: asegúrese de monitorear exhaustivamente su carga de trabajo desde una perspectiva de configuración y aplicación, e incluya el monitoreo de la infraestructura si los componentes de su carga de trabajo están alojados en la nube o local. Asegúrese de que todos los componentes de su carga de trabajo estén cubiertos por su estrategia de monitoreo. Por ejemplo, si su carga de trabajo interactúa con recursos de Azure o un sistema local, incluya esos componentes en su supervisión.
Registro detallado: habilite el registro detallado para sus componentes para ayudar con las investigaciones cuando clasifique un problema. Estructurar los registros para que sean fáciles de administrar. Envíe automáticamente registros a receptores de datos para prepararlos para el análisis.
Paneles de control útiles: Cree paneles de control basados en su modelo de salud que se adapten a cada equipo de su organización. Diferentes equipos son responsables de diferentes aspectos del estado de la carga de trabajo.
Alertas procesables: cree alertas que sean útiles para sus equipos de carga de trabajo. Evite alertas que no requieran acción por parte de sus equipos. Demasiadas alertas de este tipo pueden hacer que las personas ignoren o bloqueen las notificaciones de alerta.
Notificaciones automáticas: asegúrese de que los equipos apropiados reciban automáticamente alertas que requieran acciones de su parte. Por ejemplo, su equipo de soporte de nivel 1 debería recibir notificaciones de todas las alertas, mientras que sus ingenieros de seguridad solo deberían recibir alertas de eventos de seguridad.
Obtenga más información en Recomendaciones para el diseño y creación de un marco de monitoreo.
Plan de respuesta ante incidentes
La base de una estrategia de respuesta a emergencias es un plan de respuesta a incidentes. Al igual que con un plan de recuperación ante desastres, defina de forma clara y detallada los roles, responsabilidades y procedimientos para responder a un incidente. El plan debe ser un documento con versiones controladas y sujeto a revisiones periódicas que garanticen su actualización.
Defina claramente los siguientes componentes en su plan.
Roles
Identifique un administrador de respuesta a incidentes. Esta persona es dueña del incidente desde el inicio hasta la solución y el análisis de la causa raíz. Un administrador de incidentes respuesta garantiza que se sigan los procesos y que se informe a las partes correspondientes mientras el equipo respuesta realiza su trabajo.
Identificar un líder post mortem. Esta persona se asegura de que las autopsias se realicen poco después de que se resuelva el incidente. Producen un informe que le ayuda a aplicar los hallazgos que surgen del incidente.
Procesos y procedimientos
Su equipo de carga de trabajo debe definir y comprender los criterios de emergencia. Cuando su equipo determina que un caso es grave, puede declarar un desastre e iniciar el plan de recuperación ante desastres. En casos menos graves, es posible que el problema no cumpla los criterios de un desastre, pero aun así debe considerarse una emergencia, lo que requiere iniciar el plan de emergencia respuesta. Las emergencias pueden ser internas a su carga de trabajo, como errores en el código de su aplicación, o el resultado de un problema con una dependencia de su carga de trabajo, como la falta de disponibilidad de una API o una base de datos. Una emergencia también podría ser causada por una interrupción de su proveedor (como un problema con Microsoft Entra ID o Power Platform). El equipo de soporte debe poder determinar si un problema cumple con los criterios de emergencia, incluso si el equipo no tiene visibilidad del problema subyacente.
Defina con precisión los planes de comunicación y escalamiento. Según el tipo de notificación de alerta que reciban, asegúrese de que los miembros de su equipo de soporte de nivel 1 puedan comunicarse fácilmente con los equipos apropiados para escalar problemas.
Otros elementos a incluir
Documente todas las herramientas estándar que se utilizan durante los incidentes para la comunicación interna, como Microsoft Teams, y para el seguimiento de las actividades a lo largo del incidente, como herramientas de emisión de tickets o herramientas de planificación de la cartera de pedidos.
Documente sus credenciales de emergencia, también conocidas como cuentas rompecristales. Incluya una guía paso a paso que describa cómo deben usarse.
Cree instrucciones de emergencia respuesta explorar en profundidad y mantenga un registro de cuándo se realizan los simulacros.
Documentar cualquier medida legal o reglamentaria necesaria, como la comunicación de violaciones de datos.
Detección y contención de incidentes
Cuando tiene un sistema de supervisión bien diseñado que supervisa las anomalías y las alerta automáticamente, puede detectar problemas rápidamente y determinar su gravedad. Si el problema se considera una emergencia, se puede iniciar el plan. En algunos casos, el equipo de soporte no recibe notificaciones a través del sistema de monitoreo. Los usuarios pueden informar problemas al soporte utilizando las vías de comunicación del equipo de soporte. O podrían ponerse en contacto con personas con las que trabajan habitualmente o que saben que trabajan con ellos, como sus administradores de servicio o el equipo del Centro de Excelencia. Power Platform Power Platform No importa cómo se notifique al equipo de soporte, siempre deben seguir los mismos pasos para validar el problema y determinar la gravedad. La desviación del plan de respuesta puede agregar estrés y confusión.
Selección
El primer paso para solucionar un problema es identificar el componente de la carga de trabajo que está causando el problema. Los pasos que siga durante la clasificación dependen del tipo de problema. El equipo de un área determinada de soporte de carga de trabajo debe crear procedimientos para incidentes relacionados con su trabajo. Por ejemplo, los equipos de seguridad deben clasificar los problemas de seguridad y seguir los guiones que desarrollan. Es importante que los equipos sigan guiones bien definidos mientras trabajan en sus esfuerzos de clasificación. Estos scripts deben ser instrucciones paso a paso que incluyan procesos de reversión para deshacer cambios que son ineficaces o pueden causar otros problemas. Una vez resuelto el problema, siga procesos bien definidos para devolver de forma segura el componente afectado a las rutas de flujo de carga de trabajo.
Informes sobre el análisis de la causa raíz
El propietario del incidente o alguien que haya trabajado estrechamente con él debe crear los informes de análisis de causa raíz (RCA). Esta estrategia garantiza una contabilidad precisa del incidente. Por lo general, las organizaciones tienen una plantilla RCA definida con pautas sobre cómo se presenta la información y qué tipos de información se pueden compartir o no. Si necesita crear su propia plantilla y pautas, asegúrese de que las partes interesadas las revisen y aprueben.
Autopsias del incidente
Un individuo imparcial debería realizar autopsias sin culpa. En las sesiones post mortem, todos comparten sus hallazgos de un incidente. Cada equipo que estuvo involucrado en el incidente respuesta debe estar representado por personas que trabajaron en el incidente. Esas personas deben venir a la sesión preparadas con ejemplos de acciones que tuvieron éxito y áreas que se pueden mejorar. La sesión no es un foro para asignar culpas por el incidente o problemas que puedan surgir durante el respuesta. El líder post mortem debe salir de la sesión con una lista clara de elementos de acción que se centran en la mejora, como por ejemplo:
- Mejoras al plan de respuesta. Es posible que sea necesario reevaluar y reescribir los procesos o procedimientos para capturar mejor las acciones apropiadas.
- Mejoras al sistema de supervisión. Es posible que sea necesario reevaluar los umbrales para detectar el tipo específico de incidente antes, o que sea necesario implementar una supervisión nueva para detectar comportamientos que no se tuvieron en cuenta.
- Mejoras en la carga de trabajo. El incidente podría exponer una vulnerabilidad en la carga de trabajo que debe abordarse como una solución permanente.
Consideraciones
Su estrategia de respuesta a emergencias debe estar estrechamente alineada con su estrategia de general de soporte de Power Platform. Trabaje con sus administradores y el equipo del Centro de Excelencia para analizar las opciones y procesos de soporte y emergencia respuesta que ya podrían estar definidos. Power Platform
Al definir su proceso de soporte y su ruta de escalamiento, es importante categorizar las soluciones creadas en función de su importancia. Esta práctica le permite establecer procesos que garantizan que las aplicaciones críticas tengan las protecciones necesarias para respaldarlas, sin sofocar la innovación de los escenarios de productividad ni abrumar a sus equipos de incidentes respuesta. Al definir sus modelos de apoyo, piense también en un camino de graduación. Una solución podría comenzar requiriendo solo soporte a nivel de productividad, pero crecer en funcionalidad o base de usuarios hasta requerir un mayor nivel de soporte. Defina cómo los fabricantes pueden solicitar un soporte más formal y hacer la transición de una solución a entornos compatibles.
Facilitación de Power Platform
Power Platform se integra con Application Insights, que es parte del ecosistema de Azure Monitor. Use esta integración para:
Recibir telemetría sobre los diagnósticos y el rendimiento capturados por la plataforma Dataverse en Application Insights. Puede suscribirse para recibir telemetría sobre las operaciones que realizan las aplicaciones en su base de datos de Dataverse y dentro de las aplicaciones basadas en modelo. Esta telemetría proporciona información que puede utilizar para diagnosticar y solucionar problemas relacionados con errores y rendimiento.
Conecte sus aplicaciones de lienzo a Application Insights. Puede utilizar estos análisis para diagnosticar problemas y comprender qué hacen los usuarios con sus aplicaciones. Puede recopilar información para ayudarlo a tomar mejores decisiones comerciales y mejorar la calidad de sus aplicaciones.
Configurar Power Automate telemetría fluir hacia Application Insights ; por ejemplo, para monitorear ejecuciones de flujo de nube y crear alertas para fallas de ejecución de flujo de nube.
Captura datos de telemetría de tu Microsoft Copilot Studio copiloto para usar en Azure Application Insights. Puede utilizar esta telemetría para monitorear los mensajes y eventos registrados enviados hacia y desde su copiloto, los temas que se activarán durante las conversaciones de los usuarios y los eventos de telemetría personalizados que se pueden enviar desde sus temas.
Application Insights es una solución integral para recopilar, analizar y responder a datos de supervisión desde entornos de nube y local. Incluye una sólida plataforma de alertas que puede configurar para notificaciones automáticas y otras acciones.
El Kit de Automatización de Power Platform es un conjunto de herramientas que acelera el uso y soporte de Power Automate para escritorio para proyectos de automatización. El kit proporciona herramientas que lo ayudan a administrar proyectos de automatización y monitorearlos para estimar el dinero ahorrado y el retorno de la inversión (ROI). Parte del Kit de Automatización es el centro de control, que complementa la función de ejecución del Monitor flujo de escritorio existente. El enfoque clave del centro de control es una vista de orquestador para que los analistas y las organizaciones de soporte monitoreen, tomen medidas y alerten cuando sea necesario.
Información relacionada
- Recomendaciones para el diseño y creación de un sistema de monitoreo
- Recomendaciones para diseñar una estrategia confiable de monitoreo y alerta
- Estrategia de soporte al usuario y al fabricante