Compartir a través de


Recomendaciones para diseñar una estrategia de respuesta a emergencias

Se aplica a esta recomendación de lista de comprobación de excelencia operativa de buena arquitectura de Power Platform:

OE:07 Desarrolle una práctica eficaz de operaciones de emergencia. Asegúrese de que su carga de trabajo emite señales de estado significativas. Recopile los datos resultantes y utilícelos para generar alertas procesables que promulguen respuestas de emergencia a través de paneles y consultas. Defina claramente las responsabilidades humanas, como las rotaciones de guardia, la administración de incidentes, el acceso a recursos de emergencia y la ejecución de autopsias.

Esta guía describe las recomendaciones para diseñar una estrategia de respuesta a emergencias. Algunas de sus cargas de trabajo pueden ser críticas y los problemas que surgen a lo largo del ciclo de vida de una carga de trabajo pueden ser lo suficientemente graves como para justificar declararlas emergencias. Puede implementar procesos y procedimientos estrictamente controlados y enfocados que su equipo pueda seguir para garantizar que un problema se gestione de manera tranquila y ordenada. Las emergencias aumentan naturalmente los niveles de estrés de todos y pueden generar un ambiente caótico si su equipo no está bien preparado. Para ayudar a minimizar el estrés y la confusión, diseñe una estrategia de respuesta, comparta la estrategia de respuesta con su organización y realice capacitación periódica en respuesta a emergencias.

Estrategias clave de diseño

Una estrategia de respuesta a emergencias debe consistir en un conjunto bien definido de procesos y procedimientos. Cada proceso y procedimiento debe tener scripts para garantizar que cada paso haga avanzar a su equipo hacia la resolución rápida y segura de un problema. Para desarrollar una estrategia de respuesta a emergencias, considere la siguiente descripción general:

  • Requisitos previos
    • Desarrollar un sistema de supervisión
    • Crear un plan de respuesta a incidentes
  • Fases de incidentes
    • Detección y contención
    • Selección
  • Fases tras incidentes
    • Análisis de la causa raíz (RCA)
    • Post mortem
  • Actividad en curso
    • Pruebas de respuesta ante emergencias

En las siguientes secciones se proporcionan recomendaciones para cada una de estas fases.

Supervisión del sistema

Para tener una estrategia sólida de respuesta a emergencias, es necesario contar con un sistema de monitoreo sólido o una plataforma de observabilidad. Su plataforma de observabilidad debe tener las siguientes características:

  • Supervisión holística: asegúrese de supervisar exhaustivamente su carga de trabajo desde una perspectiva de configuración y aplicación, e incluya supervisión de infraestructura si los componentes de su carga de trabajo están alojados en la nube o local. Asegúrese de que todos los componentes de la carga de trabajo estén cubiertos por la estrategia de supervisión. Por ejemplo, si la carga de trabajo interactúa con recursos Azure o con un sistema local, incluya esos componentes en la supervisión.

  • Registro detallado: habilite el registro detallado para sus componentes para ayudar con las investigaciones cuando clasifica un problema. Estructurar los registros para que sean fáciles de administrar. Envíe automáticamente registros a receptores de datos para prepararlos para el análisis.

  • Paneles útiles: cree paneles basados en su modelo de salud que se adapten a cada equipo de su organización. Diferentes equipos son responsables de diferentes aspectos del estado de la carga de trabajo.

  • Alertas procesables: cree alertas que sean útiles para sus equipos de carga de trabajo. Evite alertas que no requieran acción por parte de sus equipos. Demasiadas alertas de este tipo pueden hacer que las personas ignoren o bloqueen las notificaciones de alerta.

  • Notificaciones automáticas: Asegúrese de que los equipos apropiados reciban automáticamente alertas que requieran una acción por su parte. Por ejemplo, su equipo de soporte de Nivel 1 debería recibir notificaciones de todas las alertas, mientras que sus ingenieros de seguridad solo deberían recibir alertas de eventos de seguridad.

Más información en Recomendaciones para diseñar y crear un marco de supervisión.

Plan de respuesta ante incidentes

La base de una estrategia de respuesta a emergencias es un plan de respuesta a incidentes. Al igual que con un plan de recuperación ante desastres, defina de forma clara y exhaustiva las funciones, responsabilidades y procedimientos para responder a un incidente. El plan debe ser un documento con versiones controladas y sujeto a revisiones periódicas que garanticen su actualización.

Defina claramente los siguientes componentes en su plan.

Roles

Identifique un administrador de respuesta a incidentes. Esta persona es dueña del incidente desde el inicio hasta la solución y el análisis de la causa raíz. Un gestor de respuesta a incidentes se asegura de que se sigan los procesos y de que se informe a las partes adecuadas a medida que el equipo de respuesta realiza su trabajo.

Identificar un líder post mortem. Esta persona se asegura de que las autopsias se realicen poco después de que se resuelva el incidente. Producen un informe que le ayuda a aplicar los hallazgos que surgen del incidente.

Procesos y procedimientos

Su equipo de carga de trabajo debe definir y comprender los criterios de emergencia. Cuando su equipo determina que un caso es grave, puede declarar un desastre e iniciar el plan de recuperación ante desastres. En casos menos graves, es posible que el problema no cumpla con los criterios de un desastre, pero aún así debe considerar el problema como una emergencia, que requiere iniciar el plan de respuesta de emergencia. Las emergencias pueden ser internas a su carga de trabajo (como errores en el código de su aplicación) o el resultado de un problema con una dependencia de su carga de trabajo (como la falta de disponibilidad de una API o una base de datos). Una emergencia también podría ser causada por una interrupción de su proveedor (como un problema con Microsoft Entra ID o Power Platform). El equipo de soporte técnico debe ser capaz de determinar si un problema cumple con los criterios de emergencia, incluso si el equipo no tiene visibilidad del problema subyacente.

Defina con precisión los planes de comunicación y escalamiento. Según el tipo de notificación de alerta que reciban, asegúrese de que los miembros de su equipo de soporte de nivel 1 puedan comunicarse fácilmente con los equipos apropiados para escalar problemas.

Otros elementos a incluir

Documente todas las herramientas estándar que se utilizan durante los incidentes para la comunicación interna, como Microsoft Teams y para realizar un seguimiento de las actividades a lo largo del incidente, como las herramientas de tickets o las herramientas de planificación de trabajos pendientes.

Documente sus credenciales de emergencia, también conocidas como cuentas rompecristales. Incluya una guía paso a paso que describa cómo deben usarse.

Cree instrucciones para simulacros de respuesta a emergencias y mantenga un registro de cuándo se realizan los simulacros.

Documente cualquier medida legal o reglamentaria necesaria, como la comunicación de violaciones de datos.

Detección y contención de incidentes

Cuando tiene un sistema de supervisión bien diseñado que supervisa las anomalías y las alerta automáticamente, puede detectar problemas rápidamente y determinar su gravedad. Si el problema se considera una emergencia, se puede iniciar el plan. En algunos casos, el equipo de soporte técnico no recibe una notificación a través del sistema de supervisión. Los usuarios pueden informar problemas al soporte utilizando las vías de comunicación del equipo de soporte. O bien, pueden ponerse en contacto con personas con las que trabajan habitualmente o con las que saben que están trabajando con Power Platform, como los administradores de servicios de Power Platform o el equipo del Centro de excelencia. No importa cómo se notifique al equipo de soporte, siempre deben seguir los mismos pasos para validar el problema y determinar la gravedad. La desviación del plan de respuesta puede agregar estrés y confusión.

Selección

El primer paso para solucionar un problema es identificar el componente de la carga de trabajo que está causando el problema. Los pasos que siga durante la clasificación dependen del tipo de problema. El equipo de un área determinada de soporte de carga de trabajo debe crear procedimientos para incidentes relacionados con su trabajo. Por ejemplo, los equipos de seguridad deben clasificar los problemas de seguridad y seguir los guiones que desarrollan. Es importante que los equipos sigan guiones bien definidos mientras trabajan en sus esfuerzos de clasificación. Estos scripts deben ser instrucciones paso a paso que incluyan procesos de reversión para deshacer los cambios que no sean eficaces o que puedan causar otros problemas. Una vez resuelto el problema, siga procesos bien definidos para devolver de forma segura el componente afectado a las rutas de flujo de carga de trabajo.

Informes sobre el análisis de la causa raíz

El propietario del incidente o alguien que haya trabajado en estrecha colaboración con él debe crear los informes de análisis de causa raíz (RCA). Esta estrategia garantiza una contabilidad precisa del incidente. Por lo general, las organizaciones tienen una plantilla RCA definida con pautas sobre cómo se presenta la información y qué tipos de información se pueden compartir o no. Si necesita crear su propia plantilla y directrices, asegúrese de que las partes interesadas las revisen y aprueben.

Autopsias del incidente

Un individuo imparcial debería realizar autopsias sin culpa. En las sesiones post mortem, todos comparten sus hallazgos de un incidente. Cada equipo que participó en la respuesta al incidente debe estar representado por personas que trabajaron en el incidente. Esas personas deben llegar a la sesión preparadas con ejemplos de las acciones que tuvieron éxito y las áreas que se pueden mejorar. La sesión no es un foro para asignar culpas por el incidente o los problemas que puedan surgir durante la respuesta. El líder post mortem debe salir de la sesión con una lista clara de elementos de acción que se centran en la mejora, como por ejemplo:

  • Mejoras al plan de respuesta. Es posible que sea necesario reevaluar y reescribir los procesos o procedimientos para capturar mejor las acciones apropiadas.
  • Mejoras al sistema de supervisión. Es posible que sea necesario reevaluar los umbrales para detectar el tipo específico de incidente antes, o que sea necesario implementar una supervisión nueva para detectar comportamientos que no se tuvieron en cuenta.
  • Mejoras en la carga de trabajo. El incidente podría exponer una vulnerabilidad en la carga de trabajo que debe abordarse como una solución permanente.

Consideraciones

Su estrategia de respuesta a emergencias debe estar estrechamente alineada con su estrategia de general de soporte de Power Platform. Trabaje con los administradores de Power Platform y el equipo del Centro de excelencia para analizar las opciones y los procesos de soporte técnico y respuesta a emergencias que ya estén definidos.

Al definir su proceso de soporte y su ruta de escalamiento, es importante categorizar las soluciones creadas en función de su importancia. Esta práctica le permite establecer procesos que garantizan que las aplicaciones críticas tengan las medidas de seguridad necesarias para admitirlas, sin sofocar la innovación de escenarios de productividad ni abrumar a sus equipos de respuesta a incidentes. Al definir sus modelos de apoyo, piense también en un camino de graduación. Una solución puede comenzar requiriendo solo soporte técnico de nivel de productividad, pero crecer en funcionalidad o base de usuarios para requerir un mayor nivel de soporte. Defina cómo los fabricantes pueden solicitar un soporte más formal y hacer la transición de una solución a entornos compatibles.

Facilitación de Power Platform

Power Platform se integra con Application Insights, que es parte del ecosistema de Azure Monitor. Use esta integración para:

  • Recibir telemetría sobre los diagnósticos y el rendimiento capturados por la plataforma Dataverse en Application Insights. Puede suscribirse para recibir telemetría sobre las operaciones que realizan las aplicaciones en su base de datos de Dataverse y dentro de las aplicaciones basadas en modelo. Esta telemetría proporciona información que puede utilizar para diagnosticar y solucionar problemas relacionados con errores y rendimiento.

  • Conecte sus aplicaciones de lienzo a Application Insights. Puede utilizar estos análisis para diagnosticar problemas y comprender qué hacen los usuarios con sus aplicaciones. Puede recopilar información para ayudarlo a tomar mejores decisiones comerciales y mejorar la calidad de sus aplicaciones.

  • Configure la telemetría de Power Automate para que fluya hacia Application Insights; por ejemplo, para supervisar las ejecuciones de flujos de nube y crear alertas de errores de ejecución de flujos de nube.

  • Capture datos de telemetría de su agente Microsoft Copilot Studio para usarlos en Azure Application Insights. Puede usar esta telemetría para supervisar los mensajes registrados y los eventos enviados desde y hacia el agente, los temas que se desencadenarán durante las conversaciones de los usuarios y los eventos de telemetría personalizados que se pueden enviar desde los temas.

Application Insights es una solución integral para recopilar, analizar y responder a datos de supervisión desde entornos de nube y local. Incluye una sólida plataforma de alertas que puede configurar para notificaciones automáticas y otras acciones.

El Kit de Automatización de Power Platform es un conjunto de herramientas que acelera el uso y soporte de Power Automate para escritorio para proyectos de automatización. El kit proporciona herramientas que lo ayudan a administrar proyectos de automatización y monitorearlos para estimar el dinero ahorrado y el retorno de la inversión (ROI). Parte del kit de automatización es el centro de control, que complementa la función supervisar ejecuciones de flujo de escritorio. El enfoque clave del centro de control es una vista de orquestador para que los analistas y las organizaciones de soporte monitoreen, tomen medidas y alerten cuando sea necesario.

Pasos siguientes