Recomendaciones para diseñar una estrategia fiable de supervisión y alerta

Artículo
01/15/2025

Se aplica a esta recomendación de lista de comprobación de fiabilidad de buena arquitectura de Power Platform:

RE:08	Mida y publique los indicadores de estado de la solución. Capture continuamente el tiempo de actividad y otros datos de fiabilidad de toda la carga de trabajo y también de componentes individuales y flujos clave.

Esta guía describe las recomendaciones para diseñar una estrategia fiable de supervisión y alertas. Implemente esta estrategia para mantener informados a sus equipos de operaciones sobre el estado de salud de su entorno y garantizar que cumple los objetivos de fiabilidad establecidos para su carga de trabajo.

Definiciones

Término	Definición
Métrica	Valores numéricos que se recogen a intervalos regulares. Las métricas describen algunos aspectos de un sistema en un momento particular.
Registros de recursos	Datos que genera un sistema sobre el estado del sistema.
Seguimientos	Datos que proporcionan información sobre la ruta que recorre una solicitud a través de servicios y componentes.

Estrategias clave de diseño

Antes de crear una estrategia de supervisión y alertas, realice las siguientes tareas para su carga de trabajo como parte de su planificación de fiabilidad:

Identificar los flujos críticos y no críticos.
Realizar un análisis del modo de error (AMF) para sus flujos.
Identificar los objetivos de fiabilidad.
Diseñar una estrategia de pruebas sólida.

Cree una estrategia de supervisión y alertas para informar a sus equipos de operaciones con notificaciones de los cambios en el estado de su carga de trabajo y para que puedan abordar los problemas rápidamente. El modelo de estado para sus flujos críticos y para cargas de trabajo que incluyen flujos críticos debe definir estados correctos, degradados e incorrectos. Diseñe su postura de supervisión para detectar inmediatamente los cambios en estos estados. Cuando los estados cambian de correcto a degradado o incorrecto, los mecanismos de alerta deben desencadenar medidas de recuperación automáticas y alertas a los equipos responsables.

Implemente las siguientes recomendaciones para diseñar una estrategia de supervisión y alertas que cumpla los requisitos de su empresa.

Orientación general

Comprenda la diferencia entre métricas, registros y seguimientos.

Habilite el registro para todos los recursos de la nube. Utilice automatización y gobernanza en sus implementaciones para habilitar el registro de diagnóstico en todo su entorno.

Reenvíe todos los registros de diagnóstico a una plataforma de análisis y un receptor de datos centralizados, como un espacio de trabajo de Log Analytics. Si tiene requisitos de soberanía de datos regionales, debe utilizar receptores de datos locales en las regiones que están sujetas a esos requisitos.

Desventaja: el almacenamiento y la consulta de los registros tienen implicaciones económicas. Observe cómo el análisis y la retención de registros afectan a su presupuesto y determine el mejor equilibrio de utilización para satisfacer sus necesidades.

Si sus cargas de trabajo están sujetas a uno o más marcos de cumplimiento, algunos de los registros de componentes que gestionan información confidencial también están sujetos a esos marcos. Envíe los registros de componentes relevantes a un sistema de administración de información y eventos de seguridad (SIEM), como Microsoft Sentinel.

Cree una directiva de retención de registros que incorpore los requisitos de retención a largo plazo que los marcos de cumplimiento imponen a su carga de trabajo.

Utilice el registro estructurado para que todos los mensajes de registro optimicen la consulta de los datos del registro.

Configure alertas que se desencadenen cuando los valores superen umbrales críticos que se correlacionen con un cambio de estado del modelo de estado, por ejemplo, de verde a amarillo o rojo. La configuración de umbrales es una práctica de mejora continua. A medida que evoluciona su carga de trabajo, los umbrales que defina pueden cambiar.

Considere el uso de alertas cuando los estados mejoren, por ejemplo, de rojo a amarillo o de rojo a verde, para que los equipos de operaciones puedan realizar un seguimiento de estos eventos para referencia futura.

Visualice el estado de su entorno en tiempo real mediante el uso de paneles personalizados.

Utilice los datos recopilados durante los incidentes para mejorar continuamente sus modelos de estado.

Incorpore servicios de alerta y supervisión de la plataforma en la nube, incluido el estado en el nivel de plataforma.

Incorpore supervisión y análisis avanzados especialmente diseñados que ofrezca su proveedor de nube, como herramientas de conocimientos de Azure Monitor.

Implemente supervisión de copia de seguridad y recuperación para capturar:

El estado de replicación de datos para garantizar que su carga de trabajo logre la recuperación dentro del objetivo de punto de recuperación (RPO).
Copias de seguridad y recuperaciones correctas y fallidas.
La duración de la recuperación para informar su planificación de recuperación ante desastres.

Supervisar aplicaciones y agentes

Registre datos mientras la aplicación o agente se ejecuta en el entorno de producción. Necesita información suficiente para diagnosticar la causa de los problemas en el estado de producción.

Registre eventos en los límites de servicio. Incluya un Id. de correlación que fluya por los límites del servicio. Si una transacción fluye por varios servicios y uno de ellos falla, el Id. de correlación le ayuda a realizar un seguimiento de las solicitudes en su aplicación e identificar por qué falló la transacción.

Separe la aplicación y el registro de agente de la auditoría. Los registros de auditoría suelen mantenerse por cumplimiento o requisitos reglamentarios y deben estar completos. Para evitar transacciones descartadas, mantenga los registros de auditoría aparte de los registros de diagnóstico.

Utilice la supervisión de caja blanca para instrumentar la aplicación o agente con registros semánticos y métricas. Recopile métricas y registros en el nivel de aplicación y agente, como el consumo de memoria o la latencia de solicitudes, de la aplicación o agente para informar sobre un modelo de salud y detectar y predecir problemas.

Utilice la supervisión de caja negra para medir los servicios de la plataforma y la experiencia del cliente resultante. El monitoreo de caja negra prueba el comportamiento de la aplicación o agente visible externamente sin conocimiento de las partes internas del sistema. Este enfoque es común para medir indicadores de nivel de servicio (SLI), objetivos de nivel de servicio (SLO) y contratos de nivel de servicio (SLA) centrados en el cliente.

Supervisión de datos y almacenamiento

Supervise las métricas de disponibilidad de sus contenedores de almacenamiento. Cuando esta métrica cae por debajo del 100 %, indica escrituras fallidas. Es posible que se produzcan caídas transitorias en la disponibilidad cuando su proveedor de nube administre la carga. Realice un seguimiento de las tendencias de disponibilidad para determinar si hay un problema con su carga de trabajo. En algunos casos, una caída en las métricas de disponibilidad de un contenedor de almacenamiento indica un cuello de botella en la capa informática asociada con el contenedor de almacenamiento.

Hay muchas métricas para supervisar bases de datos. En el contexto de la fiabilidad, las métricas importantes a supervisar son:

Duración de consulta
Temporizaciones
Tiempos de espera
Presión de memoria
Bloqueos

Facilitación de Power Platform

Power Platform se integra con Application Insights, que es parte del ecosistema de Azure Monitor. Puede usar esta integración para lo siguiente:

Suscribirse para recibir telemetría capturada por la plataforma Dataverse en Application Insights sobre diagnósticos, rendimiento y las operaciones que realizan las aplicaciones en su base de datos de Dataverse y dentro de las aplicaciones basadas en modelo. Esta telemetría proporciona información que puede utilizar para diagnosticar y solucionar problemas relacionados con errores y rendimiento.
Conectar sus aplicaciones de lienzo a Application Insights para utilizar estos análisis para diagnosticar problemas, comprender qué hacen realmente los usuarios con sus aplicaciones, impulsar mejores decisiones comerciales y mejorar la calidad de sus aplicaciones.
Configurar la telemetría de Power Automate para flujos en Application Insights. Puede usar esta telemetría para supervisar las ejecuciones de flujos en la nube y crear alertas para errores en la ejecución de flujos en la nube.
Capture datos de telemetría de su agente Microsoft Copilot Studio para usarlos en Azure Application Insights. Puede usar esta telemetría para supervisar los mensajes registrados y los eventos enviados desde y hacia el agente, los temas que se desencadenarán durante las conversaciones de los usuarios y los eventos de telemetría personalizados que se pueden enviar desde los temas.

Los registros de actividades de recursos Power Platform en el portal de cumplimiento de Microsoft Purview. La mayoría de los eventos están disponibles dentro de las 24 horas posteriores a la actividad. No utilice esta información para supervisión en tiempo real. Para obtener más información sobre actividades de registro en Power Platform, consulte:

La carga de trabajo de Power Platform puede incluir recursos de Azure. Para obtener más información sobre las recomendaciones de supervisión de recursos de Azure, consulte Recomendaciones para diseñar y crear un sistema de supervisión.

El Kit de inicio de CoE de Power Platform es una implementación de referencia que contiene una colección de componentes y herramientas diseñados para ayudarle a empezar a desarrollar una estrategia de adopción y soporte de Power Platform. El kit proporciona sistemas automatización y herramientas para ayudar a los equipos a crear la supervisión y la automatización necesarias para un CoE.

¿Cómo compruebo el estado de mi servicio en línea?

Lista de comprobación de fiabilidad

Consulte el conjunto completo de recomendaciones.

Lista de comprobación de fiabilidad

Compartir a través de

Recomendaciones para diseñar una estrategia fiable de supervisión y alerta

Estrategias clave de diseño

Orientación general

Supervisar aplicaciones y agentes

Supervisión de datos y almacenamiento

Facilitación de Power Platform

Lista de comprobación de fiabilidad

Comentarios

Recursos adicionales

Compartir a través de

Recomendaciones para diseñar una estrategia fiable de supervisión y alerta

Estrategias clave de diseño

Orientación general

Supervisar aplicaciones y agentes

Supervisión de datos y almacenamiento

Facilitación de Power Platform

Información relacionada

Lista de comprobación de fiabilidad

Comentarios

Recursos adicionales