Recomendaciones para diseñar una estrategia fiable de supervisión y alerta
Se aplica a esta recomendación de la lista de verificación de confiabilidad bien diseñada: Power Platform
RE:08 | Mida y publique los indicadores de estado de la solución. Capture continuamente el tiempo de actividad y otros datos de fiabilidad de toda la carga de trabajo y también de componentes individuales y flujos clave. |
---|
Esta guía describe las recomendaciones para diseñar una estrategia fiable de supervisión y alertas. Implemente esta estrategia para mantener informados a sus equipos de operaciones sobre el estado de salud de su entorno y garantizar que cumple los objetivos de fiabilidad establecidos para su carga de trabajo.
Definiciones
Término | Definición |
---|---|
Métrica | Valores numéricos que se recogen a intervalos regulares. Las métricas describen algunos aspectos de un sistema en un momento particular. |
Registros de recursos | Datos que genera un sistema sobre el estado del sistema. |
Seguimientos | Datos que proporcionan información sobre la ruta que recorre una solicitud a través de servicios y componentes. |
Estrategias clave de diseño
Antes de crear una estrategia de supervisión y alertas, realice las siguientes tareas para su carga de trabajo como parte de su planificación de fiabilidad:
Identificar los flujos críticos y no críticos.
Realizar un análisis del modo de error (AMF) para sus flujos.
Identificar los objetivos de fiabilidad.
Diseñar una estrategia de pruebas sólida.
Cree una estrategia de supervisión y alertas para informar a sus equipos de operaciones con notificaciones de los cambios en el estado de su carga de trabajo y para que puedan abordar los problemas rápidamente. El modelo de estado para sus flujos críticos y para cargas de trabajo que incluyen flujos críticos debe definir estados correctos, degradados e incorrectos. Diseñe su postura de supervisión para detectar inmediatamente los cambios en estos estados. Cuando los estados cambian de correcto a degradado o incorrecto, los mecanismos de alerta deben desencadenar medidas de recuperación automáticas y alertas a los equipos responsables.
Implemente las siguientes recomendaciones para diseñar una estrategia de supervisión y alertas que cumpla los requisitos de su empresa.
Orientación general
Comprenda la diferencia entre métricas, registros y seguimientos.
Habilite el registro para todos los recursos de la nube. Utilice automatización y gobernanza en sus implementaciones para habilitar el registro de diagnóstico en todo su entorno.
Reenvíe todos los registros de diagnóstico a una plataforma de análisis y un receptor de datos centralizados, como un espacio de trabajo de Log Analytics. Si tiene requisitos de soberanía de datos regionales, debe utilizar receptores de datos locales en las regiones que están sujetas a esos requisitos.
Compensación: el almacenamiento y la consulta de registros implican costos. Observe cómo el análisis y la retención de registros afectan a su presupuesto y determine el mejor equilibrio de utilización para satisfacer sus necesidades.
Si sus cargas de trabajo están sujetas a uno o más marcos de cumplimiento, algunos de los registros de componentes que gestionan información confidencial también están sujetos a esos marcos. Envíe los registros de componentes relevantes a un sistema de información de seguridad y administración de eventos (SIEM), como Microsoft Sentinel.
Cree una directiva de retención de registros que incorpore los requisitos de retención a largo plazo que los marcos de cumplimiento imponen a su carga de trabajo.
Utilice el registro estructurado para que todos los mensajes de registro optimicen la consulta de los datos del registro.
Configure alertas que se desencadenen cuando los valores superen umbrales críticos que se correlacionen con un cambio de estado del modelo de estado, por ejemplo, de verde a amarillo o rojo. La configuración de umbrales es una práctica de mejora continua. A medida que evoluciona su carga de trabajo, los umbrales que defina pueden cambiar.
Considere el uso de alertas cuando los estados mejoren, por ejemplo, de rojo a amarillo o de rojo a verde, para que los equipos de operaciones puedan realizar un seguimiento de estos eventos para referencia futura.
Visualice el estado de su entorno en tiempo real mediante el uso de paneles personalizados.
Utilice los datos recopilados durante los incidentes para mejorar continuamente sus modelos de estado.
Incorpore servicios de alerta y supervisión de la plataforma en la nube, incluido el estado en el nivel de plataforma.
Incorpore supervisión y análisis avanzados especialmente diseñados que ofrezca su proveedor de nube, como herramientas de conocimientos de Azure Monitor.
Implemente supervisión de copia de seguridad y recuperación para capturar:
- El estado de replicación de datos para garantizar que su carga de trabajo logre la recuperación dentro del objetivo de punto de recuperación (RPO).
- Copias de seguridad y recuperaciones correctas y fallidas.
- La duración de la recuperación para informar su planificación de recuperación ante desastres.
Monitorizar aplicaciones y copilotos
Registra datos mientras la aplicación o copiloto se ejecuta en producción ambiente. Necesita información suficiente para diagnosticar la causa de los problemas en el estado de producción.
Registre eventos en los límites de servicio. Incluya un Id. de correlación que fluya por los límites del servicio. Si una transacción fluye por varios servicios y uno de ellos falla, el Id. de correlación le ayuda a realizar un seguimiento de las solicitudes en su aplicación e identificar por qué falló la transacción.
Separe el registro de aplicaciones y copilotos de la auditoría. Los registros de auditoría suelen mantenerse por cumplimiento o requisitos reglamentarios y deben estar completos. Para evitar transacciones descartadas, mantenga los registros de auditoría aparte de los registros de diagnóstico.
Utilice la supervisión de caja blanca para instrumentar la aplicación o copilotarla con registros y métricas semánticas. Recopile métricas y registros a nivel de aplicación y copiloto, como el consumo de memoria o la latencia de la solicitud, de la aplicación o el copiloto para informar un modelo de estado y detectar y predecir problemas.
Utilice la supervisión de caja negra para medir los servicios de la plataforma y la experiencia del cliente resultante. Las pruebas de monitoreo de caja negra prueban aplicaciones visibles externamente o el comportamiento del copiloto sin conocimiento de los aspectos internos del sistema. Este enfoque es común para medir indicadores de nivel de servicio (SLI), objetivos de nivel de servicio (SLO) y contratos de nivel de servicio (SLA) centrados en el cliente.
Supervisión de datos y almacenamiento
Supervise las métricas de disponibilidad de sus contenedores de almacenamiento. Cuando esta métrica cae por debajo del 100 %, indica escrituras fallidas. Es posible que se produzcan caídas transitorias en la disponibilidad cuando su proveedor de nube administre la carga. Realice un seguimiento de las tendencias de disponibilidad para determinar si hay un problema con su carga de trabajo. En algunos casos, una caída en las métricas de disponibilidad de un contenedor de almacenamiento indica un cuello de botella en la capa informática asociada con el contenedor de almacenamiento.
Hay muchas métricas para supervisar bases de datos. En el contexto de la fiabilidad, las métricas importantes a supervisar son:
- Duración de consulta
- Temporizaciones
- Tiempos de espera
- Presión de memoria
- Bloqueos
Facilitación de Power Platform
Power Platform se integra con Application Insights, que es parte del ecosistema de Azure Monitor. Puede usar esta integración para lo siguiente:
Suscribirse para recibir telemetría capturada por la plataforma Dataverse en Application Insights sobre diagnósticos, rendimiento y las operaciones que realizan las aplicaciones en su base de datos de Dataverse y dentro de las aplicaciones basadas en modelo. Esta telemetría proporciona información que puede utilizar para diagnosticar y solucionar problemas relacionados con errores y rendimiento.
Conectar sus aplicaciones de lienzo a Application Insights para utilizar estos análisis para diagnosticar problemas, comprender qué hacen realmente los usuarios con sus aplicaciones, impulsar mejores decisiones comerciales y mejorar la calidad de sus aplicaciones.
Configurar la telemetría de Power Automate para flujos en Application Insights. Puede usar esta telemetría para supervisar las ejecuciones de flujos en la nube y crear alertas para errores en la ejecución de flujos en la nube.
Captura datos de telemetría de tu Microsoft Copilot Studio copiloto para usar en Azure Application Insights. Puede utilizar esta telemetría para monitorear los mensajes y eventos registrados enviados hacia y desde su copiloto, los temas que se activarán durante las conversaciones de los usuarios y los eventos de telemetría personalizados que se pueden enviar desde sus temas.
Power Platform actividades del registro de recursos en el Microsoft portal de cumplimiento de Purview. La mayoría de los eventos están disponibles dentro de las 24 horas posteriores a la actividad. No utilice esta información para supervisión en tiempo real. Para obtener más información sobre actividades de registro en Power Platform, consulte:
- Power Apps
- Power Automate
- Copilot Studio
- Power Pages
- Power Platform Conectores
- Datos prevención de pérdidas
- Power Platform registros administrativos
- Dataverse revisión de cuentas
La carga de trabajo de Power Platform puede incluir recursos de Azure. Para obtener más información sobre las recomendaciones de supervisión de recursos de Azure, consulte Recomendaciones para diseñar y crear un sistema de supervisión.
El Kit de inicio de CoE de Power Platform es una implementación de referencia que contiene una colección de componentes y herramientas diseñados para ayudarle a empezar a desarrollar una estrategia de adopción y soporte de Power Platform. El kit proporciona sistemas automatización y herramientas para ayudar a los equipos a crear la supervisión y la automatización necesarias para un CoE.
Información relacionada
¿Cómo puedo verificar el estado de mi servicio en línea?
Lista de comprobación de fiabilidad
Consulte el conjunto completo de recomendaciones.