Recomendaciones para diseñar y crear un sistema de supervisión
Se aplica a esta recomendación de la lista de verificación de Excelencia Operacional Bien Diseñada: Power Platform
OE:06 | Diseñe y ponga en marcha un sistema de supervisión para validar las opciones de diseño y fundamentar las futuras decisiones de diseño y empresariales. Este sistema captura y expone la telemetría, las métricas y los registros operativos que se emiten desde la carga de trabajo. |
---|
Esta guía describe las recomendaciones para diseñar y crear un sistema de supervisión. Para supervisar de manera efectiva su carga de trabajo en términos de seguridad, rendimiento y fiabilidad, necesita un sistema integral con su propia pila que proporcione la base para todas las funciones de supervisión, detección y alertas.
Definiciones
Término | Definición |
---|---|
Registros | Eventos registrados del sistema. Los registros pueden contener diferentes tipos de datos en un formato de texto estructurado o libre. Contienen una marca de tiempo. |
Métrica | Valores numéricos que se recogen a intervalos regulares. Las métricas describen algunos aspectos de un sistema en un momento particular. |
Estrategias clave de diseño
Para implementar un diseño de sistema de supervisión integral para su carga de trabajo, siga estos principios básicos:
Siempre que sea posible, aproveche las herramientas de monitoreo proporcionadas por la plataforma, que generalmente requieren poca configuración y pueden brindar información detallada sobre su carga de trabajo que de otro modo podría ser difícil de obtener.
Recopile registros y métricas de toda la pila de la carga de trabajo. Todos los componentes y recursos con poco código y code-first deben configurarse para producir datos estandarizados y significativos, y esos datos deben recopilarse.
Almacene los datos recopilados en una solución de almacenamiento estandarizada, fiable y segura.
Procese los datos almacenados para que puedan ser gestionados por soluciones de análisis y visualización.
Analice los datos procesados para determinar con precisión el estado de la carga de trabajo.
Visualice el estado de la carga de trabajo en paneles o informes significativos para los equipos de carga de trabajo y otras partes interesadas.
Configure alertas procesables y otras respuestas automáticas a umbrales definidos de forma inteligente para notificar a los equipos de la carga de trabajo cuando surjan problemas.
Incluya sistemas de supervisión y alerta en sus prácticas generales de prueba de la carga de trabajo.
Asegúrese de que los sistemas de supervisión y alerta estén dentro del ámbito de mejora continua. El comportamiento de la aplicación y la configuración en producción proporciona oportunidades de aprendizaje continuo. Incorpore esas lecciones en los diseños de supervisión y alertas.
Vincule los datos de monitoreo que recopila y analiza con su sistema y los flujos de usuarios para correlacionar el estado de los flujos con los datos, así como el estado general de la carga de trabajo. ... Analizar esos datos en términos de flujos ayuda a alinear a diseñar su estrategia de observabilidad con su modelo de salud .
Minimice el almacenamiento de cualquier información identificable para garantizar el cumplimiento de las leyes y los reglamentos. Si necesita almacenar información identificable, asegúrese de que al diseñar su solución tenga en cuenta los requisitos que permiten a las personas solicitar que se elimine su información.
Nunca registre contraseñas de usuarios u otra información que pueda usarse para cometer fraude de identidad. Elimine estos detalles de los datos antes de almacenarlos. Los requisitos reglamentarios pueden dictar que la información recopilada para auditoría y seguridad debe archivarse y guardarse. Estos datos también son confidenciales y es posible que sea necesario cifrarlos o protegerlos de otro modo para evitar su manipulación.
Debe automatizar todas las funciones del sistema de supervisión tanto como sea posible y todas deben funcionar continuamente, todo el día, todos los días.
Este flujo de trabajo ilustra el sistema de supervisión:
Colección
Debe configurar todos los componentes de la carga de trabajo, ya sean componentes con poco código o code-first o configuraciones de la plataforma como entornos y políticas, para capturar telemetría y eventos como registros y métricas.
Los registros son principalmente útiles para detectar e investigar anomalías. Normalmente, los registros son producidos por el componente de carga de trabajo y luego enviados a la plataforma de monitoreo o extraídos por la plataforma de monitoreo con automatización.
Las métricas son principalmente útiles para crear un modelo de estado e identificar tendencias en el rendimiento y la fiabilidad de la carga de trabajo. Las métricas también son útiles para identificar tendencias en el comportamiento de uso de sus usuarios. Estas tendencias pueden ayudar a guiar las decisiones sobre mejoras desde la perspectiva del cliente. Normalmente, las métricas se definen en la plataforma de supervisión, y la plataforma de supervisión y otras herramientas sondean la carga de trabajo para capturar métricas.
Datos de la carga de trabajo
Utilice la integración lista para usar con para recopilar datos. Application Insights Una vez que Application Insights esté habilitado, podrá obtener una visibilidad clara de los eventos importantes, tanto en tiempo real como históricamente.
Los registros de aplicaciones respaldan el ciclo de vida de la aplicación de un extremo a otro. El registro es esencial para comprender cómo opera la aplicación en diversos entornos, qué eventos ocurren y las condiciones bajo las cuales ocurren.
Le recomendamos que recopile registros de aplicaciones y eventos en todos los entornos principales. Separe los datos entre entornos tanto como sea posible mediante el uso de diferentes almacenes de datos para cada entorno, si es práctico. Utilice filtros para garantizar que los entornos no críticos no compliquen la interpretación de los registros de producción. Finalmente, las entradas de registro correspondientes en la aplicación deben capturar un Id. de correlación para sus respectivas transacciones.
Datos de infraestructura y configuración
Para los recursos de infraestructura en su carga de trabajo, asegúrese de recopilar registros y métricas. Debido a que Power Platform es una oferta de plataforma como servicio (PaaS), es posible que su capacidad para capturar registros relacionados con la infraestructura subyacente sea limitada. Sin embargo, puede capturar registros y análisis sobre cambios de configuración y directivas relacionados con el estado de la carga de trabajo y los incidentes.
En la medida de lo posible, recopile registros de su plataforma en la nube. Es posible que pueda recopilar registros de actividad para su suscripción y registros de diagnóstico para el plano de gestión.
Consideraciones de rendimiento
Una aplicación compleja y altamente escalable podría generar enormes volúmenes de datos. La cantidad de datos puede causar problemas de rendimiento dependiendo del grado de detalle del seguimiento en el nivel de la aplicación. La solución de telemetría no debe actuar como un cuello de botella y debe ser escalable a medida que el sistema se expande.
Análisis
Después de recopilar datos de diversas fuentes, analícelos para evaluar el bienestar general del sistema. Para este análisis, deberá tener una comprensión clara de:
- Cómo estructurar datos en función de indicadores clave de rendimiento (KPI) y otras métricas de rendimiento que usted haya definido.
- Cómo correlacionar los datos capturados en diferentes métricas y archivos de registro. Esta correlación es importante cuando realiza un seguimiento de una secuencia de eventos y puede ayudarle a diagnosticar problemas.
En la mayoría de los casos, su carga de trabajo tendrá diferentes componentes y los registros o eventos se capturarán en diferentes formatos o tablas. Deberá combinar los datos con precisión para comprender el estado general de la carga de trabajo.
Por ejemplo, su solución podría constar de los siguientes componentes: Power Platform
- Una aplicación de lienzo que permite a los usuarios interactuar con los datos.
- Una aplicación basada en modelos que permite a los administradores configurar ajustes para la aplicación.
- Un flujo de nube que realiza operaciones de datos
- Una instancia que almacena datos asociados con la operación Dataverse
- Una función de Azure que recupera datos del almacenamiento de tablas de Azure y se llama desde la aplicación
Los datos de uso para una única operación empresarial pueden abarcar todos los componentes de la carga de trabajo. Esta información debe correlacionarse para proporcionar una visión general del uso de recursos y procesamiento para la operación.
Recomendaciones para el análisis de datos
Correlacione los registros en el nivel de aplicación y en el nivel de recursos. Evaluar datos en ambos niveles para optimizar la detección y solución de problemas.
Defina tiempos de retención claros en almacenamiento para análisis en frío. Recomendamos esta práctica para permitir el análisis histórico durante un período específico. También puede ayudarle a controlar los costes de almacenamiento. Implemente procesos que garanticen que los datos se archiven en un almacenamiento más económico y agregue datos para el análisis de tendencias a largo plazo.
Analice tendencias a largo plazo para predecir problemas operativos. Evalúe datos a largo plazo para conformar estrategias operativas y también para predecir qué problemas operativos es probable que ocurran y cuándo. Por ejemplo, puede observar que los tiempos de respuesta medios aumentan lentamente con el tiempo y se acercan al objetivo máximo.
Visualización
La visualización en la supervisión del estado es fundamental para comprender el estado de la carga de trabajo. La visualización puede ayudarle a identificar rápidamente problemas y tendencias, y también puede ayudarle a comprender el efecto de los cambios que realiza en la carga de trabajo.
Paneles
La forma más común de visualizar datos es utilizar paneles que pueden mostrar información en forma de gráficos o cuadros. Estos elementos se pueden parametrizar y un analista puede seleccionar los parámetros importantes, como el período de tiempo, para cualquier situación específica.
Alinee sus paneles con su modelo de estado para que indiquen cuándo la carga de trabajo o los componentes de la carga de trabajo están en buen estado, degradados o en mal estado.
Para que un sistema de panel funcione de manera efectiva, debe ser significativo para el equipo de carga de trabajo. Visualice información relacionada con el estado de la carga de trabajo y que también sea procesable. Cuando la carga de trabajo o un componente está degradado o en mal estado, los miembros del equipo de carga de trabajo deben poder identificar fácilmente en qué parte de la carga de trabajo se origina el problema y comenzar sus acciones correctivas o investigaciones. Por el contrario, incluir información que no sea procesable o que no esté relacionada con el estado de la carga de trabajo puede hacer que el panel sea innecesariamente complejo y frustrante para los miembros del equipo que intentan discernir el ruido de fondo de los datos procesables.
Es posible que tenga paneles para partes interesadas o desarrolladores que estén personalizados para mostrar solo datos sobre la carga de trabajo que consideren relevantes. Asegúrese de que el equipo de carga de trabajo comprenda los tipos de puntos de datos que otros equipos están interesados en ver y de que obtenga una vista previa de los paneles antes de compartirlos para comprobar si son claros. Proporcionar paneles sobre su carga de trabajo a las partes interesadas es una buena forma de mantenerlas informadas sobre el estado de la carga de trabajo, pero conlleva el riesgo de ser contraproducente si las partes interesadas no comprenden claramente los datos.
Restrinja el acceso al panel al personal autorizado. La información de los paneles puede ser confidencial. También debe proteger los datos subyacentes para evitar que los usuarios los modifiquen.
Denunciando
Los informes se utilizan para generar una visión general del sistema. Podrían incorporar datos históricos e información actual. Los requisitos de presentación de informes se dividen en dos categorías amplias: informes operativos e informes de seguridad.
Los informes operativos normalmente incluyen:
- Agregar estadísticas que puede utilizar para comprender la utilización de recursos del sistema general o de subsistemas específicos durante un período de tiempo específico.
- Identificar tendencias en el uso de recursos para el sistema general o subsistemas específicos durante un período específico.
- Supervisar excepciones que han ocurrido en todo el sistema o en subsistemas específicos durante un período específico.
- Determinar la eficiencia de la aplicación para los recursos implementados y comprender si el volumen de recursos y sus costos asociados se pueden reducir sin afectar el rendimiento innecesariamente.
Los informes de seguridad realizan un seguimiento del uso del sistema por parte del cliente. Puede incluir:
- Auditar operaciones de los usuarios. Esta tarea requiere registrar las solicitudes individuales que completa cada usuario, junto con fechas y horas. Los datos deben estructurarse para permitir que un administrador reconstruya rápidamente la secuencia de operaciones que un usuario completa durante un período específico.
- Seguimiento del uso de recursos por usuario. Este tarea requiere registrar cómo cada solicitud de un usuario accede a los distintos recursos del sistema y durante cuánto tiempo. Un administrador puede utilizar estos datos para generar un informe de utilización, por usuario, durante un período específico, posiblemente para facturación.
Alertas
Para ayudar a garantizar que el sistema se mantenga en buen estado, receptivo y seguro, configure alertas para que los operadores puedan responder a ellas de manera oportuna. Una alerta puede contener suficiente información contextual para ayudarlos a comenzar rápidamente con las actividades de diagnóstico.
Recomendaciones sobre alertas
- Defina un proceso de respuesta a alertas que identifique a los propietarios y las acciones responsables.
- Configure alertas para un ámbito bien definido y ajuste la detalle para minimizar el ruido.
- Utilice una solución de alertas automatizadas, como Splunk o Azure Monitor, en lugar de pedir a las personas que busquen problemas activamente.
- Utilice alertas para poner en marcha procesos de remediación. Por ejemplo, cree tickets automáticamente para realizar un seguimiento de los problemas y sus resoluciones.
Umbrales
Las alertas se generan cuando se cruzan los umbrales, según lo detecta su sistema de supervisión. Asegúrese de que los umbrales que establezca le brinden tiempo suficiente para implementar los cambios necesarios en su carga de trabajo para evitar degradación o interrupciones. También debe implementar la gestión necesaria de errores y detectar errores conocidos en su carga de trabajo para reducir la cantidad de alertas. Por ejemplo, configure políticas de reintento para sus acciones en flujos de nube de modo que se intente un reintento como parte de la ejecución del flujo y solo si los reintentos repetidos fallan y la falla del flujo se registra y se envía una alerta. Obtenga más información en Recomendaciones para diseñar una estrategia confiable de monitoreo y alerta.
Facilitación de Power Platform
Power Platform se integra con Application Insights, que es parte del ecosistema de Azure Monitor. Use esta integración para:
Recibir telemetría sobre los diagnósticos y el rendimiento capturados por la plataforma Dataverse en Application Insights. Puede suscribirse para recibir telemetría sobre las operaciones que realizan las aplicaciones en su base de datos de Dataverse y dentro de las aplicaciones basadas en modelo. Esta telemetría proporciona información que puede utilizar para diagnosticar y solucionar problemas relacionados con errores y rendimiento.
Conectar tus aplicaciones de lienzo a Application Insights. Puede utilizar estos análisis para diagnosticar problemas y comprender qué hacen los usuarios con sus aplicaciones. Puede recopilar información para ayudarlo a tomar mejores decisiones comerciales y mejorar la calidad de sus aplicaciones.
Configurar la Power Automate telemetría para que fluya hacia Application Insights. Por ejemplo, puede supervisar las ejecuciones de flujo de nube y crear alertas para fallas de ejecución de Cloud-Flow.
Captura datos de telemetría de tu Microsoft Copilot Studio copiloto para usar en Azure Application Insights. Puede utilizar esta telemetría para monitorear los mensajes y eventos registrados enviados hacia y desde su copiloto, los temas que se activarán durante las conversaciones de los usuarios y los eventos de telemetría personalizados que se pueden enviar desde sus temas.
Power Platform actividades del registro de recursos en el Microsoft portal de cumplimiento de Purview. La mayoría de los eventos están disponibles dentro de las 24 horas posteriores a la actividad. No utilice esta información para supervisión en tiempo real. Para obtener más información sobre actividades de registro en Power Platform, consulte:
- Power Apps
- Power Automate
- Copilot Studio
- Power Pages
- Power Platform Conectores
- Datos prevención de pérdidas
- Power Platform registros administrativos
- Dataverse revisión de cuentas
Su carga de trabajo podría incluir recursos de Azure. Power Platform Obtenga más información en Recomendaciones para el diseño y creación de un sistema de monitoreo.
El Kit de inicio de CoE de Power Platform es una implementación de referencia que contiene una colección de componentes y herramientas diseñados para ayudarle a empezar a desarrollar una estrategia de adopción y soporte de Power Platform. El kit de inicio de CoE incluye un amplio conjunto de paneles de control. Obtenga más información en Obtenga información detallada sobre su Microsoft Power Platform adopción con el panel CoE Power BI .
El Kit de Automatización de Power Platform es un conjunto de herramientas que acelera el uso y soporte de Power Automate para escritorio para proyectos de automatización. El kit proporciona herramientas que lo ayudan a administrar proyectos de automatización y monitorearlos para estimar el dinero ahorrado y el retorno de la inversión (ROI). Parte del Kit de Automatización es el centro de control, que complementa la función de Monitoreo de ejecuciones flujo de escritorio. El enfoque clave del centro de control es una vista de orquestador para que los analistas y las organizaciones de soporte monitoreen, tomen medidas y alerten cuando sea necesario.
Información relacionada
- Recomendaciones para diseñar una estrategia confiable de monitoreo y alerta
- Recomendaciones para el monitoreo y detección de amenazas