Recomendaciones para diseñar y crear un sistema de supervisión
Se aplica a esta recomendación de lista de comprobación de excelencia operativa de buena arquitectura de Power Platform:
OE:06 | Diseñe y ponga en marcha un sistema de supervisión para validar las opciones de diseño y fundamentar las futuras decisiones de diseño y empresariales. Este sistema captura y expone la telemetría operativa, las métricas y los registros que se emiten desde la carga de trabajo. |
---|
Esta guía describe las recomendaciones para diseñar y crear un sistema de supervisión. Para supervisar de manera efectiva su carga de trabajo en términos de seguridad, rendimiento y fiabilidad, necesita un sistema integral con su propia pila que proporcione la base para todas las funciones de supervisión, detección y alertas.
Definiciones
Término | Definición |
---|---|
Registros | Eventos registrados del sistema. Los registros pueden contener diferentes tipos de datos en un formato de texto estructurado o libre. Contienen una marca de tiempo. |
Métrica | Valores numéricos que se recogen a intervalos regulares. Las métricas describen algunos aspectos de un sistema en un momento particular. |
Estrategias clave de diseño
Para implementar un diseño de sistema de supervisión integral para su carga de trabajo, siga estos principios básicos:
Siempre que sea práctico, aproveche las herramientas de supervisión proporcionadas por la plataforma, que normalmente requieren poca configuración y pueden proporcionar información detallada sobre la carga de trabajo que, de otro modo, sería difícil de obtener.
Recopile registros y métricas de toda la pila de la carga de trabajo. Todos los componentes y recursos con poco código y de código primero deben configurarse para producir datos estandarizados y significativos, y esos datos deben recopilarse.
Almacene los datos recopilados en una solución de almacenamiento estandarizada, fiable y segura.
Procese los datos almacenados para que puedan ser gestionados por soluciones de análisis y visualización.
Analice los datos procesados para determinar con precisión el estado de la carga de trabajo.
Visualice el estado de la carga de trabajo en paneles o informes significativos para los equipos de carga de trabajo y otras partes interesadas.
Configure alertas procesables y otras respuestas automáticas a umbrales definidos de forma inteligente para notificar a los equipos de la carga de trabajo cuando surjan problemas.
Incluya sistemas de supervisión y alerta en sus prácticas generales de prueba de la carga de trabajo.
Asegúrese de que los sistemas de supervisión y alerta estén dentro del ámbito de mejora continua. El comportamiento de la aplicación y la configuración en producción proporciona oportunidades de aprendizaje continuo. Incorpore esas lecciones en los diseños de supervisión y alertas.
Vincule a su sistema y a los flujos de usuarios los datos de supervisión que recopila y analiza para correlacionar el estado de los flujos con los datos, así como el estado general de la carga de trabajo. El análisis de esos datos en términos de flujos ayuda a alinear su estrategia de observabilidad con su modelo de salud.
Minimice el almacenamiento de cualquier información identificable para garantizar el cumplimiento de las leyes y los reglamentos. Si necesita almacenar información identificable, asegúrese de que, cuando diseñe su solución, tenga en cuenta los requisitos que permiten a las personas solicitar que se elimine su información.
Nunca registre contraseñas de usuarios u otra información que pueda usarse para cometer fraude de identidad. Elimine estos detalles de los datos antes de almacenarlos. Los requisitos reglamentarios pueden dictar que la información recopilada para auditoría y seguridad debe archivarse y guardarse. Estos datos también son confidenciales y es posible que sea necesario cifrarlos o protegerlos de otro modo para evitar su manipulación.
Debe automatizar todas las funciones del sistema de supervisión tanto como sea posible y todas deben funcionar continuamente, todo el día, todos los días.
Este flujo de trabajo ilustra el sistema de supervisión:
Colección
Debe configurar todos los componentes de la carga de trabajo, ya sean componentes de poco código o de código primero, o la configuración de la plataforma, como entornos y directivas, para capturar la telemetría y eventos como registros y métricas.
Los registros son principalmente útiles para detectar e investigar anomalías. Normalmente, los registros son producidos por el componente de carga de trabajo y, a continuación, enviados a la plataforma de supervisión o extraídos por la plataforma de supervisión con automatización.
Las métricas son principalmente útiles para crear un modelo de estado e identificar tendencias en el rendimiento y la fiabilidad de la carga de trabajo. Las métricas también son útiles para identificar tendencias en el comportamiento de uso de sus usuarios. Estas tendencias pueden ayudar a guiar las decisiones sobre mejoras desde la perspectiva del cliente. Normalmente, las métricas se definen en la plataforma de supervisión, y la plataforma de supervisión y otras herramientas sondean la carga de trabajo para capturar métricas.
Datos de la carga de trabajo
Utilice la integración con Application Insights lista para usar para recopilar datos. Una vez que Application Insights esté habilitado, podrá obtener una visibilidad clara de los eventos importantes, tanto en tiempo real como históricamente.
Los registros de aplicaciones admiten el ciclo de vida de la aplicación de un extremo a otro. El registro es esencial para comprender cómo opera la aplicación en diversos entornos, qué eventos ocurren y las condiciones bajo las cuales ocurren.
Le recomendamos que recopile registros de aplicaciones y eventos en todos los entornos principales. Separe los datos entre entornos tanto como sea posible mediante el uso de diferentes almacenes de datos para cada entorno, si es práctico. Utilice filtros para garantizar que los entornos no críticos no compliquen la interpretación de los registros de producción. Finalmente, las entradas de registro correspondientes en la aplicación deben capturar un Id. de correlación para sus respectivas transacciones.
Datos de infraestructura y configuración
Para los recursos de infraestructura en su carga de trabajo, asegúrese de recopilar registros y métricas. Debido a que Power Platform es una oferta de plataforma como servicio (PaaS), es posible que su capacidad para capturar registros relacionados con la infraestructura subyacente esté limitada. Sin embargo, puede capturar registros y análisis sobre cambios de configuración y directivas relacionados con el estado de la carga de trabajo y los incidentes.
En la medida de lo posible, recopile registros de su plataforma en la nube. Es posible que pueda recopilar registros de actividad para su suscripción y registros de diagnóstico para el plano de gestión.
Consideraciones de rendimiento
Una aplicación compleja y altamente escalable podría generar enormes volúmenes de datos. La cantidad de datos puede causar problemas de rendimiento dependiendo del grado de detalle del seguimiento en el nivel de la aplicación. La solución de telemetría no debe actuar como un cuello de botella y debe ser escalable a medida que el sistema se expande.
Análisis
Después de recopilar datos de varias fuentes, analícelos para evaluar el bienestar general del sistema. Para este análisis, deberá tener una comprensión clara de:
- Cómo estructurar los datos en función de los indicadores clave de rendimiento (ICR) y otras métricas de rendimiento que haya definido.
- Cómo correlacionar los datos capturados en diferentes métricas y archivos de registro. Esta correlación es importante cuando realiza un seguimiento de una secuencia de eventos y puede ayudarle a diagnosticar problemas.
En la mayoría de los casos, su carga de trabajo tendrá diferentes componentes y los registros o eventos se capturarán en diferentes formatos o tablas. Deberá combinar los datos con precisión para comprender el estado general de la carga de trabajo.
Por ejemplo, la solución de Power Platform puede constar de los siguientes componentes:
- Una aplicación de lienzo que permite a los usuarios interactuar con los datos.
- Una aplicación basada en modelos que permite a los administradores configurar ajustes para la aplicación.
- Un flujo de nube que realiza operaciones de datos.
- Una instancia de Dataverse que almacena datos asociados con la operación.
- Una función de Azure que recupera datos de Azure Table Storage y se llama desde la aplicación.
Los datos de uso para una única operación empresarial pueden abarcar todos los componentes de la carga de trabajo. Esta información debe correlacionarse para proporcionar una visión general del uso de recursos y procesamiento para la operación.
Recomendaciones para el análisis de datos
Correlacione los registros en el nivel de aplicación y en el nivel de recursos. Evalúe los datos en ambos niveles para optimizar la detección y la solución de problemas.
Defina tiempos de retención claros en almacenamiento para análisis en frío. Recomendamos esta práctica para permitir el análisis histórico durante un período específico. También puede ayudarle a controlar los costes de almacenamiento. Implemente procesos que garanticen que los datos se archiven en un almacenamiento más económico y agregue datos para el análisis de tendencias a largo plazo.
Analice tendencias a largo plazo para predecir problemas operativos. Evalúe datos a largo plazo para conformar estrategias operativas y también para predecir qué problemas operativos es probable que ocurran y cuándo. Por ejemplo, puede observar que los tiempos de respuesta medios aumentan lentamente con el tiempo y se acercan al objetivo máximo.
Visualización
La visualización en la supervisión del estado es fundamental para comprender el estado de la carga de trabajo. La visualización puede ayudarle a identificar rápidamente problemas y tendencias, y también puede ayudarle a comprender el efecto de los cambios que realiza en la carga de trabajo.
Paneles
La forma más común de visualizar datos es utilizar paneles que puedan mostrar información en forma de gráficos o gráficos. Estos elementos se pueden parametrizar y un analista puede seleccionar los parámetros importantes, como el período de tiempo, para cualquier situación específica.
Alinee sus paneles con su modelo de estado para que indiquen cuándo la carga de trabajo o los componentes de la carga de trabajo están en buen estado, degradados o en mal estado.
Para que un sistema de panel funcione de manera efectiva, debe ser significativo para el equipo de carga de trabajo. Visualice información relacionada con el estado de la carga de trabajo y que también sea procesable. Cuando la carga de trabajo o un componente está degradado o en mal estado, los miembros del equipo de carga de trabajo deben poder identificar fácilmente en qué parte de la carga de trabajo se origina el problema y comenzar sus acciones correctivas o investigaciones. Por el contrario, incluir información que no es procesable o que no está relacionada con el estado de la carga de trabajo puede hacer que el panel sea innecesariamente complejo y frustrante para los miembros del equipo que intentan discernir el ruido de fondo de los datos procesables.
Es posible que tenga paneles para partes interesadas o desarrolladores que estén personalizados para mostrar solo datos sobre la carga de trabajo que consideren relevantes. Asegúrese de que el equipo de carga de trabajo comprenda los tipos de puntos de datos que otros equipos están interesados en ver y de que obtenga una vista previa de los paneles antes de compartirlos para comprobar si son claros. Proporcionar paneles sobre la carga de trabajo a las partes interesadas es una buena manera de mantenerlas informadas sobre el estado de la carga de trabajo, pero conlleva el riesgo de ser contraproducente si las partes interesadas no comprenden claramente los datos.
Restrinja el acceso al panel al personal autorizado. La información de los paneles puede ser confidencial. También debe proteger los datos subyacentes para evitar que los usuarios los modifiquen.
Denunciando
Los informes se utilizan para generar una visión general del sistema. Podrían incorporar datos históricos e información actual. Los requisitos de presentación de informes se dividen en dos categorías amplias: informes operativos e informes de seguridad.
Los informes operativos normalmente incluyen:
- Agregar estadísticas que puede utilizar para comprender la utilización de recursos del sistema general o de subsistemas específicos durante un período de tiempo específico.
- Identificar tendencias en el uso de recursos para el sistema general o subsistemas específicos durante un período específico.
- Supervisar excepciones que han ocurrido en todo el sistema o en subsistemas específicos durante un período específico.
- Determinar la eficiencia de la aplicación para los recursos implementados y comprender si el volumen de recursos, y sus costes asociados, se pueden reducir sin afectar al rendimiento innecesariamente.
Los informes de seguridad realizan un seguimiento del uso del sistema por parte del cliente. Puede incluir:
- Auditar operaciones de los usuarios. Esta tarea requiere registrar las solicitudes individuales que completa cada usuario, junto con fechas y horas. Los datos deben estructurarse para permitir que un administrador reconstruya rápidamente la secuencia de operaciones que un usuario completa durante un período específico.
- Seguimiento del uso de recursos por usuario. Esta tarea requiere registrar cómo cada solicitud de un usuario accede a los distintos recursos del sistema y durante cuánto tiempo. Un administrador puede utilizar estos datos para generar un informe de utilización, por usuario, durante un período específico, posiblemente para facturación.
Alertas
Para ayudar a garantizar que el sistema se mantenga en buen estado, receptivo y seguro, configure alertas para que los operadores puedan responder a ellas de manera oportuna. Una alerta puede contener suficiente información contextual para ayudarlos a comenzar rápidamente con las actividades de diagnóstico.
Recomendaciones sobre alertas
- Defina un proceso de respuesta a alertas que identifique a los propietarios y las acciones responsables.
- Configure alertas para un ámbito bien definido y ajuste la detalle para minimizar el ruido.
- Utilice una solución de alertas automatizadas, como Splunk o Azure Monitor, en lugar de pedir a las personas que busquen problemas activamente.
- Utilice alertas para poner en marcha procesos de remediación. Por ejemplo, cree tickets automáticamente para realizar un seguimiento de los problemas y sus resoluciones.
Umbrales
Las alertas se generan cuando se cruzan los umbrales, según lo detecta su sistema de supervisión. Asegúrese de que los umbrales que establezca le brinden tiempo suficiente para implementar los cambios necesarios en su carga de trabajo para evitar degradación o interrupciones. También debe implementar la gestión necesaria de errores y detectar errores conocidos en su carga de trabajo para reducir la cantidad de alertas. Por ejemplo, configure directivas de reintento para sus acciones en flujos de nube de modo que se realice un nuevo intento como parte de la ejecución del flujo y solo si se produce un error en los reintentos repetidos y se registra un error en el flujo y se envía una alerta. Más información en Recomendaciones para diseñar una estrategia fiable de supervisión y alertas.
Facilitación de Power Platform
Power Platform se integra con Application Insights, que es parte del ecosistema de Azure Monitor. Use esta integración para:
Recibir telemetría sobre los diagnósticos y el rendimiento capturados por la plataforma Dataverse en Application Insights. Puede suscribirse para recibir telemetría sobre las operaciones que realizan las aplicaciones en su base de datos de Dataverse y dentro de las aplicaciones basadas en modelo. Esta telemetría proporciona información que puede utilizar para diagnosticar y solucionar problemas relacionados con errores y rendimiento.
Conecte sus aplicaciones de lienzo a Application Insights. Puede utilizar estos análisis para diagnosticar problemas y comprender qué hacen los usuarios con sus aplicaciones. Puede recopilar información para ayudarlo a tomar mejores decisiones comerciales y mejorar la calidad de sus aplicaciones.
Configurar la telemetría de Power Automatepara flujos en Application Insights. Por ejemplo, puede supervisar las ejecuciones de flujos de nube y crear alertas de errores de ejecución de flujos de nube.
Capture datos de telemetría de su agente Microsoft Copilot Studio para usarlos en Azure Application Insights. Puede usar esta telemetría para supervisar los mensajes registrados y los eventos enviados desde y hacia el agente, los temas que se desencadenarán durante las conversaciones de los usuarios y los eventos de telemetría personalizados que se pueden enviar desde los temas.
Los registros de actividades de recursos Power Platform en el portal de cumplimiento de Microsoft Purview. La mayoría de los eventos están disponibles dentro de las 24 horas posteriores a la actividad. No utilice esta información para supervisión en tiempo real. Para obtener más información sobre actividades de registro en Power Platform, consulte:
- Power Apps
- Power Automate
- Copilot Studio
- Power Pages
- Conectores de Power Platform
- Prevención de pérdida de datos
- Registros administrativos de Power Platform
- Auditoría de Dataverse
La carga de trabajo de Power Platform puede incluir recursos Azure. Más información en Recomendaciones para diseñar y crear un sistema de supervisión.
El Kit de inicio de CoE de Power Platform es una implementación de referencia que contiene una colección de componentes y herramientas diseñados para ayudarle a empezar a desarrollar una estrategia de adopción y soporte de Power Platform. El kit de inicio del CoE incluye un amplio conjunto de paneles. Más información: Obtener información detallada sobre su adopción de Microsoft Power Platform con el panel Power BI CoE
El Kit de Automatización de Power Platform es un conjunto de herramientas que acelera el uso y soporte de Power Automate para escritorio para proyectos de automatización. El kit proporciona herramientas que lo ayudan a administrar proyectos de automatización y monitorearlos para estimar el dinero ahorrado y el retorno de la inversión (ROI). Parte del kit de automatización es el centro de control, que complementa la función supervisar ejecuciones de flujo de escritorio. El enfoque clave del centro de control es una vista de orquestador para que los analistas y las organizaciones de soporte monitoreen, tomen medidas y alerten cuando sea necesario.
Información relacionada
- Recomendaciones para diseñar una estrategia fiable de supervisión y alerta
- Recomendaciones para supervisar y detectar amenazas