Partilhar via


Recomendações para a conceção de uma estratégia fiável de monitorização e alerta

Aplica-se a esta Power Platform recomendação de lista de verificação de fiabilidade bem arquitetada:

RE:08 Medir e publicar os indicadores de estado de funcionamento da solução. Capture continuamente o tempo de atividade e outros dados de fiabilidade de toda a carga de trabalho e também de componentes individuais e fluxos-chave.

Este guia descreve as recomendações para a conceção de uma estratégia fiável de monitorização e alerta. Implemente esta estratégia para manter as suas equipas de operações informadas sobre o estado de funcionamento do seu ambiente e garantir que cumpre os objetivos de fiabilidade estabelecidos para o seu volume de trabalho.

Definições

Termo Definição
Métricas Valores numéricos que são recolhidos a intervalos regulares. As métricas descrevem alguns aspetos de um sistema num determinado momento.
Registos de recursos Dados que um sistema gera sobre o estado do sistema.
Rastreios Dados que fornecem informações sobre o caminho que um pedido percorre através de serviços e componentes.

Principais estratégias de design

Antes de criar uma estratégia de monitorização e alerta, execute as seguintes tarefas para a sua carga de trabalho como parte do seu planeamento de fiabilidade:

Crie uma estratégia de monitorização e alerta para dar a conhecer às suas equipas de operações para serem notificadas sobre as alterações ao estado da sua carga de trabalho e poderem resolver rapidamente os problemas. O modelo de estado de funcionamento dos fluxos críticos e das cargas de trabalho que incluem fluxos críticos deve definir estados de bom estado de funcionamento, degradados e mau estado de funcionamento. Conceba a sua postura de monitorização para detetar imediatamente alterações nestes estados. Quando os estados de funcionamento mudam de bom estado de funcionamento para degradado ou mau estado de funcionamento, os mecanismos de alerta devem acionar medidas de recuperação automáticas e alertas para as equipas responsáveis.

Implemente as seguintes recomendações para conceber uma estratégia de monitorização e alerta que satisfaça os requisitos da sua empresa.

Orientações gerais

Compreender a diferença entre métricas, registos e rastreios.

Ative o registo para todos os recursos cloud. Utilize a automatização e a governação nas suas implementações para ativar o registo de diagnóstico em todo o seu ambiente.

Encaminhe todos os registos de diagnóstico para um sink de dados centralizado e uma plataforma de análise, como uma área de trabalho do Log Analytics. Se tiver requisitos de soberania de dados regionais, tem de utilizar sinks de dados locais nas regiões que estão sujeitas a esses requisitos.

Compensação: há implicações de custo para armazenar e consultar logs. Observe como a análise e a retenção de registos afetam o seu orçamento e determinam o melhor equilíbrio de utilização para satisfazer os seus requisitos.

Se as suas cargas de trabalho estiverem sujeitas a uma ou mais estruturas de conformidade, alguns dos registos de componentes que tratam informações confidenciais também estão sujeitos a essas estruturas. Envie os logs de componentes relevantes para um sistema de gestão de eventos e informações de segurança (SIEM), como Microsoft o Sentinel.

Crie uma política de retenção de registos que incorpore os requisitos de retenção de longo prazo que as estruturas de conformidade impõem à sua carga de trabalho.

Utilize o registo estruturado para todas as mensagens de registo para otimizar a consulta dos dados de registo.

Configure alertas para serem acionados quando os valores ultrapassam limiares críticos que se correlacionam com uma alteração do estado do modelo de estado de funcionamento, como verde para amarelo ou vermelho. A configuração de limiares é uma prática de melhoria contínua. À medida que a carga de trabalho evolui, os limiares que definir podem mudar.

Considere a utilização de alertas quando os estados melhoram, como de vermelho para amarelo ou de vermelho para verde, para que as equipas de operações possam acompanhar estes eventos para referência futura.

Visualize o estado de funcionamento em tempo real do seu ambiente ao utilizar dashboards personalizados.

Utilize os dados recolhidos durante os incidentes para melhorar continuamente os seus modelos de estado de funcionamento.

Incorpore serviços de alerta e monitorização de plataformas na cloud, incluindo o estado de funcionamento a nível da plataforma.

Incorpore a monitorização e análise avançadas concebidas especificamente que o seu fornecedor de cloud oferece, como as ferramentas de informações do Azure Monitor.

Implemente a monitorização de cópias de segurança e recuperação para capturar:

  • O estado de replicação de dados para assegurar que a sua carga de trabalho alcança a recuperação dentro do objetivo de ponto de recuperação (RPO) alvo.
  • Cópias de segurança e recuperações com e sem êxito.
  • A duração da recuperação para informar o seu planeamento da recuperação após desastre.

Monitore aplicativos e copilots

Registre dados enquanto o aplicativo ou copiloto é executado no ambiente de produção. São necessárias informações suficientes para diagnosticar a causa dos problemas no estado de produção.

Registar eventos nos limites do serviço. Incluir uma ID de correlação que flui através dos limites do serviço. Se uma transação fluir através de vários serviços e um deles falhar, o ID de correlação ajuda-o a monitorizar os pedidos na sua aplicação e a identificar o motivo da falha da transação.

Separe o registro em log do aplicativo e do copiloto da auditoria. Os registos de auditoria são normalmente mantidos para efeitos de conformidade ou de requisitos regulamentares e devem ser completos. Para evitar transações eliminadas, mantenha os registos de auditoria separados dos registos de diagnóstico.

Use o monitoramento de caixa branca para instrumentar o aplicativo ou copiloto com logs semânticos e métricas. Colete métricas e logs no nível do aplicativo e do copiloto, como consumo de memória ou latência de solicitação, do aplicativo ou copiloto para informar um modelo de integridade e detetar e prever problemas.

Utilize a monitorização de caixa negra para medir os serviços da plataforma e a experiência de cliente resultantes. O monitoramento de caixa preta testa o comportamento do aplicativo ou copiloto visível externamente sem conhecimento dos internos do sistema. Esta abordagem é comum para medir indicadores de nível de serviço (SLI) centrados no cliente, objetivos de nível de serviço (SLO) e acordos de nível de serviço (SLA).

Monitorizar dados e armazenamento

Monitorizar as métricas de disponibilidade dos seus contentores de armazenamento. Quando esta métrica desce abaixo dos 100%, indica uma falha nas escritas. Podem ocorrer quedas transitórias na disponibilidade quando o seu fornecedor de cloud gere a carga. Monitorize as tendências de disponibilidade para determinar se existe um problema na sua carga de trabalho. Em alguns casos, uma queda nas métricas de disponibilidade de um contentor de armazenamento indica um estrangulamento na camada de computação que está associada ao contentor de armazenamento.

Existem muitas métricas para monitorizar as bases de dados. No contexto da fiabilidade, as métricas importantes a monitorizar incluem:

  • Duração da consulta
  • Tempos limite
  • Tempos de espera
  • Pressão da memória
  • Bloqueios

Facilitação do Power Platform

O Power Platform integra-se com o Application Insights, que faz parte do ecossistema do Azure Monitor. Pode utilizar esta integração para:

  • Subscrever para receber a telemetria capturada pela plataforma do Dataverse no Application Insights sobre os diagnósticos, o desempenho e as operações que as aplicações executam na sua base de dados do Dataverse e nas aplicações condicionadas por modelo. Esta telemetria fornece informações que pode usar para diagnosticar e resolver problemas relacionados com erros e desempenho.

  • Ligar as suas aplicações de tela ao Application Insights para utilizar estas análises para diagnosticar os problemas, compreender o que os utilizadores realmente fazem com as suas aplicações, impulsionar melhores decisões de negócio e melhorar a qualidade das suas aplicações.

  • Configurar a telemetria do Power Automate para fluir para o Application Insights. Pode utilizar esta telemetria para monitorizar execuções de fluxo de cloud e criar alertas para falhas de execução de fluxo de cloud.

  • Capture dados de telemetria do seu Microsoft Copilot Studio copiloto para uso no Azure Application Insights. Você pode usar essa telemetria para monitorar mensagens registradas e eventos enviados de e para seu copiloto, tópicos a serem acionados durante conversas de utente e eventos de telemetria personalizados que podem ser enviados de seus tópicos.

Power Platform recursos registram atividades no portal de conformidade Purview Microsoft . A maioria dos eventos está disponível nas 24 horas seguintes da atividade. Não utilize estas informações para monitorização em tempo real. Para obter mais informações sobre como registar atividades no Power Platform, consulte:

A sua carga de trabalho do Power Platform pode incluir recursos do Azure. Para saber mais sobre as recomendações de monitorização para recursos do Azure, consulte Recomendações para a conceção e criação de um sistema de controlo.

O Power Platform Kit de Iniciação CoE é uma implementação de referência que contém uma coleção de componentes e ferramentas concebidas para o ajudar a começar a desenvolver uma estratégia para adotar e suportar o Power Platform. O Kit fornece automatização e ferramentas para ajudar as equipas a desenvolverem a monitorização e a automatização necessárias para suportar um CoE.

Como posso verificar o estado de funcionamento do meu serviço online?

Lista de verificação de fiabilidade

Consulte o conjunto completo de recomendações.