Recomendações para a conceção de uma estratégia fiável de monitorização e alerta

Artigo
09/01/2024

Aplica-se a esta recomendação da lista de verificação de Fiabilidade do Azure Well-Architected Framework:

RE:10	Meça e publique os indicadores de saúde da solução. Capture continuamente o tempo de atividade e outros dados de confiabilidade de toda a carga de trabalho e também de componentes individuais e fluxos-chave.

Este guia descreve as recomendações para projetar uma estratégia confiável de monitoramento e alerta. Implemente essa estratégia para manter suas equipes de operações informadas sobre o status de integridade do ambiente e garantir que você atinja as metas de confiabilidade estabelecidas para sua carga de trabalho.

Definições

Termo	Definição
Métricas	Valores numéricos que são recolhidos a intervalos regulares. As métricas descrevem alguns aspetos de um sistema em um determinado momento.
Registos do recurso	Dados que um sistema gera. Fornece informações sobre o estado do sistema.
Rastreios	Dados que fornecem informações sobre o caminho percorrido por uma solicitação através de serviços e componentes.

Principais estratégias de design

Antes de criar uma estratégia de monitoramento e alerta, execute as seguintes tarefas para sua carga de trabalho como parte do planejamento de confiabilidade:

Identificar fluxos críticos e não críticos.
Execute a análise de modo de falha (FMA) para seus fluxos.
Identificar metas de confiabilidade.
Projete para confiabilidade implementando redundância, dimensionamento, autopreservação e autorrecuperação.
Projete uma estratégia de teste robusta.
Modele a integridade de sua carga de trabalho e seus componentes.

Crie uma estratégia de monitoramento e alerta para garantir que sua carga de trabalho opere de forma confiável. Uma estratégia de monitoramento e alerta fornece conscientização às suas equipes de operações para que elas sejam notificadas sobre alterações na condição da sua carga de trabalho e possam resolver problemas rapidamente. Crie uma estratégia de monitoramento robusta e confiável criando um modelo de integridade para seus fluxos críticos e os componentes que esses fluxos críticos compõem. O modelo de saúde define estados saudáveis, degradados e insalubres. Projete sua postura operacional para detetar imediatamente mudanças nesses estados. Quando os estados de saúde mudam de saudáveis para degradados ou insalubres, os mecanismos de alerta acionam as medidas corretivas automáticas e notificam as equipes apropriadas.

Implemente as seguintes recomendações para projetar uma estratégia de monitoramento e alerta que atenda aos requisitos do seu negócio.

Implementar uma estratégia global de monitorização

Entenda a diferença entre métricas , logs e rastreamentos.
Habilite o registro em log para todos os recursos da nuvem. Use automação e governança em suas implantações para habilitar o log de diagnóstico em todo o ambiente.
Encaminhe todos os logs de diagnóstico para uma plataforma centralizada de análise e coletor de dados, como um espaço de trabalho do Log Analytics. Se você tiver requisitos de soberania de dados regionais, deverá usar coletores de dados locais nas regiões sujeitas a esses requisitos.

Compensação: há implicações de custo para armazenar e consultar logs. Observe como a análise e a retenção de logs afetam seu orçamento e determine o melhor equilíbrio de utilização para atender às suas necessidades. Para obter mais informações, consulte Práticas recomendadas para otimização de custos.

Se suas cargas de trabalho estiverem sujeitas a uma ou mais estruturas de conformidade, alguns dos logs de componentes que lidam com informações confidenciais também estarão sujeitos a essas estruturas. Envie os logs de componentes relevantes para um sistema de gerenciamento de eventos e informações de segurança (SIEM), como o Microsoft Sentinel.
Crie uma política de retenção de logs que incorpore os requisitos de retenção de longo prazo que as estruturas de conformidade impõem à sua carga de trabalho.
Use o log estruturado para todas as mensagens de log para otimizar a consulta aos dados de log.
Configure alertas para acionar quando os valores ultrapassarem os limites críticos correlacionados a uma alteração de estado do modelo de integridade, como verde para amarelo ou vermelho.

A configuração de limiares é uma prática de melhoria contínua. À medida que sua carga de trabalho evolui, os limites definidos podem mudar. Em alguns casos, os limites dinâmicos são uma boa opção para sua estratégia de monitoramento.
Considere o uso de alertas quando os estados melhorarem, como vermelho para amarelo ou vermelho para verde, para que as equipes de operações possam rastrear esses eventos para referência futura.
Visualize a integridade em tempo real do seu ambiente.
Use os dados coletados durante incidentes para melhorar continuamente seus modelos de integridade e sua estratégia de monitoramento e alerta.
Incorpore serviços de monitoramento e alerta da plataforma de nuvem, incluindo:
- Estado de funcionamento ao nível da plataforma, como o Azure Service Health.
- Estado de funcionamento ao nível dos recursos, como o Azure Resource Health.
Incorpore monitoramento e análise avançados criados especificamente para o que seu provedor de nuvem oferece, como as ferramentas de insight do Azure Monitor.
Implemente o monitoramento de backup e recuperação para capturar:
- O status de replicação de dados para garantir que sua carga de trabalho atinja a recuperação dentro do RPO (Recovery Point Objetive, objetivo de ponto de recuperação) de destino.
- Backups e recuperações bem-sucedidos e com falha.
- A duração da recuperação para informar seu planejamento de recuperação de desastres.

Monitorizar aplicações

Crie testes de integridade ou verifique funções e execute-os regularmente de fora do aplicativo. Certifique-se de testar a partir de vários locais geograficamente próximos de seus clientes.
Registre dados enquanto o aplicativo é executado no ambiente de produção. Você precisa de informações suficientes para diagnosticar a causa dos problemas no estado de produção.
Registar eventos nos limites dos serviços. Incluir um ID de correlação, que flui através dos limites dos serviços. Se uma transação flui através de vários serviços e um deles falhar, a ID de correlação ajuda você a rastrear solicitações em todo o aplicativo e identificar por que a transação falhou.
Utilizar o registo assíncrono. Às vezes, as operações de log síncrono bloqueiam o código do aplicativo, o que faz com que as solicitações façam backup à medida que os logs são gravados. Use o log assíncrono para preservar a disponibilidade durante o log do aplicativo.
Separe o log do aplicativo da auditoria. Os registros de auditoria geralmente são mantidos para conformidade ou requisitos regulatórios e devem ser completos. Para evitar transações descartadas, mantenha os logs de auditoria separados dos logs de diagnóstico.
Use a correlação de telemetria para garantir que você possa mapear transações por meio do aplicativo de ponta a ponta e dos fluxos críticos do sistema. Esse processo é vital para realizar a análise de causa raiz (RCA) para falhas. Colete métricas e logs no nível da plataforma, como porcentagem de CPU, entrada e saída de rede e operações de disco por segundo, do aplicativo para informar um modelo de integridade e detetar e prever problemas. Esta abordagem pode ajudar a distinguir entre falhas transitórias e não transitórias.
Use o monitoramento de caixa branca para instrumentar o aplicativo com logs semânticos e métricas. Colete métricas e logs no nível do aplicativo, como consumo de memória ou latência de solicitação, do aplicativo para informar um modelo de integridade e detetar e prever problemas.
Use o monitoramento de caixa preta para medir os serviços da plataforma e a experiência do cliente resultante. O monitoramento de caixa preta testa o comportamento do aplicativo visível externamente sem conhecimento dos internos do sistema. Essa abordagem é comum para medir indicadores de nível de serviço (SLIs) centrados no cliente, objetivos de nível de serviço (SLOs) e contratos de nível de serviço (SLAs).

Nota

Para obter mais informações sobre monitoramento de aplicativos, consulte Padrão de monitoramento de ponto de extremidade de integridade.

Monitorar dados e armazenamento

Monitore as métricas de disponibilidade de seus contêineres de armazenamento. Quando essa métrica cai abaixo de 100%, indica falhas nas gravações. Quedas transitórias na disponibilidade podem acontecer quando seu provedor de nuvem gerencia a carga. Acompanhe as tendências de disponibilidade para determinar se há um problema com sua carga de trabalho.

Em alguns casos, uma queda nas métricas de disponibilidade de um contêiner de armazenamento indica um gargalo na camada de computação associada ao contêiner de armazenamento.
Há muitas métricas para monitorar bancos de dados. No contexto da fiabilidade, as métricas importantes a monitorizar incluem:
- Duração da consulta
- Tempos limite
- Tempos de espera
- Pressão da memória
- Bloqueios

Facilitação do Azure

O Azure Monitor é uma solução de monitoramento abrangente usada para coletar, analisar e responder a dados de monitoramento de seus ambientes locais e na nuvem.
O Log Analytics é uma ferramenta no portal do Azure usada para editar e executar consultas de log em relação aos dados no espaço de trabalho do Log Analytics.
O Application Insights é uma extensão do Azure Monitor. Ele fornece recursos de monitoramento de desempenho de aplicativos (APM).
As informações do Azure Monitor são ferramentas de análise avançadas que ajudam a monitorar os serviços do Azure, como máquinas virtuais, serviços de aplicativos e contêineres. As informações são criadas com base no Azure Monitor e no Log Analytics.
O Azure Monitor for SAP solutions é um produto de monitoramento nativo do Azure para cenários SAP executados no Azure.
A Política do Azure ajuda a impor padrões organizacionais e a avaliar a conformidade em escala.
O Centro de Continuidade de Negócios do Azure fornece informações sobre seu patrimônio de continuidade de negócios. Ao aplicar as abordagens fornecidas para continuidade de negócios e recuperação de desastres (BCDR), use o Centro de Continuidade de Negócios do Azure para centralizar o gerenciamento da proteção de continuidade de negócios em cargas de trabalho híbridas e do Azure. O Centro de Continuidade de Negócios do Azure identifica os recursos que carecem de proteção adequada (por meio de backup ou recuperação de desastres) e toma ações corretivas. A ferramenta facilita o monitoramento unificado e permite estabelecer a conformidade de governança e auditoria por meio da Política do Azure, tudo convenientemente acessível em um único local.
Para obter várias práticas recomendadas de espaço de trabalho, consulte Criar uma arquitetura de espaço de trabalho do Log Analytics.

Exemplo

Para obter exemplos de soluções de monitoramento do mundo real, consulte Monitoramento de aplicativos Web no Azure e Arquitetura de linha de base para um cluster do Serviço Kubernetes do Azure.

Ligações da comunidade

Os Alertas de Linha de Base do Azure Monitor (AMBA) são um repositório central de definições de alerta que os clientes e parceiros podem utilizar para melhorar a sua experiência de observabilidade através da adoção do Azure Monitor.

Lista de verificação de fiabilidade

Consulte o conjunto completo de recomendações.

Lista de verificação de fiabilidade

Partilhar via

Recomendações para a conceção de uma estratégia fiável de monitorização e alerta

Principais estratégias de design

Implementar uma estratégia global de monitorização

Monitorizar aplicações

Monitorar dados e armazenamento

Facilitação do Azure

Exemplo

Ligações da comunidade

Lista de verificação de fiabilidade

Comentários

Recursos adicionais

Partilhar via

Recomendações para a conceção de uma estratégia fiável de monitorização e alerta

Principais estratégias de design

Implementar uma estratégia global de monitorização

Monitorizar aplicações

Monitorar dados e armazenamento

Facilitação do Azure

Exemplo

Ligações relacionadas

Ligações da comunidade

Lista de verificação de fiabilidade

Comentários

Recursos adicionais