Compartilhar via


Práticas recomendadas de confiabilidade no Azure Monitor

Na nuvem, reconhecemos antecipadamente que as falhas ocorrerão. Em vez de tentar evitar completamente a falha, a meta é minimizar os efeitos de uma falha em um componente individual. Use as informações a seguir para monitorar as máquinas virtuais e as cargas de trabalho do cliente em busca de falhas.

Este artigo descreve a Confiabilidade do Azure Monitor como parte do Azure Well-Architected Framework. A Estrutura Bem Projetada do Azure é um conjunto de princípios de orientação que podem ser usados para aprimorar a qualidade de uma carga de trabalho. A estrutura consiste em cinco pilares de excelência em arquitetura:

  • Confiabilidade
  • Segurança
  • Otimização de custos
  • Excelência operacional
  • Eficiência de desempenho

Logs do Azure Monitor

Os Workspaces do Log Analytics oferecem um alto grau de confiabilidade. O pipeline de ingestão, que envia dados coletados para o workspace do Log Analytics, valida que o workspace do Log Analytics processa com sucesso cada registro de log antes de remover o registro do pipe. Se o pipeline de ingestão não estiver disponível, os agentes que enviam o buffer de dados e tentarão enviar novamente os logs por muitas horas.

Recursos de Logs do Azure Monitor que aprimoram a resiliência

Os Logs do Azure Monitor oferecem vários recursos que aprimoram a resiliência de workspaces em relação a vários tipos de problemas. Você pode usar esses recursos individualmente ou em combinação, dependendo das suas necessidades.

Esse vídeo oferece uma visão geral das opções de confiabilidade e resiliência disponíveis para workspaces do Log Analytics:

Proteção na região usando zonas de disponibilidade

Cada região do Azure que dá suporte a zonas de disponibilidade tem um conjunto de datacenters equipados com potência, resfriamento e infraestrutura de rede independentes.

As Zonas de Disponibilidade dos Logs do Azure Monitor são redundantes, o que significa que a Microsoft espalha solicitações de serviço e replica dados em diferentes zonas em regiões com suporte. Se um incidente afetar uma zona, a Microsoft usará automaticamente uma zona de disponibilidade diferente na região. Você não precisa realizar nenhuma ação, pois a troca entre zonas ocorre de forma contínua.

Na maioria das regiões, as zonas de disponibilidade dos Logs do Azure Monitor dão suporte à resiliência de dados, o que significa que os seus dados armazenados estão protegidos contra perda de dados relacionada a falhas zonais, mas as operações de serviço ainda podem ser afetadas por incidentes regionais. Se o serviço não puder executar consultas, você não poderá exibir os logs até que o problema seja resolvido.

Um subconjunto das zonas de disponibilidade que dão suporte à resiliência de dados também dá suporte à resiliência do serviço, o que significa que as operações de serviço de Logs do Azure Monitor – por exemplo, ingestão de log, consultas e alertas – podem continuar em caso de falha de zona.

As zonas de disponibilidade protegem contra incidentes relacionados à infraestrutura, como falhas de armazenamento. Elas não protegem contra problemas no nível do aplicativo, como implantações de código com falha ou falhas de certificado, que afetam toda a região.

Backup de dados de tabelas específicas usando exportação contínua

Você pode exportar continuamente os dados enviados para tabelas específicas em seu workspace do Log Analytics para contas de armazenamento do Azure.

A conta de armazenamento para a qual você exporta dados deve estar na mesma região que o seu workspace do Log Analytics. Para proteger e ter acesso aos logs ingeridos, mesmo que a região do workspace esteja inativa, use uma conta de armazenamento com redundância geográfica, conforme explicado nas Recomendações de configuração.

O mecanismo de exportação não fornece proteção contra incidentes que afetam o pipeline de ingestão ou o próprio processo de exportação.

Observação

Você pode acessar dados em uma conta de armazenamento dos Logs do Azure Monitor usando o operador externaldata. No entanto, os dados exportados são armazenados em blobs de cinco minutos e a análise de dados abrangendo vários blobs pode ser complicada. Portanto, exportar dados para uma conta de armazenamento é um bom mecanismo de backup de dados, mas ter os dados de backup em uma conta de armazenamento não é ideal se você precisar deles para análise nos Logs do Azure Monitor. Você pode consultar grandes volumes de dados de blob usando o Azure Data Explorer, o Azure Data Factory ou qualquer outra ferramenta de acesso ao armazenamento.

Proteção entre dados regionais e resiliência de serviço usando replicação de workspace (versão prévia)

A replicação de workspace (versão prévia) é a solução de resiliência mais extensa, pois replica o workspace do Log Analytics e os logs de entrada para outra região.

A replicação do workspace protege os logs e as operações de serviço e permite que você continue monitorando seus sistemas em caso de incidentes em toda a região relacionados à infraestrutura ou ao aplicativo.

Em contraste com as zonas de disponibilidade, que a Microsoft gerencia de ponta a ponta, você precisa monitorar a integridade do workspace primário e decidir quando alternar para o workspace na região secundária e voltar.

Lista de verificação de projeto

  • Para garantir a resiliência de serviço e dados a incidentes em toda a região, habilite a replicação do workspace.
  • Para garantir a proteção na região contra falha do datacenter, crie o seu workspace em uma região que dê suporte a zonas de disponibilidade.
  • Para backup entre regiões de dados em tabelas específicas, use o recurso de exportação contínua para enviar dados para uma conta de armazenamento replicada geograficamente.
  • Monitorar a integridade de workspaces do Log Analytics.

Recomendações de configuração

Recomendação Benefício
Para garantir o maior grau de resiliência, habilite a replicação de workspace. Resiliência entre regiões para operações de serviço e dados de workspace.

A replicação de workspace (versão prévia) garante alta disponibilidade criando uma instância secundária do workspace em outra região e ingerindo seus logs em ambos os workspaces.

Quando necessário, alterne para o workspace secundário até que os problemas que afetam o seu workspace primário sejam resolvidos. Você pode continuar ingerindo logs, consultando dados e usando painéis, alertas e o Sentinel em seu workspace secundário. Você também tem acesso aos logs ingeridos antes da opção de região.

Este é um recurso pago, portanto, considere se você deseja replicar todos os logs de entrada ou apenas alguns fluxos de dados.
Se possível, crie o seu workspace em uma região que dê suporte à resiliência de serviço do Azure Monitor. Resiliência na região de operações de serviço e dados de workspace em caso de problemas de datacenter.

As Zonas de Disponibilidade que dão suporte à resiliência do serviço também dão suporte à resiliência de dados. Isso significa que, mesmo que um datacenter inteiro fique indisponível, a redundância entre zonas permite que as operações de serviço do Azure Monitor, como ingestão e consulta, continuem funcionando e os logs ingeridos permaneçam disponíveis.

As Zonas de Disponibilidade fornecem proteção dentro da região, mas não protegem contra problemas que afetam toda a região.

Para obter informações sobre quais regiões dão suporte à resiliência de dados, confira Aprimorar a resiliência de dados e serviços nos Logs do Azure Monitor com zonas de disponibilidade.
Crie o seu workspace em uma região que dê suporte à resiliência de dados. Proteção na região contra perda dos logs em seu workspace em caso de problemas de datacenter.

Criar o seu workspace em uma região que dê suporte à resiliência de dados significa que, mesmo que todo o datacenter fique indisponível, os logs ingeridos estarão seguros.
Se o serviço não puder executar consultas, você não poderá exibir os logs até que o problema seja resolvido.

Para obter informações sobre quais regiões dão suporte à resiliência de dados, confira Aprimorar a resiliência de dados e serviços nos Logs do Azure Monitor com zonas de disponibilidade.
Configure a exportação de dados de tabelas específicas para uma conta de armazenamento replicada entre regiões. Mantenha uma cópia de backup dos dados de log em uma região diferente.

O recurso de exportação de dados do Azure Monitor permite exportar continuamente os dados enviados para tabelas específicas para o armazenamento do Azure, onde eles podem ser retidos por longos períodos. Use um armazenamento com redundância geográfica (GRS) ou uma conta de armazenamento com redundância de zona geográfica (GZRS) para manter seus dados seguros mesmo que uma região inteira fique indisponível. Para tornar seus dados legíveis a partir das outras regiões, configure a sua conta de armazenamento para acesso de leitura à região secundária. Para obter mais informações, confira Redundância do Armazenamento do Azure em uma região secundária e Acesso de leitura do Armazenamento do Azure aos dados na região secundária.

Para tabelas que não dão suporte à exportação contínua de dados, você pode usar outros métodos de exportação de dados, incluindo os Aplicativos Lógicos, para proteger seus dados. Essa é principalmente uma solução para atender à conformidade de retenção de dados, uma vez que os dados podem ser difíceis de analisar e restaurar no espaço de trabalho.

A exportação de dados é suscetível a incidentes regionais porque depende da estabilidade do pipeline de ingestão de dados do Azure Monitor na sua região. Ela não fornece resiliência contra incidentes que afetam o pipeline de ingestão regional.
Monitorar a integridade de workspaces do Log Analytics. Use os insights do workspace do Log Analytics para acompanhar consultas com falha e criar um alerta de status da integridade para notificar proativamente se um workspace ficar indisponível devido a uma falha regional ou de datacenter.

Comparar os recursos de resiliência dos Logs do Azure Monitor

Recurso Resiliência do serviço Backup de dados Alta disponibilidade Escopo da proteção Instalação Custo
Replicação do workspace Proteção entre regiões contra incidentes em toda a região Habilite a replicação do workspace e das regras de coleta de dados relacionadas. Alterne entre regiões conforme necessário. Com base no número de GBs replicados e região.
Zonas de disponibilidade
Nas regiões com suporte
Proteção dentro da região contra problemas de datacenter Habilitado automaticamente em regiões com suporte. Sem custo
Exportação contínua de dados Proteção contra perda de dados devido a uma falha regional 1 Habilitar por tabela. Custo da exportação de dados + Blobs de armazenamento ou Hubs de Eventos

1 A exportação de dados fornece proteção entre regiões se você exportar logs para uma conta de armazenamento replicada geograficamente. No caso de um incidente, os dados exportados anteriormente são apoiados e estão prontamente disponíveis; entretanto, a exportação adicional pode falhar, dependendo da natureza do incidente.

Alertas

Os alertas do Azure Monitor fornecem um alto grau de confiabilidade sem nenhuma decisão de design. As condições em que pode ocorrer uma perda temporária de dados de alerta são muitas vezes atenuadas por recursos de outros componentes do Azure Monitor.

Lista de verificação de projeto

  • Configure as regras de alerta de integridade do serviço.
  • Configure as regras de alerta de integridade de recursos.
  • Evite limites de serviço para regras de alerta que produzem notificações em grande escala.

Recomendações de configuração

Recomendação Benefício
Configure as regras de alerta de integridade do serviço. Os alertas de integridade do serviço enviam notificações sobre interrupções, interrupções de serviço, manutenção planejada e avisos de segurança. Confira Criar ou editar uma regra de alerta.
Configure as regras de alerta de integridade de recursos. Os alertas do Resource Health podem notificá-lo quase em tempo real quando esses recursos apresentam uma alteração em seu status de integridade. Confira Criar ou editar uma regra de alerta.
Evite limites de serviço para regras de alerta que produzem notificações em grande escala. Se você tiver regras de alerta que enviariam um grande número de notificações, poderá atingir os limites do serviço usado para enviar notificações por email ou SMS. Configure ações programáticas ou escolha um método ou provedor de notificação alternativo para lidar com as notificações em grande escala. Confira Limites de serviço para notificações.

Máquinas virtuais

Lista de verificação de projeto

  • Crie regras de alerta de disponibilidade para VMs do Azure.
  • Crie uma regra de alerta de pulsação do agente para verificar a integridade.
  • Configure a coleta de dados e os alertas para monitorar a confiabilidade dos fluxos de trabalho do cliente.

Recomendações de configuração

Recomendação Descrição
Crie regras de alerta de disponibilidade para VMs do Azure. Use a métrica de disponibilidade (versão prévia) para acompanhar quando uma VM do Azure está em execução. Embora você possa habilitar rapidamente uma regra de alerta de disponibilidade para uma máquina individual usando os alertas recomendados, uma única regra de alerta direcionada a um grupo de recursos ou assinatura habilita alertas de disponibilidade para todas as VMs nesse escopo para uma determinada região. Isso é mais fácil de gerenciar do que criar uma regra de alerta para cada VM, além de garantir que todas as novas VMs criadas no escopo sejam monitoradas automaticamente. Essa regra de alerta não exige que o agente do Azure Monitor seja instalado na VM, mas não está disponível para VMs fora do Azure.
Crie uma regra de alerta de pulsação do agente para verificar a integridade. O agente do Azure Monitor envia uma pulsação para o workspace do Log Analytics a cada minuto. Use uma regra de alerta de pesquisa de log usando a pulsação do agente para receber um alerta quando um agente parar de enviar pulsações, o que é um indicador de que a VM está inoperante ou o agente não está íntegro e as cargas de trabalho do cliente não estão sendo monitoradas. Essa regra de alerta exige que o agente do Azure Monitor esteja instalado na VM e se aplica tanto a VMs do Azure quanto a VMs que não são do Azure.
Configure a coleta de dados e os alertas para monitorar a confiabilidade dos fluxos de trabalho do cliente. Use as informações em Monitorar máquinas virtuais com o Azure Monitor: Coletar dados para configurar a coleta de eventos do cliente indicando possíveis problemas com as cargas de trabalho do cliente. Use as informações em Monitorar máquinas virtuais com o Azure Monitor: Alertas para criar regras de alertas e ser notificado proativamente sobre possíveis problemas operacionais com as cargas de trabalho do seu cliente.

Contêineres

Lista de verificação de projeto

  • Habilite a extração de métricas do Prometheus para seu cluster.
  • Habilite os Insights de contêiner para coleta de logs e dados de desempenho do seu cluster.
  • Crie configurações de diagnóstico para coletar logs do painel de controle para clusters do AKS.
  • Habilite os alertas recomendados pelo Prometheus.
  • Verifique a disponibilidade do workspace do Log Analytics que dá suporte aos Insights de contêiner.

Recomendações de configuração

Recomendação Benefício
Habilite a extração de métricas do Prometheus para seu cluster. Habilite o Prometheus em seu cluster com o serviço gerenciado do Azure Monitor para Prometheus se você ainda não tiver um ambiente do Prometheus. Use o Espaço Gerenciado do Azure para Grafana para analisar os dados coletados do Prometheus. Consulte Personalizar a extração de métricas do Prometheus no serviço gerenciado do Azure Monitor para o Prometheus para coletar métricas adicionais além da configuração padrão.
Habilite os Insights de contêiner para coleta de logs e dados de desempenho do seu cluster. Os Insights do contêiner coletam logs stdout/stderr, métricas de desempenho e eventos do Kubernetes de cada nó do seu cluster. Ele fornece painéis e relatórios para analisar esses dados, incluindo a disponibilidade de seus nós e outros componentes. Use o Log Analytics para identificar quaisquer erros de disponibilidade nos logs coletados.
Crie configurações de diagnóstico para coletar logs do painel de controle para clusters do AKS. O AKS implementa os logs do painel de controle como logs de recursos no Azure Monitor. Crie uma configuração de diagnóstico para enviar esses logs ao workspace do Log Analytics para que você possa usar as consultas de log para identificar erros e problemas que afetam a disponibilidade.
Habilite os alertas recomendados pelo Prometheus. Os alertas no Azure Monitor notificam você proativamente quando problemas são detectados. Comece com um conjunto de regras de alerta recomendadas pelo Prometheus que detectam os problemas mais comuns de disponibilidade e desempenho do seu cluster. Potencialmente, adicione alertas de pesquisa de logs usando os dados coletados pelos Insights do contêiner.
Verifique a disponibilidade do workspace do Log Analytics que dá suporte aos Insights de contêiner. Os Insights do contêiner dependem de um workspace do Log Analytics. Consulte As melhores práticas para logs do Azure Monitor para obter recomendações para garantir a confiabilidade do workspace.

Próxima etapa