Avalie a integridade do cluster AKS
Este artigo faz parte de uma série. Comece com essa visão geral.
Para iniciar sua prática de triagem, avalie a integridade geral do cluster e da rede.
Ferramentas
Há muitas ferramentas e recursos que você pode usar para diagnosticar e resolver problemas em seu cluster do AKS (Serviço de Kubernetes do Azure).
No portal do Azure, selecione o recurso de cluster AKS. Essas ferramentas e recursos estão no painel de navegação.
Diagnosticar e resolver problemas: você pode usar essa ferramenta para ajudar a identificar e resolver problemas em seu cluster.
Integridade do recurso: você pode usar essa ferramenta para ajudar a diagnosticar e obter suporte para problemas de serviço que podem afetar seus recursos do Azure. Essa ferramenta fornece informações sobre o status de integridade atual e passado de seus recursos.
Recomendações do Advisor: o Azure Advisor atua como um consultor de nuvem personalizado, orientando você a seguir as práticas recomendadas para otimizar suas implantações do Azure. Você pode usar o Advisor para analisar a configuração do recurso e a telemetria de uso. O Advisor sugere soluções para que você possa melhorar a relação custo-benefício, o desempenho, a confiabilidade e a segurança.
Logs: use esse recurso para acessar os logs e as métricas de cluster armazenados no espaço de trabalho do Log Analytics. Você pode monitorar e analisar os logs e as métricas do cluster para fornecer informações e melhorar a solução de problemas.
Use essas ferramentas e recursos para que você possa diagnosticar e resolver problemas com eficiência, otimizar sua implantação de cluster AKS e monitorar a integridade e o desempenho de seus recursos do Azure.
Diagnosticar e resolver problemas
O recurso de diagnóstico e solução de problemas fornece um conjunto abrangente de ferramentas para ajudar na identificação e resolução de vários problemas relacionados ao seu cluster. Selecione a categoria de solução de problemas mais relevante para o seu problema.
Para verificar a integridade do cluster, você pode escolher:
- Disponibilidade e desempenho do cluster e do plano de controle: verifique se há algum problema de disponibilidade de serviço ou limitação que afete a integridade do cluster.
- Problemas de conectividade: verifique se há erros com a resolução DNS (Sistema de Nomes de Domínio) do cluster ou se a rota de comunicação de saída tem problemas de conectividade.
Integridade de recursos
Use o recurso de integridade do recurso para identificar e obter suporte para problemas de cluster e problemas de serviço que podem afetar a integridade do cluster. Configure um alerta de recurso para que você possa monitorar facilmente a integridade do cluster. A integridade do recurso fornece um relatório sobre a integridade atual e passada do cluster. Existem quatro estados de integridade:
Disponível: esse status indica que não há eventos detectados que afetem a integridade do cluster. Se o cluster tiver se recuperado do tempo de inatividade não planejado nas últimas 24 horas, uma notificação resolvida recentemente será exibida.
Indisponível: esse status indica que um evento de plataforma ou não plataforma em andamento que afeta a integridade do cluster foi detectado.
Desconhecido: esse status indica que o recurso não recebeu nenhuma informação sobre o recurso por mais de 10 minutos. Esse status geralmente aparece quando uma máquina virtual é desalocada. Esse status não é uma indicação definitiva do estado do recurso, mas ele pode ser um ponto de dados útil para a solução de problemas.
Degradado: esse status indica que há uma perda de desempenho para o cluster, mas o cluster ainda está disponível para uso.
A captura de tela a seguir mostra a visão geral da integridade do recurso.
Para obter mais informações, consulte Visão geral do Azure Resource Health.
Supervisor
O Supervisor fornece recomendações acionáveis para ajudá-lo a otimizar seus clusters AKS para confiabilidade, segurança, excelência operacional e eficiência de desempenho. Você pode usar o Supervisor para melhorar proativamente o desempenho do cluster e evitar possíveis problemas. Selecione uma recomendação para obter informações detalhadas sobre como otimizar seu cluster.
A captura de tela a seguir mostra os recursos para a recomendação selecionada.
Para obter mais informações, consulte Visão geral do Supervisor.
Log Analytics
O Log Analytics fornece insights sobre a integridade do cluster. Para acessar o espaço de trabalho do Log Analytics, vá para o cluster AKS e selecione Logs no painel de navegação.
Você pode escolher consultas predefinidas para analisar a integridade do cluster.
Use consultas internas para consultar logs e métricas coletadas no espaço de trabalho do Log Analytics. A lista a seguir descreve as funções de algumas das consultas nas categorias de disponibilidade, logs de contêiner e diagnóstico.
Disponibilidade
Consulta Status de preparação por nó: exiba a contagem de todos os nós no cluster pelo status de preparação.
Consulta Listar todas as contagens de pods com fase: exiba a contagem de todos os pods por fase, como falhou, pendente, desconhecido, em execução ou bem-sucedido.
Logs dos contêineres
Consulta Localizar um valor na Tabela de Logs de Contêiner: localize linhas na tabela ContainerLogs em que LogEntry tem um parâmetro de cadeia de caracteres especificado.
Consulta Listar logs de contêiner por namespace: exiba logs de contêiner dos namespaces no cluster.
Diagnóstico
Consulta Logs do dimensionador automático de cluster: consulta de logs do dimensionador automático de cluster. Essa consulta pode fornecer informações sobre por que o cluster aumenta ou diminui inesperadamente.
Consulta Logs do servidor de API do Kubernetes: consulta de logs do servidor de API do Kubernetes.
Consulta Estoque de imagens: liste todas as imagens de contêiner e seu status.
Consulta Leitura de disco do Prometheus por segundo por nó: exiba as métricas de leitura de disco do Prometheus do namespace padrão do Kubernetes como um gráfico de tempo.
Consulta Crescimento médio do uso da CPU de Instâncias desde a semana passada: mostre o crescimento médio da CPU por instância na semana passada, em ordem decrescente.
Colaboradores
Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.
Principais autores:
- Paolo Salvatori | Engenheiro de Clientes Principal
- Francis Simy Nazareth | Especialista Técnico Sênior
Outro colaborador:
- Rong Zhang | Gerente Sênior de Produto
Para ver perfis não públicos do LinkedIn, entre no LinkedIn.