Diagnosticar um incidente usando o Assistente de Métricas
Importante
A partir de 20 de setembro de 2023, não será mais possível criar novos recursos do Assistente de Métricas. O serviço Assistente de Métricas será desativado no dia 1º de outubro de 2026.
O que é um incidente?
Quando houver anomalias detectadas em várias séries temporais dentro de uma métrica em um carimbo de data/hora específico, o Assistente de Métricas agrupará automaticamente as anomalias que compartilham a mesma causa raiz em um incidente. Geralmente, um incidente indica um problema real e o Assistente de Métricas executa a análise sobre ele e fornece automaticamente insights de análise da causa raiz.
Esse procedimento reduz significativamente o esforço que o cliente teria para exibir cada anomalia individual e permite encontrar rapidamente o fator que mais contribui para um problema.
Um alerta gerado pelo Assistente de Métricas pode conter vários incidentes, e cada incidente pode conter várias anomalias capturadas em uma série temporal diferente no mesmo carimbo de data/hora.
Caminhos para diagnosticar um incidente
Diagnosticar a partir de uma notificação de alerta
Se você tiver configurado um gancho do tipo email/Teams e tiver aplicado pelo menos uma configuração de alerta. Em seguida, você receberá notificações contínuas de alerta que escalonam incidentes analisados pelo Assistente de Métricas. Na notificação, há uma lista de incidentes e uma breve descrição. Para cada incidente, há um botão "Diagnosticar" . Selecioná-lo direciona para a página de detalhes do incidente para exibir insights de diagnóstico.
Diagnosticar a partir de um incidente no “Hub de incidentes”
Há um local central no Assistente de Métricas que reúne todos os incidentes que foram capturados, facilitando o acompanhamento de problemas em andamento. Selecionar a guia Hub de incidentes na barra de navegação à esquerda lista todos os incidentes dentro das métricas selecionadas. Na lista de incidentes, selecione uma delas para exibir insights detalhados de diagnóstico.
Diagnosticar a partir de um incidente listado na página de métricas
Dentro da página de detalhes de métricas, há uma guia chamada Incidentes que lista os incidentes mais recentes capturados por essa métrica. A lista pode ser filtrada pela gravidade dos incidentes ou pelo valor de dimensão das métricas.
Selecionar um incidente na lista direciona para a página de detalhes do incidente para exibir insights de diagnóstico.
Fluxo de diagnóstico típico
Depois de ser direcionado para a página de detalhes do incidente, você poderá aproveitar os insights analisados automaticamente pelo Assistente de Métricas para localizar rapidamente a causa raiz de um problema ou usar a ferramenta de análise para continuar avaliando o impacto do problema. Há três seções na página de detalhes do incidente que correspondem a três etapas principais para diagnosticar um incidente.
Etapa 1: cerificar o resumo do incidente atual
A primeira seção lista um resumo do incidente atual, incluindo informações básicas, ações e rastreamentos, e a análise de uma causa raiz.
As informações básicas incluem a "série mais impactada" com um diagrama, "hora de início e término do impacto", "severidade do incidente" e "total de anomalias incluídas". Com essa leitura, você pode obter uma compreensão básica de um problema em andamento e de seu impacto.
Ações e rastreamentos são usados para facilitar a colaboração da equipe em um incidente em andamento. Algumas vezes, pode ser necessário o esforço de membros de equipes diferentes para analisar e resolver o incidente. Qualquer um que tiver permissão para exibir o incidente pode adicionar uma ação ou um evento de rastreamento.
Por exemplo, depois de diagnosticar o incidente e identificar a causa raiz, um engenheiro pode adicionar um item de rastreamento com o tipo "personalizado" e inserir a causa raiz na seção de comentários. Deixe o status como "ativo". Desse modo, outros colegas de equipe podem compartilhar as mesmas informações e saber que há alguém trabalhando na correção. Você também pode adicionar um item "Azure DevOps" para acompanhar o incidente com uma tarefa ou um bug específicos.
A causa raiz analisada é um resultado analisado automaticamente. O Assistente de Métricas analisa todas as anomalias capturadas em séries temporais em uma métrica com valores de dimensão diferentes no mesmo carimbo de data/hora. Em seguida, ele executa a correlação, criando clusters para agrupar anomalias relacionadas, e gera um aviso de causa raiz.
Para métricas com várias dimensões, é um caso comum que várias anomalias sejam detectadas ao mesmo tempo. No entanto, essas anomalias podem compartilhar a mesma causa raiz. Em vez de analisar todas as anomalias uma a uma, a maneira mais eficiente para diagnosticar o incidente atual é aproveitar a causa raiz analisada.
Etapa 2: exibir insights de diagnóstico entre dimensões
Depois de obter informações básicas e insights de análise automática, você pode obter informações mais detalhadas sobre status anormais em outras dimensões dentro da mesma métrica de maneira holística usando a "Árvore de diagnóstico" .
No caso de métricas com várias dimensões, o Assistente de Métricas categoriza a série temporal em uma hierarquia denominada Árvore de diagnóstico. Por exemplo, uma métrica de "receita" é monitorada por duas dimensões: "região" e "categoria". Apesar dos valores concretos de dimensão, é necessário ter um valor de dimensão agregado, como "SUM" . Então, a série temporal de "region" = "SUM" e "category" = "SUM" será categorizada como o nó raiz dentro da árvore. Sempre que houver uma anomalia capturada na dimensão "SUM" , ela poderá ser buscada e analisada para localizar qual valor de dimensão específico contribuiu mais para a anomalia do nó pai. Selecione cada nó para expandir e obter informações detalhadas.
Habilitar um valor de dimensão "agregada" em suas métricas
O Assistente de Métricas oferece suporte à acumulação de dimensões para calcular um valor de dimensão "agregado". A árvore de diagnóstico oferece suporte ao diagnóstico nas agregações "SUM", "AVG", "MAX", "MIN" e "COUNT" . Para habilitar um valor de dimensão "agregado", você pode habilitar a função "Acumular" durante a integração de dados. Verifique se suas métricas são matematicamente computáveis e se a dimensão agregada tem valor de negócios real.
Se não houver valor de dimensão "agregado" em suas métricas
Se não houver valor de dimensão "agregado" em suas métricas e a função "acumular" não estiver habilitada durante a integração de dados. Não haverá nenhum valor de métrica calculado para a dimensão "agregado". Ele aparecerá como um nó cinza na árvore e poderá ser expandido para exibir seus nós filhos.
Legenda da árvore de diagnóstico
Há três tipos de nós na árvore de diagnóstico:
- Nó azul, que corresponde a uma série temporal com valor real de métrica.
- Nó cinza, que corresponde a uma série temporal virtual sem valor de métrica; é um nó lógico.
- Nó vermelho, que corresponde à série temporal mais impactada no incidente atual.
O status anormal de cada nó é descrito pela cor da borda do nó
- A borda vermelha significa que foi capturada uma anomalia na série temporal correspondente ao carimbo de data/hora do incidente.
- Se não houver borda vermelha, isso significa que não foi capturada uma anomalia na série temporal correspondente ao carimbo de data/hora do incidente.
Modo de exibição
Há dois modos de exibição para uma árvore de diagnóstico: mostrar apenas a série de anomalias ou mostrar as proporções principais.
- Mostrar apenas o modo de série de anomalias permite que o cliente se concentre em anomalias atuais que foram capturadas em séries diferentes e diagnostique a causa raiz da série mais impactada.
- Mostrar as principais proporções permite que o cliente verifique o status anormal das principais proporções da série mais impactada. Nesse modo, a árvore mostra tanto as séries com anomalias detectadas quanto as séries sem anomalias. Mas o enfoque é maior nas séries importantes.
Opções de análise
Mostrar a taxa delta
A "taxa delta" é a porcentagem do delta do nó atual em comparação ao delta do nó pai. Esta é a fórmula:
(valor real do nó atual - valor esperado do nó atual)/(valor real do nó pai - valor esperado do nó pai) * 100%
Ela é usada para analisar a contribuição principal do delta do nó pai.
Mostrar proporção de valor
"Proporção de valor" é a porcentagem do valor do nó atual em comparação com o valor do nó pai. Esta é a fórmula:
(valor real do nó atual/valor real do nó pai) * 100%
Ela é usada para avaliar a proporção do nó atual no todo.
Usando a "árvore de diagnóstico", os clientes podem localizar a causa raiz do incidente atual em uma dimensão específica. Esse procedimento reduz significativamente o esforço que o cliente teria para exibir cada anomalia individual ou dinamizar por diferentes dimensões para encontrar a principal contribuição à anomalia.
Etapa 3: exibir insights de diagnóstico entre métricas usando o "Grafo de métricas"
Algumas vezes é difícil analisar um problema verificando o status anormal em uma só métrica, e você precisa correlacionar várias delas. Os clientes podem configurar um Grafo de métricas, que indica as relações entre as métricas. Consulte Como criar um grafo de métricas para começar.
Verificar o status de anomalia na dimensão de causa raiz no "grafo de métricas"
Quando se usa o resultado de diagnóstico entre dimensões acima, a causa raiz é limitada a um valor de dimensão específico. Em seguida, você pode usar o "Grafo de métricas" e filtrar por dimensão da causa raiz analisada para verificar o status de anomalias em outras métricas.
Por exemplo, se houver um incidente capturado em métricas de "receita". A série mais impactada está na região global com "região" = "SUM". Usando o diagnóstico de dimensão cruzada, a causa raiz foi localizada na "região" = "Karachi". Há um grafo de métricas pré-configurado que inclui métricas de "receita", "custo", "DAU (usuários ativos diariamente)”, "PLT (tempo de carregamento de página)" e "CHR (taxa de ocorrência no cache)".
O Assistente de Métricas filtrará automaticamente o grafo de métricas pela dimensão de causa raiz de "região" = "Karachi" e exibirá o status de anomalia de cada métrica. Ao analisar a relação entre métricas e status de anomalias, os clientes podem obter mais informações sobre a causa raiz final.
Anomalias relacionadas automaticamente
Ao aplicar o filtro de dimensão de causa raiz no grafo de métricas, as anomalias em cada métrica no carimbo de data/hora do incidente atual serão relacionadas automaticamente. Essas anomalias devem estar relacionadas à causa raiz identificada no incidente atual.