Diagnosticare un evento imprevisto usando Advisor metriche

Articolo
10/16/2024

Importante

A partire dal 20 settembre 2023 non sarà possibile creare nuove risorse di Advisor metriche. Il servizio Advisor metriche verrà ritirato il 1° ottobre 2026.

Che cos'è un evento imprevisto?

Quando vengono rilevate anomalie in più serie temporali all'interno di una metrica in un determinato timestamp, Advisor metriche raggruppa automaticamente le anomalie che condividono la stessa causa radice in un unico evento imprevisto. Un evento imprevisto indica in genere un problema reale e Advisor metriche esegue analisi di tale problema fornendo informazioni dettagliate automatiche sull'analisi della causa radice.

Ciò consente di eliminare in modo significativo lo sforzo del cliente di visualizzare ogni singola anomalia e di trovare rapidamente il fattore più importante che contribuisce a un problema.

Un avviso generato da Advisor metriche può contenere più eventi imprevisti e ogni evento imprevisto può contenere più anomalie rilevate in serie temporali diverse con lo stesso timestamp.

Percorsi per diagnosticare un evento imprevisto

Diagnosticare da una notifica di avviso

Se è stato configurato un hook di tipo posta elettronica/Teams ed è stata applicata almeno una configurazione degli avvisi. Si riceveranno quindi notifiche di avviso continue che inoltrano gli eventi imprevisti analizzati da Advisor metriche. All'interno della notifica è presente un elenco di eventi imprevisti e una breve descrizione. Per ogni evento imprevisto, è disponibile un pulsante "Diagnosi", selezionando il quale si viene indirizzati alla pagina dei dettagli dell'evento imprevisto per visualizzare le informazioni dettagliate di diagnostica.
Diagnosticare da un evento imprevisto nell'"hub eventi imprevisti"

In Advisor metriche esiste una posizione centrale che raccoglie tutti gli eventi imprevisti rilevati e che rende più facile tenere traccia di qualsiasi problema in corso. Selezionando la scheda Hub eventi imprevisti nella barra di spostamento a sinistra verranno elencati tutti gli eventi imprevisti all'interno delle metriche selezionate. Nell'elenco degli eventi imprevisti selezionarne uno per visualizzare le informazioni dettagliate di diagnostica.
Diagnosticare da un evento imprevisto elencato nella pagina delle metriche

Nella pagina dei dettagli delle metriche è presente una scheda denominata Eventi imprevisti che elenca gli eventi imprevisti più recenti rilevati per questa metrica. L'elenco può essere filtrato in base alla gravità degli eventi imprevisti o al valore della dimensione delle metriche.

Se si seleziona un evento imprevisto nell'elenco, si verrà indirizzati alla pagina dei dettagli dell'evento imprevisto per visualizzare le informazioni dettagliate di diagnostica.

Flusso diagnostico tipico

Dopo essere stati indirizzati alla pagina dei dettagli dell'evento imprevisto, è possibile sfruttare le informazioni dettagliate analizzate automaticamente da Advisor metriche per individuare rapidamente la causa radice di un problema o usare lo strumento di analisi per valutare ulteriormente l'impatto del problema. Nella pagina dei dettagli dell'evento imprevisto sono presenti tre sezioni che corrispondono a tre passaggi principali della diagnosi di un evento imprevisto.

Passaggio 1: Controllare il riepilogo degli eventi imprevisti correnti

La prima sezione elenca un riepilogo dell'evento imprevisto corrente, incluse informazioni di base, azioni e analisi e una causa radice analizzata.

Le informazioni di base includono la "serie più interessata" con un diagramma, "l'ora di inizio e di fine dell'impatto", la "gravità dell'evento imprevisto" e le "anomalie totali incluse". Leggendo queste informazioni, è possibile ottenere una comprensione di base di un problema in corso e del relativo impatto.
Azioni e analisi: queste informazioni vengono usate per facilitare la collaborazione tra team su un evento imprevisto in corso. A volte un evento imprevisto può richiedere l'impegno dei membri di più team per essere analizzato e risolto. Tutti gli utenti autorizzati a visualizzare l'evento imprevisto possono aggiungere un'azione o un evento di analisi.

Ad esempio, dopo aver diagnosticato l'evento imprevisto e identificato la causa radice, un tecnico può aggiungere un elemento di analisi di tipo "personalizzato" e inserire la causa radice nella sezione dei commenti. Lasciare lo stato "Attivo". In questo modo gli altri membri del team possono condividere le stesse informazioni e sapere che c'è qualcuno che sta lavorando alla soluzione. È anche possibile aggiungere un elemento "Azure DevOps" per tenere traccia dell'evento imprevisto con un'attività o un bug specifico.
La causa radice analizzata è un risultato analizzato automaticamente. Advisor metriche analizza tutte le anomalie rilevate nelle serie temporali all'interno di una metrica con valori di dimensione diversi con lo stesso timestamp. Esegue quindi la correlazione, il clustering per raggruppare le anomalie correlate e genera consigli sulla causa radice.

Riepilogo degli eventi imprevisti

Per le metriche con più dimensioni, è frequente che vengano rilevate più anomalie contemporaneamente. Tuttavia, queste anomalie possono condividere la stessa causa radice. Invece di analizzare tutte le anomalie una per una, il modo più efficiente per diagnosticare l'evento imprevisto corrente sarà quello di sfruttare la causa radice analizzata.

Passaggio 2: Visualizzare le informazioni di diagnostica tra più dimensioni

Dopo aver ottenuto informazioni di base e informazioni dettagliate sull'analisi automatica, è possibile ottenere informazioni più dettagliate sullo stato anomalo di altre dimensioni all'interno della stessa metrica in modo olistico usando l'"albero di diagnostica".

Per le metriche con più dimensioni, Advisor metriche classifica le serie temporali in una gerarchia, denominata albero di diagnostica. Ad esempio, la metrica "ricavi" viene monitorata da due dimensioni: "area" e "categoria". Nonostante i valori di dimensione concreti, è necessario che sia presente un valore di dimensione aggregato, come "SUM". Quindi la serie temporale di "area" = "SUM" e "categoria" = "SUM" verrà classificata come nodo radice all'interno dell'albero. Ogni volta che viene rilevata un'anomalia nella dimensione "SUM", è possibile eseguirne il drill-down e analizzarla per individuare il valore specifico della dimensione che ha contribuito maggiormente all'anomalia del nodo padre. Selezionare ogni nodo per espanderlo e visualizzare le informazioni dettagliate.

Diagnostica tra dimensioni tramite l'albero di diagnostica

Per abilitare un valore di dimensione "aggregato" nelle metriche

Advisor metriche supporta l'esecuzione del "rollup" sulle dimensioni per calcolare un valore di dimensione "aggregato". L'albero di diagnostica supporta la diagnosi delle aggregazioni "SUM", "AVG", "MAX","MIN","COUNT". Per abilitare un valore di dimensione "aggregato", è possibile abilitare la funzione "Rollup" durante l'onboarding dei dati. Assicurarsi che le metriche siano calcolabili matematicamente e che la dimensione aggregata abbia un valore di business reale.
Se non è presente alcun valore di dimensione "aggregato" nelle metriche

Se non è presente alcun valore di dimensione "aggregato" nelle metriche e la funzione "Rollup" non è abilitata durante l'onboarding dei dati. Non verrà calcolato alcun valore di metrica per la dimensione "aggregata", che verrà visualizzata come nodo grigio nell'albero e potrà essere espansa per visualizzarne i nodi figlio.

Legenda dell'albero di diagnostica

Esistono tre tipi di nodi nell'albero di diagnostica:

Nodo blu, che corrisponde a una serie temporale con valore di metrica reale.
Nodo grigio, che corrisponde a una serie temporale virtuale senza valore di metrica. Si tratta di un nodo logico.
Nodo rosso, che corrisponde alla serie temporale più interessata dell'evento imprevisto corrente.

Per ogni nodo lo stato anomalo viene descritto dal colore del bordo del nodo

Il bordo rosso indica che è stata rilevata un'anomalia nella serie temporale corrispondente al timestamp dell'evento imprevisto.
Il bordo non rosso indica che non è stata rilevata alcuna anomalia nella serie temporale corrispondente al timestamp dell'evento imprevisto.

Display mode

Esistono due modalità di visualizzazione per un albero di diagnostica: mostrare solo le serie di anomalie o mostrare le proporzioni principali.

La modalità Mostrare solo le serie di anomalie consente al cliente di concentrarsi sulle anomalie correnti rilevate su serie diverse e di diagnosticare la causa radice della serie più interessata.
La modalità Mostrare le proporzioni principali consente al cliente di controllare lo stato anomalo delle proporzioni principali della serie più interessata. In questa modalità, l'albero mostra sia le serie con anomalie rilevate che quelle senza anomalie. Ma l'attenzione si concentra maggiormente sulle serie importanti.

Opzioni di analisi

Mostra rapporto delta

Il "rapporto delta" è la percentuale del delta del nodo corrente rispetto al delta del nodo padre. Ecco la formula:

(valore reale del nodo corrente - valore previsto del nodo corrente) / (valore reale del nodo padre - valore previsto del nodo padre) * 100%

Viene usato per analizzare il contributo principale del delta del nodo padre.
Mostra proporzione di valori

La "proporzione di valori" è la percentuale del valore del nodo corrente rispetto al valore del nodo padre. Ecco la formula:

(valore reale del nodo corrente / valore reale del nodo padre) * 100%

Viene usato per valutare la proporzione del nodo corrente nell'insieme.

Usando l'"albero di diagnostica", i clienti possono individuare la causa radice dell'evento imprevisto corrente in una dimensione specifica. In questo modo si elimina significativamente lo sforzo del cliente di visualizzare ogni singola anomalia o di scorrere le diverse dimensioni per trovare il contributo principale dell'anomalia.

Passaggio 3: Visualizzare le informazioni dettagliate di diagnostica in più metriche con il "grafico delle metriche"

A volte, è difficile analizzare un problema controllando lo stato anomalo di una singola metrica ma è necessario correlare più metriche tra loro. I clienti possono configurare un grafico delle metriche, che indica le relazioni tra le metriche. Per iniziare, vedere Come creare un grafico delle metriche.

Controllare lo stato delle anomalie nella dimensione della causa radice all'interno del "grafico delle metriche"

Utilizzando il risultato della diagnostica con più dimensioni precedente, la causa radice è limitata a un valore di dimensione specifico. Usare quindi il "grafico delle metriche" e filtrare in base alla dimensione della causa radice analizzata per controllare lo stato delle anomalie in altre metriche.

Ad esempio, se è presente un evento imprevisto rilevato nelle metriche "ricavi". La serie più interessata è nell'area globale con "area" = "SUM". Usando la diagnostica con più dimensioni, la causa radice è stata individuata in "area" = "Karachi". È disponibile un grafico delle metriche preconfigurato, che include le metriche di "ricavi", "costi", "Utenti attivi giornalieri", "Tempo di caricamento pagina" e "Percentuale riscontri cache".

Advisor metriche filtra automaticamente il grafico delle metriche in base alla dimensione della causa radice "area" = "Karachi" e visualizza lo stato delle anomalie di ogni metrica. Analizzando la relazione tra le metriche e lo stato delle anomalie, i clienti possono ottenere ulteriori informazioni dettagliate su quale sia la causa radice finale.

Analisi in più metriche

Applicando il filtro della dimensione della causa radice nel grafico delle metriche, le anomalie in ogni metrica al timestamp dell'evento imprevisto corrente verranno correlate automaticamente. Tali anomalie devono essere correlate alla causa radice identificata dell'evento imprevisto corrente.

Anomalie correlate automaticamente

Condividi tramite