Condividi tramite


Plug-in autocluster

Si applica a: ✅Microsoft FabricAzure Esplora dati

autocluster trova modelli comuni di attributi discreti (dimensioni) nei dati. Riduce quindi i risultati della query originale, ovvero 100 o 100.000 righe, a pochi modelli. Il plug-in è stato sviluppato per facilitare l'analisi degli errori ,ad esempio eccezioni o arresti anomali, ma può potenzialmente funzionare su qualsiasi set di dati filtrato. Il plug-in viene richiamato con l'operatore evaluate .

Nota

autocluster si basa in gran parte sull'algoritmo Seed-Expand del documento seguente: Algoritmi per il data mining di telemetria usando attributi discreti.

Sintassi

T (autocluster | evaluate [SizeWeight [, WeightColumn [, NumSeeds [ , CustomWildcard [, ... ]]]]])

Altre informazioni sulle convenzioni di sintassi.

Parametri

I parametri devono essere ordinati come specificato nella sintassi. Per indicare che il valore predefinito deve essere usato, inserire il valore ~tilde della stringa . Per maggiori informazioni, vedere gli Esempi.

Nome Digita Obbligatorio Descrizione
T string ✔️ Espressione tabulare di input.
SizeWeight double Valore double compreso tra 0 e 1 che controlla l'equilibrio tra valori generici (copertura elevata) e informativo (molti valori condivisi). L'aumento di questo valore riduce in genere la quantità di modelli durante l'espansione della copertura. Al contrario, la riduzione di questo valore genera modelli più specifici caratterizzati da valori condivisi aumentati e una copertura percentuale inferiore. Il valore predefinito è 0.5. La formula è una media geometrica ponderata con pesi SizeWeight e 1-SizeWeight.
WeightColumn string Considera ogni riga nell'input in base al peso specificato. Ogni riga ha un peso predefinito di 1. L'argomento deve essere un nome di una colonna numerica integer. Un utilizzo comune di una colonna peso consiste nell'prendere in considerazione il campionamento o il bucket o l'aggregazione dei dati già incorporati in ogni riga.
NumSeeds int Determina il numero di punti di ricerca locali iniziali. La regolazione del numero di semi influisce sulla quantità di risultati o sulla qualità in base alla struttura dei dati. L'aumento dei semi può migliorare i risultati, ma con un compromesso di query più lento. Riducendo al di sotto dei cinque rendimenti i miglioramenti trascurabili, mentre l'aumento di oltre 50 genera raramente più modelli. Il valore predefinito è 25.
CustomWildcard string Valore letterale di tipo che imposta il valore jolly per un tipo specifico nella tabella dei risultati, che indica nessuna restrizione per questa colonna. Il valore predefinito è null, che rappresenta una stringa vuota. Se il valore predefinito è un valore valido nei dati, è necessario usare un valore jolly diverso, ad esempio *. È possibile includere più caratteri jolly personalizzati aggiungendoli consecutivamente.

Valori restituiti

Il autocluster plug-in restituisce in genere un piccolo set di modelli. I modelli acquisiscono parti dei dati con valori comuni condivisi tra più attributi discreti. Ogni criterio nei risultati è rappresentato da una riga.

La prima colonna è l'ID segmento. Le due colonne successive indicano il numero e la percentuale di righe esterne alla query originale acquisite dal modello. Le colonne rimanenti provengono dalla query originale. Il valore è un valore specifico della colonna o un valore con caratteri jolly (che sono per impostazione predefinita Null) che significa valori di variabile.

I modelli non sono distinti, possono sovrapporsi e in genere non coprono tutte le righe originali. È possibile che alcune righe non rientrino in alcun modello.

Suggerimento

Usare dove e proiettare nella pipe di input per ridurre i dati solo a ciò che si è interessati.

Quando si trova una riga interessante, è possibile che si voglia visualizzarne i dettagli, aggiungendo i rispettivi valori specifici al filtro where .

Esempi

Uso di evaluate

T | evaluate autocluster()

Uso del cluster automatico

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Output

SegmentId Count Percentuale Provincia EventType Danni
0 2278 38.7 Grandine NO
1 512 8.7 Vento di tempesta
2 898 15.3 TEXAS

Uso di caratteri jolly personalizzati

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Output

SegmentId Count Percentuale Provincia EventType Danni
0 2278 38.7 * Grandine NO
1 512 8.7 * Vento di tempesta
2 898 15.3 TEXAS * *