Plug-in autocluster

Articolo
11/23/2024

Si applica a: ✅Microsoft Fabric✅Azure Esplora dati

autocluster trova modelli comuni di attributi discreti (dimensioni) nei dati. Riduce quindi i risultati della query originale, ovvero 100 o 100.000 righe, a pochi modelli. Il plug-in è stato sviluppato per facilitare l'analisi degli errori ,ad esempio eccezioni o arresti anomali, ma può potenzialmente funzionare su qualsiasi set di dati filtrato. Il plug-in viene richiamato con l'operatore evaluate .

Nota

autocluster si basa in gran parte sull'algoritmo Seed-Expand del documento seguente: Algoritmi per il data mining di telemetria usando attributi discreti.

Sintassi

T (autocluster | evaluate [SizeWeight [, WeightColumn [, NumSeeds [ , CustomWildcard [, ... ]]]]])

Altre informazioni sulle convenzioni di sintassi.

Parametri

I parametri devono essere ordinati come specificato nella sintassi. Per indicare che il valore predefinito deve essere usato, inserire il valore ~tilde della stringa . Per maggiori informazioni, vedere gli Esempi.

Nome	Digita	Obbligatorio	Descrizione
T	`string`	✔️	Espressione tabulare di input.
SizeWeight	double		Valore double compreso tra 0 e 1 che controlla l'equilibrio tra valori generici (copertura elevata) e informativo (molti valori condivisi). L'aumento di questo valore riduce in genere la quantità di modelli durante l'espansione della copertura. Al contrario, la riduzione di questo valore genera modelli più specifici caratterizzati da valori condivisi aumentati e una copertura percentuale inferiore. Il valore predefinito è `0.5`. La formula è una media geometrica ponderata con pesi `SizeWeight` e `1-SizeWeight`.
WeightColumn	`string`		Considera ogni riga nell'input in base al peso specificato. Ogni riga ha un peso predefinito di `1`. L'argomento deve essere un nome di una colonna numerica integer. Un utilizzo comune di una colonna peso consiste nell'prendere in considerazione il campionamento o il bucket o l'aggregazione dei dati già incorporati in ogni riga.
NumSeeds	`int`		Determina il numero di punti di ricerca locali iniziali. La regolazione del numero di semi influisce sulla quantità di risultati o sulla qualità in base alla struttura dei dati. L'aumento dei semi può migliorare i risultati, ma con un compromesso di query più lento. Riducendo al di sotto dei cinque rendimenti i miglioramenti trascurabili, mentre l'aumento di oltre 50 genera raramente più modelli. Il valore predefinito è `25`.
CustomWildcard	`string`		Valore letterale di tipo che imposta il valore jolly per un tipo specifico nella tabella dei risultati, che indica nessuna restrizione per questa colonna. Il valore predefinito è `null`, che rappresenta una stringa vuota. Se il valore predefinito è un valore valido nei dati, è necessario usare un valore jolly diverso, ad esempio `*`. È possibile includere più caratteri jolly personalizzati aggiungendoli consecutivamente.

Valori restituiti

Il autocluster plug-in restituisce in genere un piccolo set di modelli. I modelli acquisiscono parti dei dati con valori comuni condivisi tra più attributi discreti. Ogni criterio nei risultati è rappresentato da una riga.

La prima colonna è l'ID segmento. Le due colonne successive indicano il numero e la percentuale di righe esterne alla query originale acquisite dal modello. Le colonne rimanenti provengono dalla query originale. Il valore è un valore specifico della colonna o un valore con caratteri jolly (che sono per impostazione predefinita Null) che significa valori di variabile.

I modelli non sono distinti, possono sovrapporsi e in genere non coprono tutte le righe originali. È possibile che alcune righe non rientrino in alcun modello.

Suggerimento

Usare dove e proiettare nella pipe di input per ridurre i dati solo a ciò che si è interessati.

Quando si trova una riga interessante, è possibile che si voglia visualizzarne i dettagli, aggiungendo i rispettivi valori specifici al filtro where .

Esempi

Uso di evaluate

T | evaluate autocluster()

Uso del cluster automatico

Eseguire la query

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Output

SegmentId	Count	Percentuale	Provincia	EventType	Danni
0	2278	38.7		Grandine	NO
1	512	8.7		Vento di tempesta	SÌ
2	898	15.3	TEXAS

Uso di caratteri jolly personalizzati

Eseguire la query

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Output

SegmentId	Count	Percentuale	Provincia	EventType	Danni
0	2278	38.7	*	Grandine	NO
1	512	8.7	*	Vento di tempesta	SÌ
2	898	15.3	TEXAS	*	*

Condividi tramite

Plug-in autocluster

Sintassi

Parametri

Valori restituiti

Esempi

Uso di evaluate

Uso del cluster automatico

Uso di caratteri jolly personalizzati

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Plug-in autocluster

Sintassi

Parametri

Valori restituiti

Esempi

Uso di evaluate

Uso del cluster automatico

Uso di caratteri jolly personalizzati

Contenuto correlato

Commenti e suggerimenti

Risorse aggiuntive