autocluster-Plug-In
Gilt für: ✅Microsoft Fabric✅Azure Data Explorer
autocluster
findet allgemeine Muster von diskreten Attributen (Dimensionen) in den Daten. Anschließend werden die Ergebnisse der ursprünglichen Abfrage , unabhängig davon, ob es sich um 100 oder 100.000 Zeilen handelt, auf ein paar Muster reduziert. Das Plug-In wurde entwickelt, um Fehler (z. B. Ausnahmen oder Abstürze) zu analysieren, kann aber möglicherweise an jedem gefilterten Dataset arbeiten. Das Plug-In wird mit dem evaluate
Operator aufgerufen.
Hinweis
autocluster
basiert weitgehend auf dem Seed-Expand-Algorithmus aus dem folgenden Dokument: Algorithmen für Telemetrie Data Mining mit diskreten Attributen.
Syntax
T |
evaluate
(
autocluster
[SizeWeight [,
WeightColumn [,
NumSeeds [ CustomWildcard [,
,
... ]]]]])
Erfahren Sie mehr über Syntaxkonventionen.
Parameter
Die Parameter müssen wie in der Syntax angegeben sortiert werden. Um anzugeben, dass der Standardwert verwendet werden soll, legen Sie den Zeichenfolgen-Tildewert ein ~
. Weitere Informationen finden Sie unter Beispiele.
Name | Type | Erforderlich | Beschreibung |
---|---|---|---|
T | string |
✔️ | Der Tabellarische Eingabeausdruck. |
SizeWeight | double | Ein double between 0 and 1 that controls the balance between generic (high coverage) and informative (many shared) values. Das Erhöhen dieses Werts reduziert in der Regel die Anzahl von Mustern, während die Abdeckung erweitert wird. Umgekehrt erzeugt das Verringern dieses Werts spezifischere Muster, die durch erhöhte gemeinsame Werte und eine geringere Prozentuale Abdeckung gekennzeichnet sind. Der Standardwert ist 0.5 . Die Formel ist ein gewichtetes geometrisches Mittel mit Gewichtungen SizeWeight und 1-SizeWeight . |
|
WeightColumn | string |
Berücksichtigt jede Zeile in der Eingabe entsprechend der angegebenen Gewichtung. Jede Zeile weist eine Standardgewichtung von 1 . Das Argument muss ein Name einer numerischen ganzzahligen Spalte sein. Eine häufige Verwendung einer Gewichtungsspalte besteht darin, das Sampling oder Bucketing oder die Aggregation der Daten zu berücksichtigen, die bereits in jede Zeile eingebettet sind. |
|
NumSeeds | int |
Bestimmt die Anzahl der anfänglichen lokalen Suchpunkte. Das Anpassen der Anzahl der Samen wirkt sich auf die Ergebnismenge oder -qualität auf der Grundlage der Datenstruktur aus. Das Erhöhen von Samen kann die Ergebnisse verbessern, aber mit einem langsameren Abfrage-Kompromiss. Der Rückgang unter fünf führt zu vernachlässigbaren Verbesserungen, während eine Zunahme über 50 selten mehr Muster erzeugt. Der Standardwert ist 25 . |
|
CustomWildcard | string |
Ein Typliteral, das den Wildcardwert für einen bestimmten Typ in der Ergebnistabelle festlegt, der keine Einschränkung für diese Spalte angibt. Der Standardwert ist null , der eine leere Zeichenfolge darstellt. Wenn der Standardwert ein guter Wert in den Daten ist, sollte ein anderer Wildcardwert verwendet werden, z * . B. . Sie können mehrere benutzerdefinierte Wildcards einschließen, indem Sie sie aufeinander folgenden hinzufügen. |
Gibt zurück
Das autocluster
Plug-In gibt in der Regel einen kleinen Satz von Mustern zurück. Die Muster erfassen Teile der Daten mit gemeinsam genutzten gemeinsamen Werten über mehrere einzelne Attribute hinweg. Jedes Muster in den Ergebnissen wird durch eine Zeile dargestellt.
Die erste Spalte ist die Segment-ID. Die nächsten beiden Spalten enthalten die Anzahl und den Prozentsatz der Zeilen aus der ursprünglichen Abfrage, die mit dem Muster erfasst wurden. Die übrigen Spalten stammen aus der ursprünglichen Abfrage. Ihr Wert ist entweder ein bestimmter Wert aus der Spalte oder ein Wildcardwert (der standardmäßig null ist), was Variablenwerte bedeutet.
Die Muster unterscheiden sich nicht, können sich überschneiden und in der Regel nicht alle ursprünglichen Zeilen abdecken. Einige Zeilen fallen ggf. nicht in eines der Muster.
Tipp
Verwenden Sie die Position und das Projekt in der Eingabepipeline, um die Daten auf das zu reduzieren, was Sie interessieren.
Wenn Sie eine interessante Zeile finden, können Sie dafür einen Drilldown durchführen, indem Sie die jeweiligen Werte dem where
-Filter hinzufügen.
Beispiele
Verwenden der Auswertung
T | evaluate autocluster()
Verwenden von Autocluster
StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)
Output
SegmentId | Anzahl | Percent | State | EventType | Damage |
---|---|---|---|---|---|
0 | 2278 | 38,7 | Hagel | NEIN | |
1 | 512 | 8.7 | Sturm | JA | |
2 | 898 | 15,3 | TEXAS |
Verwenden von benutzerdefinierten Wildcards
StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')
Output
SegmentId | Anzahl | Percent | State | EventType | Damage |
---|---|---|---|---|---|
0 | 2278 | 38,7 | * | Hagel | NEIN |
1 | 512 | 8.7 | * | Sturm | JA |
2 | 898 | 15,3 | TEXAS | * | * |