autocluster, wtyczka
Dotyczy: ✅Microsoft Fabric✅Azure Data Explorer
autocluster
znajduje typowe wzorce dyskretnych atrybutów (wymiarów) w danych. Następnie zmniejsza wyniki oryginalnego zapytania, niezależnie od tego, czy jest to 100, czy 100 000 wierszy, do kilku wzorców. Wtyczka została opracowana w celu ułatwienia analizowania błędów (takich jak wyjątki lub awarie), ale potencjalnie może działać na dowolnym filtrowanym zestawie danych. Wtyczka jest wywoływana z operatorem evaluate
.
Uwaga
autocluster
jest w dużej mierze oparty na algorytmie Seed-Expand z następującego artykułu: Algorytmy wyszukiwania danych telemetrycznych przy użyciu atrybutów dyskretnych.
Składnia
T (
autocluster
|
evaluate
[SizeWeight [,
WeightColumn [,
NumSeeds [ ,
CustomWildcard [,
... ]]]]])
Dowiedz się więcej na temat konwencji składni.
Parametry
Parametry muszą być uporządkowane zgodnie z instrukcjami w składni. Aby wskazać, że należy użyć wartości domyślnej, umieść wartość ~
tyldy ciągu . Aby uzyskać więcej informacji, zobacz Przykłady.
Nazwisko | Type | Wymagania | opis |
---|---|---|---|
T | string |
✔️ | Wyrażenie tabelaryczne danych wejściowych. |
Waga rozmiaru | double | Podwójna wartość z zakresu od 0 do 1, która kontroluje równowagę między ogólnymi (wysokim pokryciem) i informacyjną (wiele współużytkowanych) wartościami. Zwiększenie tej wartości zwykle zmniejsza ilość wzorców podczas rozszerzania pokrycia. Z drugiej strony zmniejszenie tej wartości generuje bardziej szczegółowe wzorce charakteryzujące się zwiększonymi wartościami udostępnionymi i mniejszym pokryciem procentowym. Wartość domyślna to 0.5 . Formuła jest średnią geometryczną ważoną z wagami SizeWeight i 1-SizeWeight . |
|
Kolumna wagowa | string |
Uwzględnia każdy wiersz w danych wejściowych zgodnie z określoną wagą. Każdy wiersz ma domyślną wagę .1 Argument musi być nazwą kolumny liczbowej liczby całkowitej. Typowym użyciem kolumny wagi jest uwzględnienie próbkowania lub zasobnika lub agregacji danych, które są już osadzone w każdym wierszu. |
|
NumSeeds | int |
Określa liczbę początkowych lokalnych punktów wyszukiwania. Dostosowanie liczby nasion wpływa na ilość wyników lub jakość na podstawie struktury danych. Zwiększenie ilości nasion może poprawić wyniki, ale z wolniejszym kompromisem zapytań. Zmniejszenie poniżej pięciu daje niewielkie ulepszenia, podczas gdy wzrost powyżej 50 rzadko generuje więcej wzorców. Wartość domyślna to 25 . |
|
CustomWildcard | string |
Literał typu, który ustawia wartość symboli wieloznacznych dla określonego typu w tabeli wyników, wskazując brak ograniczeń dla tej kolumny. Wartość domyślna to null , która reprezentuje pusty ciąg. Jeśli wartość domyślna jest dobrą wartością w danych, należy użyć innej wartości wieloznacznych, takiej jak * . Możesz uwzględnić wiele niestandardowych symboli wieloznacznych, dodając je kolejno. |
Zwraca
Wtyczka autocluster
zwykle zwraca niewielki zestaw wzorców. Wzorce przechwytują fragmenty danych z udostępnionymi wspólnymi wartościami w wielu dyskretnych atrybutach. Każdy wzorzec w wynikach jest reprezentowany przez wiersz.
Pierwsza kolumna to identyfikator segmentu. Następne dwie kolumny to liczba i procent wierszy z oryginalnego zapytania przechwyconego przez wzorzec. Pozostałe kolumny pochodzą z oryginalnego zapytania. Ich wartość jest określoną wartością z kolumny lub wartością wieloznacznymi (domyślnie null) oznaczaną wartościami zmiennych.
Wzorce nie są odrębne, mogą się nakładać i zwykle nie obejmują wszystkich oryginalnych wierszy. Niektóre wiersze mogą nie należeć do żadnego wzorca.
Napiwek
Użyj miejsca i projektu w potoku wejściowym, aby zmniejszyć dane do tego, co cię interesuje.
Jeśli znajdziesz interesujący wiersz, możesz przejść do szczegółów, dodając jego określone wartości do filtru where
.
Przykłady
Korzystanie z funkcji evaluate
T | evaluate autocluster()
Używanie autoklastrusteru
StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)
Wyjście
Identyfikator segmentu | Count | Procent | Stan | EventType | Uszkodzenia |
---|---|---|---|---|---|
0 | 2278 | 38.7 | Grad | NIE | |
1 | 512 | 8.7 | Wiatr i burza | TAK | |
2 | 898 | 15,3 | TEKSAS |
Używanie niestandardowych symboli wieloznacznych
StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')
Wyjście
Identyfikator segmentu | Count | Procent | Stan | EventType | Uszkodzenia |
---|---|---|---|---|---|
0 | 2278 | 38.7 | * | Grad | NIE |
1 | 512 | 8.7 | * | Wiatr i burza | TAK |
2 | 898 | 15,3 | TEKSAS | * | * |