Udostępnij za pośrednictwem


autocluster, wtyczka

Dotyczy: ✅Microsoft Fabric✅Azure Data Explorer

autocluster znajduje typowe wzorce dyskretnych atrybutów (wymiarów) w danych. Następnie zmniejsza wyniki oryginalnego zapytania, niezależnie od tego, czy jest to 100, czy 100 000 wierszy, do kilku wzorców. Wtyczka została opracowana w celu ułatwienia analizowania błędów (takich jak wyjątki lub awarie), ale potencjalnie może działać na dowolnym filtrowanym zestawie danych. Wtyczka jest wywoływana z operatorem evaluate .

Uwaga

autocluster jest w dużej mierze oparty na algorytmie Seed-Expand z następującego artykułu: Algorytmy wyszukiwania danych telemetrycznych przy użyciu atrybutów dyskretnych.

Składnia

T (autocluster | evaluate [SizeWeight [, WeightColumn [, NumSeeds [ , CustomWildcard [, ... ]]]]])

Dowiedz się więcej na temat konwencji składni.

Parametry

Parametry muszą być uporządkowane zgodnie z instrukcjami w składni. Aby wskazać, że należy użyć wartości domyślnej, umieść wartość ~tyldy ciągu . Aby uzyskać więcej informacji, zobacz Przykłady.

Nazwisko Type Wymagania opis
T string ✔️ Wyrażenie tabelaryczne danych wejściowych.
Waga rozmiaru double Podwójna wartość z zakresu od 0 do 1, która kontroluje równowagę między ogólnymi (wysokim pokryciem) i informacyjną (wiele współużytkowanych) wartościami. Zwiększenie tej wartości zwykle zmniejsza ilość wzorców podczas rozszerzania pokrycia. Z drugiej strony zmniejszenie tej wartości generuje bardziej szczegółowe wzorce charakteryzujące się zwiększonymi wartościami udostępnionymi i mniejszym pokryciem procentowym. Wartość domyślna to 0.5. Formuła jest średnią geometryczną ważoną z wagami SizeWeight i 1-SizeWeight.
Kolumna wagowa string Uwzględnia każdy wiersz w danych wejściowych zgodnie z określoną wagą. Każdy wiersz ma domyślną wagę .1 Argument musi być nazwą kolumny liczbowej liczby całkowitej. Typowym użyciem kolumny wagi jest uwzględnienie próbkowania lub zasobnika lub agregacji danych, które są już osadzone w każdym wierszu.
NumSeeds int Określa liczbę początkowych lokalnych punktów wyszukiwania. Dostosowanie liczby nasion wpływa na ilość wyników lub jakość na podstawie struktury danych. Zwiększenie ilości nasion może poprawić wyniki, ale z wolniejszym kompromisem zapytań. Zmniejszenie poniżej pięciu daje niewielkie ulepszenia, podczas gdy wzrost powyżej 50 rzadko generuje więcej wzorców. Wartość domyślna to 25.
CustomWildcard string Literał typu, który ustawia wartość symboli wieloznacznych dla określonego typu w tabeli wyników, wskazując brak ograniczeń dla tej kolumny. Wartość domyślna to null, która reprezentuje pusty ciąg. Jeśli wartość domyślna jest dobrą wartością w danych, należy użyć innej wartości wieloznacznych, takiej jak *. Możesz uwzględnić wiele niestandardowych symboli wieloznacznych, dodając je kolejno.

Zwraca

Wtyczka autocluster zwykle zwraca niewielki zestaw wzorców. Wzorce przechwytują fragmenty danych z udostępnionymi wspólnymi wartościami w wielu dyskretnych atrybutach. Każdy wzorzec w wynikach jest reprezentowany przez wiersz.

Pierwsza kolumna to identyfikator segmentu. Następne dwie kolumny to liczba i procent wierszy z oryginalnego zapytania przechwyconego przez wzorzec. Pozostałe kolumny pochodzą z oryginalnego zapytania. Ich wartość jest określoną wartością z kolumny lub wartością wieloznacznymi (domyślnie null) oznaczaną wartościami zmiennych.

Wzorce nie są odrębne, mogą się nakładać i zwykle nie obejmują wszystkich oryginalnych wierszy. Niektóre wiersze mogą nie należeć do żadnego wzorca.

Napiwek

Użyj miejsca i projektu w potoku wejściowym, aby zmniejszyć dane do tego, co cię interesuje.

Jeśli znajdziesz interesujący wiersz, możesz przejść do szczegółów, dodając jego określone wartości do filtru where .

Przykłady

Korzystanie z funkcji evaluate

T | evaluate autocluster()

Używanie autoklastrusteru

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Wyjście

Identyfikator segmentu Count Procent Stan EventType Uszkodzenia
0 2278 38.7 Grad NIE
1 512 8.7 Wiatr i burza TAK
2 898 15,3 TEKSAS

Używanie niestandardowych symboli wieloznacznych

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Wyjście

Identyfikator segmentu Count Procent Stan EventType Uszkodzenia
0 2278 38.7 * Grad NIE
1 512 8.7 * Wiatr i burza TAK
2 898 15,3 TEKSAS * *