Modul plug-in autocluster
Platí pro: ✅Microsoft Fabric✅Azure Data Explorer
autocluster
najde v datech běžné vzory diskrétních atributů (dimenzí). Potom zmenšuje výsledky původního dotazu, ať už je to 100 nebo 100 000 řádků, na několik vzorů. Modul plug-in byl vyvinut tak, aby pomohl analyzovat selhání (například výjimky nebo chybové ukončení), ale může potenciálně pracovat na jakékoli filtrované datové sadě. Modul plug-in se vyvolá pomocí operátoru evaluate
.
Poznámka:
autocluster
je z velké části založen na algoritmu Seed-Expand z následujícího dokumentu: Algoritmy pro dolování telemetrických dat pomocí diskrétních atributů.
Syntaxe
T (
autocluster
|
evaluate
[SizeWeight [,
WeightColumn [,
NumSeeds [ ,
CustomWildcard [,
... ]]]]])
Přečtěte si další informace o konvencích syntaxe.
Parametry
Parametry musí být seřazené tak, jak je uvedeno v syntaxi. Chcete-li označit, že má být použita výchozí hodnota, vložte řetězcovou vlnovku hodnotu ~
. Další informace najdete v tématu Příklady.
Name | Type | Požadováno | Popis |
---|---|---|---|
T | string |
✔️ | Vstupní tabulkový výraz. |
SizeWeight | double | Dvojitá hodnota mezi 0 a 1, která řídí rovnováhu mezi obecnými (vysokým pokrytím) a informativními (mnoha sdílenými) hodnotami. Zvýšení této hodnoty obvykle snižuje množství vzorů při rozšiřování pokrytí. Naopak snížení této hodnoty generuje konkrétnější vzory, které jsou charakterizovány zvýšenými sdílenými hodnotami a menším procentem pokrytí. Výchozí hodnota je 0.5 . Vzorec je vážený geometrický průměr s váhami SizeWeight a 1-SizeWeight . |
|
WeightColumn | string |
Bere v úvahu každý řádek ve vstupu podle zadané váhy. Každý řádek má výchozí váhu 1 . Argument musí být název číselného celočíselného sloupce. Běžným použitím sloupce hmotnosti je vzít v úvahu vzorkování nebo kontejnery nebo agregaci dat, která jsou již vložena do každého řádku. |
|
NumSeeds | int |
Určuje početpočátečních Úprava počtu semen ovlivňuje množství výsledků nebo kvalitu na základě datové struktury. Zvýšení semen může zlepšit výsledky, ale s pomalejším kompromisem dotazu. Snížení pod pět přináší zanedbatelná vylepšení, zatímco zvýšení nad 50 zřídka generuje více vzorů. Výchozí hodnota je 25 . |
|
CustomWildcard | string |
Literál typu, který nastaví hodnotu zástupného znaku pro konkrétní typ v tabulce výsledků, což značí žádné omezení pro tento sloupec. Výchozí hodnota je null , která představuje prázdný řetězec. Pokud je výchozí hodnota v datech dobrá, měla by se použít jiná hodnota se zástupným znakem, například * . Můžete zahrnout několik vlastních zástupných znaků přidáním po sobě jdoucích. |
Návraty
Modul plug-in autocluster
obvykle vrací malou sadu vzorů. Vzory zachycují části dat se sdílenými běžnými hodnotami napříč několika diskrétními atributy. Každý vzor ve výsledcích je reprezentován řádkem.
Prvním sloupcem je ID segmentu. Další dva sloupce jsou počet a procento řádků z původního dotazu zachyceného vzorem. Zbývající sloupce pocházejí z původního dotazu. Jejich hodnota je buď konkrétní hodnota ze sloupce, nebo hodnota se zástupným znakem (která je ve výchozím nastavení null), což znamená hodnoty proměnných.
Vzory nejsou odlišné, můžou se překrývat a obvykle nepokrývají všechny původní řádky. Některé řádky nemusí spadat pod žádný vzor.
Tip
Pomocí umístění a projektu ve vstupním kanálu zmenšete data jenom na to, co vás zajímá.
Když najdete zajímavý řádek, možná ho budete chtít podrobněji rozbalit přidáním konkrétních hodnot do where
filtru.
Příklady
Použití vyhodnocení
T | evaluate autocluster()
Použití automatickéhoclusteru
StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)
Výstup
SegmentId | Počet | Procenta | State | Typ události | Škoda |
---|---|---|---|---|---|
0 | 2278 | 38.7 | Krupobití | NE | |
0 | 512 | 8.7 | Větrná bouře | ANO | |
2 | 898 | 15.3 | TEXAS |
Použití vlastních zástupných znaků
StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')
Výstup
SegmentId | Počet | Procenta | State | Typ události | Škoda |
---|---|---|---|---|---|
0 | 2278 | 38.7 | * | Krupobití | NE |
0 | 512 | 8.7 | * | Větrná bouře | ANO |
2 | 898 | 15.3 | TEXAS | * | * |