Modul plug-in autocluster

Článek
11/23/2024

Platí pro: ✅Microsoft Fabric✅Azure Data Explorer

autocluster najde v datech běžné vzory diskrétních atributů (dimenzí). Potom zmenšuje výsledky původního dotazu, ať už je to 100 nebo 100 000 řádků, na několik vzorů. Modul plug-in byl vyvinut tak, aby pomohl analyzovat selhání (například výjimky nebo chybové ukončení), ale může potenciálně pracovat na jakékoli filtrované datové sadě. Modul plug-in se vyvolá pomocí operátoru evaluate .

Poznámka:

autocluster je z velké části založen na algoritmu Seed-Expand z následujícího dokumentu: Algoritmy pro dolování telemetrických dat pomocí diskrétních atributů.

Syntaxe

T (autocluster | evaluate [SizeWeight [, WeightColumn [, NumSeeds [ , CustomWildcard [, ... ]]]]])

Přečtěte si další informace o konvencích syntaxe.

Parametry

Parametry musí být seřazené tak, jak je uvedeno v syntaxi. Chcete-li označit, že má být použita výchozí hodnota, vložte řetězcovou vlnovku hodnotu ~. Další informace najdete v tématu Příklady.

Name	Type	Požadováno	Popis
T	`string`	✔️	Vstupní tabulkový výraz.
SizeWeight	double		Dvojitá hodnota mezi 0 a 1, která řídí rovnováhu mezi obecnými (vysokým pokrytím) a informativními (mnoha sdílenými) hodnotami. Zvýšení této hodnoty obvykle snižuje množství vzorů při rozšiřování pokrytí. Naopak snížení této hodnoty generuje konkrétnější vzory, které jsou charakterizovány zvýšenými sdílenými hodnotami a menším procentem pokrytí. Výchozí hodnota je `0.5`. Vzorec je vážený geometrický průměr s váhami `SizeWeight` a `1-SizeWeight`.
WeightColumn	`string`		Bere v úvahu každý řádek ve vstupu podle zadané váhy. Každý řádek má výchozí váhu `1`. Argument musí být název číselného celočíselného sloupce. Běžným použitím sloupce hmotnosti je vzít v úvahu vzorkování nebo kontejnery nebo agregaci dat, která jsou již vložena do každého řádku.
NumSeeds	`int`		Určuje početpočátečních Úprava počtu semen ovlivňuje množství výsledků nebo kvalitu na základě datové struktury. Zvýšení semen může zlepšit výsledky, ale s pomalejším kompromisem dotazu. Snížení pod pět přináší zanedbatelná vylepšení, zatímco zvýšení nad 50 zřídka generuje více vzorů. Výchozí hodnota je `25`.
CustomWildcard	`string`		Literál typu, který nastaví hodnotu zástupného znaku pro konkrétní typ v tabulce výsledků, což značí žádné omezení pro tento sloupec. Výchozí hodnota je `null`, která představuje prázdný řetězec. Pokud je výchozí hodnota v datech dobrá, měla by se použít jiná hodnota se zástupným znakem, například `*`. Můžete zahrnout několik vlastních zástupných znaků přidáním po sobě jdoucích.

Návraty

Modul plug-in autocluster obvykle vrací malou sadu vzorů. Vzory zachycují části dat se sdílenými běžnými hodnotami napříč několika diskrétními atributy. Každý vzor ve výsledcích je reprezentován řádkem.

Prvním sloupcem je ID segmentu. Další dva sloupce jsou počet a procento řádků z původního dotazu zachyceného vzorem. Zbývající sloupce pocházejí z původního dotazu. Jejich hodnota je buď konkrétní hodnota ze sloupce, nebo hodnota se zástupným znakem (která je ve výchozím nastavení null), což znamená hodnoty proměnných.

Vzory nejsou odlišné, můžou se překrývat a obvykle nepokrývají všechny původní řádky. Některé řádky nemusí spadat pod žádný vzor.

Tip

Pomocí umístění a projektu ve vstupním kanálu zmenšete data jenom na to, co vás zajímá.

Když najdete zajímavý řádek, možná ho budete chtít podrobněji rozbalit přidáním konkrétních hodnot do where filtru.

Příklady

Použití vyhodnocení

T | evaluate autocluster()

Použití automatickéhoclusteru

Spuštění dotazu

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Výstup

SegmentId	Počet	Procenta	State	Typ události	Škoda
0	2278	38.7		Krupobití	NE
0	512	8.7		Větrná bouře	ANO
2	898	15.3	TEXAS

Použití vlastních zástupných znaků

Spuštění dotazu

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Výstup

SegmentId	Počet	Procenta	State	Typ události	Škoda
0	2278	38.7	*	Krupobití	NE
0	512	8.7	*	Větrná bouře	ANO
2	898	15.3	TEXAS	*	*

Sdílet prostřednictvím

Modul plug-in autocluster

Syntaxe

Parametry

Návraty

Příklady

Použití vyhodnocení

Použití automatickéhoclusteru

Použití vlastních zástupných znaků

Váš názor

Další materiály

Sdílet prostřednictvím

Modul plug-in autocluster

Syntaxe

Parametry

Návraty

Příklady

Použití vyhodnocení

Použití automatickéhoclusteru

Použití vlastních zástupných znaků

Související obsah

Váš názor

Další materiály