Sdílet prostřednictvím


Modul plug-in diffpatterns_text

Platí pro: ✅Microsoft FabricAzure Data Explorer

Porovná dvě datové sady řetězcových hodnot a najde textové vzory, které charakterizují rozdíly mezi těmito dvěma datovými sadami. Modul plug-in se vyvolá pomocí operátoru evaluate .

Vrátí diffpatterns_text sadu textových vzorů, které zachycují různé části dat v těchto dvou sadách. Například vzor zachycující velké procento řádků, když je true podmínka a nízké procento řádků, když je falsepodmínka . Vzory jsou sestaveny z po sobě jdoucích tokenů oddělených prázdným znakem a tokenem z textového sloupce nebo zástupným znakem * . Každý vzor je ve výsledcích reprezentován řádkem.

Syntaxe

T | evaluate diffpatterns_text(TextColumn, BooleanCondition [, MinTokens, Threshold , MaxTokens])

Přečtěte si další informace o konvencích syntaxe.

Parametry

Název Type Požadováno Popis
TextColumn string ✔️ Textový sloupec, který chcete analyzovat.
Logická podmínka string ✔️ Výraz, který se vyhodnotí jako logická hodnota. Algoritmus rozdělí dotaz na dvě datové sady, aby se porovnával na základě tohoto výrazu.
MinTokens int Celočíselná hodnota mezi 0 a 200, která představuje minimální počet tokenů bez zástupných znaků na vzor výsledku. Výchozí hodnota je 1.
Prahová hodnota decimal Desetinná hodnota mezi 0,015 a 1, která nastavuje minimální rozdíl poměru vzorku mezi těmito dvěma sadami. Výchozí hodnota je 0,05. Viz rozdíly.
MaxTokens int Celočíselná hodnota mezi 0 a 20, která nastaví maximální počet tokenů na vzor výsledku a určuje nižší limit, sníží modul runtime dotazu.

Návraty

Výsledek diffpatterns_text vrátí následující sloupce:

  • Count_of_True: Počet řádků odpovídajících vzoru, pokud je truepodmínka .
  • Count_of_False: Počet řádků odpovídajících vzoru, pokud je falsepodmínka .
  • Percent_of_True: Procento řádků odpovídajících vzoru z řádků, pokud je truepodmínka .
  • Percent_of_False: Procento řádků odpovídajících vzoru z řádků, pokud je falsepodmínka .
  • Vzor: Textový vzor obsahující tokeny z textového řetězce a '*' pro zástupné znaky.

Poznámka:

Vzory nejsou nutně odlišné a nemusí poskytovat úplné pokrytí datové sady. Vzory se můžou překrývat a některé řádky nemusí odpovídat žádnému vzoru.

Příklad

Následující příklad používá data z tabulky StormEvents v clusteru nápovědy. Pokud chcete získat přístup k datům, přihlaste se k https://dataexplorer.azure.com/clusters/help/databases/Samplessouboru . V nabídce vlevo přejděte k nápovědě>k ukázkové>tabulce>Storm_Events.

Příklady v tomto kurzu používají StormEvents tabulku, která je veřejně dostupná v ukázkových datech analýzy počasí.

StormEvents     
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)

Výstup

Count_of_True Count_of_False Percent_of_True Percent_of_False Vzor
11 0 6.29 0 Větry se posunují na severozápad v * probuzení * povrchová vrstva přinesla těžké jezero efekt sněžení dolů * Jezero Superior z
9 0 5.14 0 Kanadské vysoké zatížení * * region * vyrábí nejchladnější teploty od února * 2006. Doba trvání * teploty mrazu
0 34 0 6.24 * * * West Tennessee,
0 42 0 7.71 * * způsobil * v západní Coloradu. *
0 45 0 8.26 * * pod normálním *
0 110 0 20.18 Pod normálním *