Modul plug-in diffpatterns_text
Platí pro: ✅Microsoft Fabric✅Azure Data Explorer
Porovná dvě datové sady řetězcových hodnot a najde textové vzory, které charakterizují rozdíly mezi těmito dvěma datovými sadami. Modul plug-in se vyvolá pomocí operátoru evaluate
.
Vrátí diffpatterns_text
sadu textových vzorů, které zachycují různé části dat v těchto dvou sadách. Například vzor zachycující velké procento řádků, když je true
podmínka a nízké procento řádků, když je false
podmínka . Vzory jsou sestaveny z po sobě jdoucích tokenů oddělených prázdným znakem a tokenem z textového sloupce nebo zástupným znakem *
. Každý vzor je ve výsledcích reprezentován řádkem.
Syntaxe
T | evaluate diffpatterns_text(
TextColumn, BooleanCondition [, MinTokens, Threshold , MaxTokens])
Přečtěte si další informace o konvencích syntaxe.
Parametry
Název | Type | Požadováno | Popis |
---|---|---|---|
TextColumn | string |
✔️ | Textový sloupec, který chcete analyzovat. |
Logická podmínka | string |
✔️ | Výraz, který se vyhodnotí jako logická hodnota. Algoritmus rozdělí dotaz na dvě datové sady, aby se porovnával na základě tohoto výrazu. |
MinTokens | int |
Celočíselná hodnota mezi 0 a 200, která představuje minimální počet tokenů bez zástupných znaků na vzor výsledku. Výchozí hodnota je 1. | |
Prahová hodnota | decimal |
Desetinná hodnota mezi 0,015 a 1, která nastavuje minimální rozdíl poměru vzorku mezi těmito dvěma sadami. Výchozí hodnota je 0,05. Viz rozdíly. | |
MaxTokens | int |
Celočíselná hodnota mezi 0 a 20, která nastaví maximální počet tokenů na vzor výsledku a určuje nižší limit, sníží modul runtime dotazu. |
Návraty
Výsledek diffpatterns_text vrátí následující sloupce:
- Count_of_True: Počet řádků odpovídajících vzoru, pokud je
true
podmínka . - Count_of_False: Počet řádků odpovídajících vzoru, pokud je
false
podmínka . - Percent_of_True: Procento řádků odpovídajících vzoru z řádků, pokud je
true
podmínka . - Percent_of_False: Procento řádků odpovídajících vzoru z řádků, pokud je
false
podmínka . - Vzor: Textový vzor obsahující tokeny z textového řetězce a '
*
' pro zástupné znaky.
Poznámka:
Vzory nejsou nutně odlišné a nemusí poskytovat úplné pokrytí datové sady. Vzory se můžou překrývat a některé řádky nemusí odpovídat žádnému vzoru.
Příklad
Následující příklad používá data z tabulky StormEvents v clusteru nápovědy. Pokud chcete získat přístup k datům, přihlaste se k https://dataexplorer.azure.com/clusters/help/databases/Samplessouboru . V nabídce vlevo přejděte k nápovědě>k ukázkové>tabulce>Storm_Events.
Příklady v tomto kurzu používají StormEvents
tabulku, která je veřejně dostupná v ukázkových datech analýzy počasí.
StormEvents
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)
Výstup
Count_of_True | Count_of_False | Percent_of_True | Percent_of_False | Vzor |
---|---|---|---|---|
11 | 0 | 6.29 | 0 | Větry se posunují na severozápad v * probuzení * povrchová vrstva přinesla těžké jezero efekt sněžení dolů * Jezero Superior z |
9 | 0 | 5.14 | 0 | Kanadské vysoké zatížení * * region * vyrábí nejchladnější teploty od února * 2006. Doba trvání * teploty mrazu |
0 | 34 | 0 | 6.24 | * * * West Tennessee, |
0 | 42 | 0 | 7.71 | * * způsobil * v západní Coloradu. * |
0 | 45 | 0 | 8.26 | * * pod normálním * |
0 | 110 | 0 | 20.18 | Pod normálním * |