Оператор reduce

Статья
11/23/2024

Область применения: ✅Microsoft Fabric ✅Azure Data Explorer✅Azure Monitor ✅Microsoft Sentinel

Группирует набор строк вместе на основе сходства значений.

Для каждой такой группы оператор возвращает patternзначение , countи representative. Лучше pattern всего описывает группу, в которой * символ представляет подстановочный знак. Число count значений в группе и representative одно из исходных значений в группе.

Синтаксис

T | reduce [kind = ReduceKind] Expr [with threshold = пороговое значение] by [ characters =, символы]]

Дополнительные сведения о соглашениях синтаксиса.

Параметры

Имя (название)	Type	Обязательно	Описание
Expr	`string`	✔️	Значение, по которому требуется уменьшить.
Threshold	`real`		Значение от 0 до 1, определяющее минимальную долю строк, необходимых для сопоставления критериев группировки для активации операции сокращения. Значение по умолчанию — 0,1. Рекомендуется задать небольшое пороговое значение для больших входных данных. При меньшем пороговом значении более похожие значения группируются, что приводит к меньшему, но более похожим группам. Для большего порогового значения требуется меньше сходства, что приводит к тому, что больше групп, которые менее похожи. См. примеры.
Символы	`string`		Список символов, разделяющих термины. По умолчанию используется каждый числовый символ, отличный от ascii. Примеры см. в разделе "Поведение символов".
ReduceKind	`string`		Единственным допустимым значением является `source`. Если `source` задано, оператор добавляет `Pattern` столбец к существующим строкам таблицы вместо агрегирования `Pattern`.

Возвраты

Таблица с столько строк, сколько есть группы и столбцы с заголовком pattern, countи representative. Лучше pattern всего описывает группу, в которой * символ представляет подстановочный знак или заполнитель для произвольной строки вставки. Число count значений в группе и representative одно из исходных значений в группе.

Например, результат выполнения reduce by city может быть таким:

Расписание	Count	Уполномоченный
Сан *	5182	Сан-Бернард
Сант *	2846	Сент-Люси
Москва	3726	Москва
-на-	2730	One -on- One
Париж	2716	Париж

Примеры

Небольшое пороговое значение

Выполнить запрос

range x from 1 to 1000 step 1
| project MyText = strcat("MachineLearningX", tostring(toint(rand(10))))
| reduce by MyText  with threshold=0.001 , characters = "X"

Выходные данные

Расписание	Count	Уполномоченный
MachineLearning*	1000	MachineLearningX4

Большое пороговое значение

Выполнить запрос

range x from 1 to 1000 step 1
| project MyText = strcat("MachineLearningX", tostring(toint(rand(10))))
| reduce by MyText  with threshold=0.9 , characters = "X"

Выходные данные

Расписание	Count	Уполномоченный
MachineLearning*	177	MachineLearningX9
MachineLearning*	102	MachineLearningX0
MachineLearning*	106	MachineLearningX1
MachineLearning*	96	MachineLearningX6
MachineLearning*	110	MachineLearningX4
MachineLearning*	100	MachineLearningX3
MachineLearning*	99	MachineLearningX8
MachineLearning*	104	MachineLearningX7
MachineLearning*	106	MachineLearningX2

Поведение параметра Символов

Если параметр Characters не определен, то каждый символ, отличный от ascii, становится разделителем терминов.

Выполнить запрос

range x from 1 to 10 step 1 | project str = strcat("foo", "Z", tostring(x)) | reduce by str

Выходные данные

Расписание	Count	Уполномоченный
и так далее.	10

Однако если указать, что "Z" является разделителем, то это как если бы каждое значение в str 2 терминах: иtostring(x): foo

Выполнить запрос

range x from 1 to 10 step 1 | project str = strcat("foo", "Z", tostring(x)) | reduce by str with characters="Z"

Выходные данные

Расписание	Count	Уполномоченный
foo*	10	fooZ1

Применение `reduce` к санизированным входным данным

В следующем примере показано, как можно применить reduce оператор к входным данным с очисткой, в котором идентификаторы GUID в столбце заменяются до уменьшения

// Start with a few records from the Trace table.
Trace | take 10000
// We will reduce the Text column which includes random GUIDs.
// As random GUIDs interfere with the reduce operation, replace them all
// by the string "GUID".
| extend Text=replace_regex(Text, @"[[:xdigit:]]{8}-[[:xdigit:]]{4}-[[:xdigit:]]{4}-[[:xdigit:]]{4}-[[:xdigit:]]{12}", @"GUID")
// Now perform the reduce. In case there are other "quasi-random" identifiers with embedded '-'
// or '_' characters in them, treat these as non-term-breakers.
| reduce by Text with characters="-_"

autocluster

Примечание.

Реализация оператора в значительной reduce степени основана на документе Алгоритм кластеризации данных для шаблонов интеллектуального анализа данных из журналов событий Risto Vaarandi.

Поделиться через

Оператор reduce

Синтаксис

Параметры

Возвраты

Примеры

Небольшое пороговое значение

Большое пороговое значение

Поведение параметра Символов

Применение `reduce` к санизированным входным данным

Обратная связь

Дополнительные ресурсы

Поделиться через

Оператор reduce

Синтаксис

Параметры

Возвраты

Примеры

Небольшое пороговое значение

Большое пороговое значение

Поведение параметра Символов

Применение reduce к санизированным входным данным

Связанный контент

Обратная связь

Дополнительные ресурсы

Применение `reduce` к санизированным входным данным