Подключаемый модуль diffpatterns_text
Область применения: ✅Microsoft Fabric✅Azure Data Explorer
Сравнивает два набора данных строковых значений и находит текстовые шаблоны, характеризующие различия между двумя наборами данных. Подключаемый модуль вызывается оператором evaluate
.
Возвращает diffpatterns_text
набор текстовых шаблонов, которые фиксируют различные части данных в двух наборах. Например, шаблон, захватывающий большой процент строк при true
условии и низком проценте строк при условии false
. Шаблоны создаются из последовательных маркеров, разделенных пробелами, с маркером из текстового столбца или *
подстановочным знаком. В результатах каждый шаблон соответствует строке.
Синтаксис
T | evaluate diffpatterns_text(
TextColumn, BooleanCondition [, MinTokens, Порог, MaxTokens])
Дополнительные сведения о соглашениях синтаксиса.
Параметры
Имя (название) | Type | Обязательно | Описание |
---|---|---|---|
TextColumn | string |
✔️ | Текстовый столбец для анализа. |
BooleanCondition | string |
✔️ | Выражение, которое оценивает логическое значение. Алгоритм разбивает запрос на два набора данных для сравнения на основе этого выражения. |
MinTokens | int |
Целочисленное значение от 0 до 200, представляющее минимальное количество маркеров, не являющихся подстановочными знаками на результат. Значение по умолчанию — 1. | |
Threshold | decimal |
Десятичное значение от 0,015 до 1, которое задает минимальное соотношение шаблонов между двумя наборами. Значение по умолчанию — 0.05. См . диффпаттерны. | |
MaxTokens | int |
Целочисленное значение от 0 до 20, задающее максимальное число маркеров на шаблон результатов, указывающее меньшее ограничение уменьшает среду выполнения запроса. |
Возвраты
Результат diffpatterns_text возвращает следующие столбцы:
- Count_of_True: количество строк, соответствующих шаблону при условии
true
. - Count_of_False: количество строк, соответствующих шаблону при условии
false
. - Percent_of_True: процент строк, соответствующих шаблону из строк при условии
true
. - Percent_of_False: процент строк, соответствующих шаблону из строк, когда условие равно
false
. - Шаблон: шаблон текста, содержащий маркеры из текстовой строки и "
*
" для подстановочных знаков.
Примечание.
Шаблоны не обязательно отличаются и могут не предоставлять полный охват набора данных. Шаблоны могут перекрываться, а некоторые строки могут не соответствовать ни одному шаблону.
Пример
В следующем примере используются данные из таблицы StormEvents в кластере справки. Чтобы получить доступ к этим данным, войдите в https://dataexplorer.azure.com/clusters/help/databases/Samplesсистему. В меню слева перейдите к справке по таблицам>примеров>>Storm_Events.
Примеры, приведенные в этом руководстве, используют таблицуStormEvents
, которая общедоступна в примерах данных аналитики погоды.
StormEvents
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)
Выходные данные
Count_of_True | Count_of_False | Percent_of_True | Percent_of_False | Расписание |
---|---|---|---|---|
11 | 0 | 6,29 к | 0 | Ветер сдвигается на северо-западе в * пробуждение * поверхность трости принес тяжелый эффект озера снегопад внизу * Озеро Супер из |
9 | 0 | 5.14 | 0 | Канадское высокое давление поселилось * регион * производит самые холодные температуры с февраля * 2006 года. Длительность * замораживание температуры |
0 | 34 | 0 | 6.24 | * Вест-Теннесси, |
0 | 42 | 0 | 7.71 | * вызвало * * по всей западной части Колорадо. * |
0 | 45 | 0 | 8.26 | * * ниже нормального * |
0 | 110 | 0 | 20.18 | Ниже нормального * |