Поделиться через


Подключаемый модуль diffpatterns_text

Область применения: ✅Microsoft Fabric✅Azure Data Explorer

Сравнивает два набора данных строковых значений и находит текстовые шаблоны, характеризующие различия между двумя наборами данных. Подключаемый модуль вызывается оператором evaluate .

Возвращает diffpatterns_text набор текстовых шаблонов, которые фиксируют различные части данных в двух наборах. Например, шаблон, захватывающий большой процент строк при true условии и низком проценте строк при условии false. Шаблоны создаются из последовательных маркеров, разделенных пробелами, с маркером из текстового столбца или * подстановочным знаком. В результатах каждый шаблон соответствует строке.

Синтаксис

T | evaluate diffpatterns_text(TextColumn, BooleanCondition [, MinTokens, Порог, MaxTokens])

Дополнительные сведения о соглашениях синтаксиса.

Параметры

Имя (название) Type Обязательно Описание
TextColumn string ✔️ Текстовый столбец для анализа.
BooleanCondition string ✔️ Выражение, которое оценивает логическое значение. Алгоритм разбивает запрос на два набора данных для сравнения на основе этого выражения.
MinTokens int Целочисленное значение от 0 до 200, представляющее минимальное количество маркеров, не являющихся подстановочными знаками на результат. Значение по умолчанию — 1.
Threshold decimal Десятичное значение от 0,015 до 1, которое задает минимальное соотношение шаблонов между двумя наборами. Значение по умолчанию — 0.05. См . диффпаттерны.
MaxTokens int Целочисленное значение от 0 до 20, задающее максимальное число маркеров на шаблон результатов, указывающее меньшее ограничение уменьшает среду выполнения запроса.

Возвраты

Результат diffpatterns_text возвращает следующие столбцы:

  • Count_of_True: количество строк, соответствующих шаблону при условии true.
  • Count_of_False: количество строк, соответствующих шаблону при условии false.
  • Percent_of_True: процент строк, соответствующих шаблону из строк при условии true.
  • Percent_of_False: процент строк, соответствующих шаблону из строк, когда условие равно false.
  • Шаблон: шаблон текста, содержащий маркеры из текстовой строки и "*" для подстановочных знаков.

Примечание.

Шаблоны не обязательно отличаются и могут не предоставлять полный охват набора данных. Шаблоны могут перекрываться, а некоторые строки могут не соответствовать ни одному шаблону.

Пример

В следующем примере используются данные из таблицы StormEvents в кластере справки. Чтобы получить доступ к этим данным, войдите в https://dataexplorer.azure.com/clusters/help/databases/Samplesсистему. В меню слева перейдите к справке по таблицам>примеров>>Storm_Events.

Примеры, приведенные в этом руководстве, используют таблицуStormEvents, которая общедоступна в примерах данных аналитики погоды.

StormEvents     
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)

Выходные данные

Count_of_True Count_of_False Percent_of_True Percent_of_False Расписание
11 0 6,29 к 0 Ветер сдвигается на северо-западе в * пробуждение * поверхность трости принес тяжелый эффект озера снегопад внизу * Озеро Супер из
9 0 5.14 0 Канадское высокое давление поселилось * регион * производит самые холодные температуры с февраля * 2006 года. Длительность * замораживание температуры
0 34 0 6.24 * Вест-Теннесси,
0 42 0 7.71 * вызвало * * по всей западной части Колорадо. *
0 45 0 8.26 * * ниже нормального *
0 110 0 20.18 Ниже нормального *