Алгоритм кластеризации последовательностей (Майкрософт)

Статья
06/13/2017

Алгоритм кластеризации последовательностей (Майкрософт) — это алгоритм анализа последовательностей, предоставляемый Корпорацией Майкрософт SQL Server Analysis Services. Этот алгоритм можно использовать для просмотра данных, содержащих события, которые можно связать с помощью следующих путей или последовательностей. Алгоритм находит самые распространенные последовательности, выполняя группирование или кластеризацию идентичных последовательностей. Ниже приведено несколько примеров данных, содержащих последовательности, которые могут быть использованы для интеллектуального анализа данных и получения сведений о стандартных проблемах или бизнес-сценариях.

Щелкните пути, которые создаются, когда пользователи просматривают веб-сайт.
Журналы, в которых приведены списки событий, предшествовавших инциденту, такие как сбой жесткого диска или взаимоблокировка сервера.
Записи транзакций, описывающие порядок, в котором клиент добавляет в корзину товары, выбранные в интернет-магазине.
Записи, следящие за взаимодействием с клиентом (или пациентом) во времени для прогнозирования отмены услуг или других нежелательных итогов.

Этот алгоритм во многом аналогичен алгоритму кластеризации Майкрософт. Однако вместо того, чтобы находить кластеры вариантов, которые содержат похожие атрибуты, алгоритм кластеризации последовательностей (Майкрософт) находит кластеры вариантов, которые содержат похожие пути в последовательности.

Пример

Веб-сайт Adventure Works Cycles собирает сведения о том, какие страницы посещают пользователи сайта, а также о порядке посещения страниц. Поскольку компания предоставляет возможность заказа по сети, клиентам необходимо зарегистрироваться на сайте. Благодаря этому с каждым щелчком мыши клиента компания получает сведения о действиях в рамках узла, выполняемых под клиентским профилем. Используя алгоритм кластеризации последовательностей (Майкрософт) для этих данных, компания может находить группы или кластеры клиентов, которые имеют похожие шаблоны или последовательности щелчков. Компания затем может использовать данные кластеры для анализа перемещения пользователей в рамках веб-сайта, определения страниц, которые ближе всех связаны с продажей конкретного продукта, а также прогнозирования страниц, которые клиент с наибольшей долей вероятности посетит в следующий раз.

Принцип работы алгоритма

Алгоритм кластеризации последовательностей (Майкрософт) — это гибридный алгоритм, который объединяет кластеризация методы с анализом цепочек Маркова для определения кластеров и их последовательностей. Одна из отличительных черт алгоритма кластеризации последовательностей (Майкрософт) заключается в том, что он использует данные последовательностей. Такие данные обычно представляют ряд событий или переходов между состояниями в наборе данных, например ряд приобретений продуктов или щелчков мышью на веб-узле для конкретного пользователя. Алгоритм изучает вероятность переходов и измеряет различия, или расстояния, между всеми возможными последовательностями в наборе данных, чтобы определить, какие последовательности лучше всего использовать в качестве входных данных для кластеризации. После создания алгоритмом списка вероятных последовательностей он использует данные этой последовательности в качестве входных данных для EM-метода кластеризации.

Подробное описание этой реализации см. в разделе Microsoft Sequence Clustering Algorithm Technical Reference.

Данные, необходимые для моделей кластеризации последовательностей

При подготовке данных, предназначенных для использования в обучении модели кластеризации последовательностей, следует учитывать требования к конкретному алгоритму, в том числе к объему необходимых данных, и то, как эти данные используются.

К модели кластеризации последовательностей предъявляются следующие требования.

Одиночный ключевой столбец . Модели кластеризации последовательностей требуется ключ, по которому идентифицируются записи.
Столбец последовательности Для данных последовательности модель должна иметь вложенную таблицу, содержащую столбец идентификатора последовательности. Идентификатор последовательности может иметь любой подлежащий сортировке тип данных. Например, можно использовать идентификатор веб-страницы, целое число или текстовую строку с условием, что столбец идентифицирует события в последовательности. Для каждой последовательности допускается только один идентификатор последовательности, а в каждой модели допускается только один тип последовательности.
Необязательные атрибуты, не относящиеся к последовательности алгоритм поддерживает добавление других атрибутов, не связанных с последовательностью. Эти атрибуты могут включать вложенные столбцы.

Например, в примере, приведенном ранее на веб-сайте Adventure Works Cycles, последовательность кластеризация модель может включать сведения о заказах в виде таблицы вариантов, демографические данные о конкретном клиенте для каждого заказа в качестве атрибутов без последовательности и вложенную таблицу, содержащую последовательность, в которой клиент просматривал сайт или помещал товары в корзину в качестве сведений о последовательности.

Дополнительные сведения о типах содержимого и типах данных, поддерживаемых моделями кластеризации последовательностей, см. в подразделе "Требования" раздела Технический справочник по алгоритму кластеризации последовательностей (Майкрософт).

Просмотр модели кластеризации последовательности

Модель интеллектуального анализа данных, создаваемая данным алгоритмом, содержит описания самых распространенных последовательностей в данных. Чтобы исследовать модель, можно использовать Средство просмотра кластеризации последовательностей (Майкрософт). При просмотре последовательности кластеризация модели службы Analysis Services отображают кластеры, содержащие несколько переходов. Можно также просмотреть соответствующие статистические данные. Дополнительные сведения см. в разделе Просмотр модели с помощью средства просмотра кластеризации последовательностей (Майкрософт).

Чтобы получить более подробные сведения, можно просмотреть модель с помощью средства просмотра деревьев содержимого общего вида (Майкрософт). Содержимое, сохраняемое для модели, включает распределение всех значений в каждом узле, вероятность каждого кластера и подробные сведения о переходах. Дополнительные сведения см. в разделе Содержимое модели интеллектуального анализа данных для моделей кластеризации последовательностей (службы Analysis Services — интеллектуальный анализ данных).

Создание прогнозов

После обучения модели результаты хранятся в виде набора шаблонов. Можно использовать описания наиболее распространенных последовательностей в данных для прогноза следующего наиболее вероятного шага в новой последовательности. Но поскольку алгоритм включает другие столбцы, результирующую модель можно использовать для определения связи между данными, включенными в последовательность, и данными, не включенными в нее. Например, если к модели добавляются демографические данные, можно сделать прогноз для конкретной группы клиентов. Прогнозирующие запросы можно настраивать для того, чтобы они возвращали переменное число прогнозов или описательные статистические данные.

Дополнительные сведения о создании запросов к модели интеллектуального анализа данных см. в разделе Запросы интеллектуального анализа данных. Примеры использования запросов с моделью кластеризации последовательностей см. в разделе Примеры запросов к модели кластеризации последовательностей.

Не поддерживается использование языка разметки прогнозирующих моделей (PMML) для создания моделей интеллектуального анализа данных.
Поддерживается детализация.
Поддерживается использование моделей интеллектуального анализа OLAP и создание измерений интеллектуального анализа данных.

См. также:

Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)
Технический справочник по алгоритму кластеризации последовательностей (Майкрософт)
Примеры запросов к модели кластеризации последовательностей
Просмотр модели с помощью средства просмотра кластеризации последовательностей (Майкрософт)

Поделиться через