Поделиться через


Изучение модели кластеризации последовательностей (учебник по интеллектуальному анализу данных — средний уровень)

 

Применимо к: SQL Server 2016 Preview

Теперь, когда вы создали Кластеризация последовательностей по регионам модели, ее можно просмотреть с помощью Microsoft просмотра кластеризации последовательностей в средство просмотра модели интеллектуального анализа вкладки конструктора интеллектуального анализа данных. Microsoft Средство просмотра кластеризации последовательностей содержит пять вкладок: Диаграмма кластера, Профили кластера, Характеристики кластера, ClusterDiscrimination, и переходы между состояниями. Дополнительные сведения об использовании этого средства просмотра см. в разделе Обзор модели с помощью средства просмотра кластеризации последовательностей Майкрософт.

  • Вкладка «Диаграмма кластеров»

  • Вкладка «Профили кластера»

  • Вкладка «Характеристики кластера»

  • Вкладка «Сравнения кластеров»

  • Вкладка «Переходы состояния»

  • Представление общего содержимого

Вкладка «Диаграмма кластеров»

Диаграмма кластера вкладку графическое представление кластеров, обнаруженных алгоритмом в базе данных. Макет диаграммы отображает связи между кластерами, причем похожие кластеры расположены рядом. По умолчанию затенение каждого узла отражает концентрацию вариантов в кластере: чем интенсивнее затененность узла, тем больше вариантов он содержит. Можно изменить заливку узлов таким образом, чтобы оно отражало поддержку внутри каждого кластера для атрибута и состояния.

Кроме того, можно переименовать кластеры для удобства идентификации и работы с целевыми кластерами. В рамках данного учебника будет переименован кластер, у которого самый высокий процент клиентов из Тихоокеанского региона, а также кластер, который имеет наибольшее количество всех вариантов.

Примечание


При повторной обработке модели могут измениться варианты, назначенные определенным кластерам, что зависит от данных или параметров модели. Кроме того, в случае переименования кластеров имена будут утеряны при повторной обработке модели интеллектуального анализа данных.

Изменение атрибута, используемого для выделения кластеров

  1. В Переменная заливки выберите модели.

  2. Выберите Велосипедная шапочка в состояние списка.

    После обновления на диаграмме отобразятся точки концентрации выбранного продукта в каждом из кластеров. Кластер с самой темной заливкой содержит максимальную концентрацию велосипедных шапочек. Можно изменить переменную заливки, которая будет использоваться для отображения любого состояния любого входного столбца.

  3. В Переменная заливки выберите Заполнение.

    Если для переменной заливки задано значение заполнения, на диаграмме будут отображены различия кластеров в зависимости от их размера. Кластер с самой темной заливкой содержит большее количество вариантов, чем другие кластеры.

Переименование узлов модели

  1. Изменение Переменная заливки для области, и задайте состояние для тихоокеанскому.

  2. Выделите самый затененный узел графа.

  3. Щелкните правой кнопкой мыши кластер и выберите Переименовать кластер.

  4. Введите имяТихоокеанский кластер.

  5. Измените значение Переменная заливки для Заполнение.

  6. После обновления графа найдите кластер с наибольшим затенением, который должен быть самым крупным кластером. Если по заливке сложно определить самый крупный кластер, задержите указатель мыши на каждом кластере для отображения подсказки, после чего выберите кластер, который содержит наибольшее количество вариантов.

  7. Щелкните правой кнопкой мыши кластер и выберите Переименовать кластер. Введите имя нового наибольшего кластера.

Можно выполнить детализацию от узла, представляющего кластер, для просмотра сведений о вариантах, содержащихся в каждом кластере. Это бывает полезным, если с результатами анализа нужно выполнить какие-либо действия (например, отправить клиенту сообщение электронной почты). Кроме того, можно просмотреть другие атрибуты вариантов, которые были включены в структуру, но не использовались в модели, например Region и IncomeGroup. Дополнительные сведения о выполнении детализации из модели интеллектуального анализа данных до базовых вариантов см. в разделе запросов детализации ( интеллектуального анализа данных ).

Детализация сведений из диаграммы кластеров

  1. Щелкните правой кнопкой мыши Тихоокеанский кластер, выберите Детализация, а затем выберите столбцы модели и структуры.

    Детализация откроется диалоговое окно. Столбцы, которые не используются в модели, но доступны для запросов начинаются с префикса структуры.

    Можно увидеть, что данный кластер в основном содержит клиентов из Тихоокеанского региона и совсем немного клиентов из других регионов.

  2. Щелкните знак «плюс» во вложенном столбце v Assoc Seq Line Items, чтобы просмотреть последовательность элементов в заказе определенного клиента.

  3. Закрыть Детализация диалоговое окно.

    Примечание


    Воспроизведение кнопка позволяет выполнить повторный запрос данных; Однако обновление не изменяет данные, которые отображаются, если модель будет динамически обновлен в фоновом режиме другим процессом.

В начало

Вкладка «Профили кластера»

Профили кластера вкладка отображает последовательности, в каждом кластере. Кластеры перечислены в отдельных столбцах справа от состояния столбца.

В средстве просмотра модели строка описывает общее распределение элементов в кластере и Model.samples строка содержит последовательности элементов. Каждая строка цветовых последовательностей в каждой ячейке Model.samples строка представляет поведение случайно выбранного пользователя в кластере.

Каждый цвет в отдельной гистограмме последовательностей отражает модель товара. В условных обозначениях интеллектуального анализа данных последовательности продуктов показываются как с помощью выделения цветом, так и с помощью имен моделей продуктов. Если в модель для кластеризации были добавлены другие столбцы, например Region или Income Group, в средстве просмотра будет отображаться дополнительная строка для каждого такого столбца, содержащего распределение значений в каждом кластере.

Просмотр наиболее общих последовательностей в кластере

  1. Щелкните правой кнопкой мыши модели строку в столбце для кластера наибольший кластер, и выберите Показать условные обозначения.

    Цвет столбец содержит полосы, определяющее периодичность, найденных в последовательностях элементов. Каждый элемент представлен разным цветом. Значение столбце перечислены имена моделей продуктов для каждого цвета. Распространения столбец показывает процент вариантов, содержащих этот элемент в последовательности.

  2. Закрыть обозначения интеллектуального анализа данных.

  3. Щелкните правой кнопкой мыши Model.samples строку в столбце с заголовком заполнение, и выберите Показать условные обозначения.

  4. Просмотрите список последовательностей в общей модели**.**

    В начале списка «Обозначения интеллектуального анализа данных» располагаются наиболее общие последовательности, поэтому можно заметить, что камера для шины от горного велосипеда часто появляется в качестве первого элемента во многих последовательностях. Это означает, что существует большая вероятность того, что клиент в первую очередь поместит в список покупок камеру для шины от горного велосипеда.

Выполнение детализации к вариантам из средства просмотра кластера

  1. Прокрутите вниз панель атрибутов, пока не найдете строку область атрибута.

    Строка содержит гистограмму для каждого кластера в модели, а также одна дополнительная Гистограмма для Заполнение, то есть весь набор вариантов, используемых в модели. Гистограмма представляет собой полосу, имеющую различную окраску, где каждый цвет соответствует определенному атрибуту, а размер окрашенного участка атрибута — проценту вариантов с таким атрибутом.

  2. Сравните гистограммы для кластеров, которые были переименованы Тихоокеанский кластер и наибольшего кластера. Каждый кластер располагается в отдельном столбце.

    Оба окрашены сплошными, но разными цветами.

  3. В области строки, наведите указатель мыши на цветной гистограмме для наибольшего кластера.

    В подсказке будут отражены значения фактического процентного соотношения вариантов для каждого региона.

  4. Щелкните правой кнопкой мыши цветную гистограмму в области строки для Тихоокеанский кластер, выберите Детализация, и выберите только столбцы модели.

  5. Используйте полосу прокрутки, чтобы просмотреть сведения обо всех клиентах в этом кластере.

    Опять анализируя подробные сведения, можно увидеть, что в кластере содержатся в основном заказы из Тихоокеанского региона и небольшое количество заказов из Северной Америки и Европы.

  6. Закрыть Детализация диалоговое окно.

В начало

Вкладка «Характеристики кластера»

Характеристики кластера вкладке перечислены переходы между состояниями в кластере. столбцы визуально отражают важность значения атрибута для выбранного кластера. Переменные столбец показывает, что модель имеет важное значение для выбранного кластера или заполнения: конкретное значение или связь между значениями, известный как Переход. Значения столбец содержит более подробные сведения о значении или переходе и вероятности визуально представляет вес данного атрибута или перехода.

Просмотр важных атрибутов для кластера

  1. В кластера раскрывающегося списка выберите Тихоокеанский кластер.

    Обновляет список для отображения характеристик кластера переименованный Тихоокеанский кластер. В этом кластере, является наиболее важной характеристикой области.

  2. Наведите указатель мыши на затененной полосе в строке области.

    Очень высока вероятность того, что значение будет «Тихоокеанский». Дополнительные сведения об интерпретации этих значений см. в разделе Microsoft последовательности кластеризации Технический справочник по алгоритму.

  3. В списке характеристик для кластера найдите первую строку перехода.

  4. Строка перехода содержит текст перехода в переменные столбец и некоторые сочетания последовательных значений атрибутов в значение столбца. Последовательность также может содержать исходные точки и отсутствующие значения.

    Например, предположим, что переход имеет значение [Start] -> Road Tire Tube. Это означает, что клиенты в данном кластере часто первой в свою корзину покупок помещают камеру для шины от дорожного велосипеда. А это может указывать на то, что данный товар популярен и клиенты ищут его в первую очередь, или на то, что этот товар всего лишь несложно найти на торговом сайте.

  5. Прокрутите список и найдите первый переход, который не имеет [Start] или отсутствует в ней.

    Предположим, например, найти перехода, для туристического велосипеда, для туристического велосипеда. Это означает, что клиенты в данном кластере часто покупают данные товары одновременно, и именно в такой последовательности.

  6. Задержите указатель мыши на затененной полосе для данного перехода.

    Значение вероятности перехода отображается в виде процентного отношения.

  7. В кластера раскрывающегося списка выберите заполнение (все).

    В списке атрибутов после обновления отобразятся характеристики всех заказов, которые были использованы для создания данной модели. В этой модели интеллектуального анализа данных является наиболее важной характеристикой для отличия между кластерами области, со значением North America.

После выполнения указанных задач стали понятны две вещи. Первая — для получения значительного количества сочетаний необходим большой объем данных. Например, последовательность с наивысшими вероятностями, скорее всего, для включения [Start] или отсутствует состояния.

Второй является заметное влияние кластеризации на атрибуты для области, что усложняет для просмотра групп последовательностей. Поэтому принимается решение о создании еще одной модели, в которой используются только последовательности и отсутствуют столбцы для региона или дохода.

В начало

Вкладка «Сравнения кластеров»

Сравнения кластеров вкладка предназначена для сравнения двух кластеров, чтобы определить, какие атрибуты, отличающих кластер от другого. Вкладка содержит четыре столбца: переменных, значения, Кластер 1, и кластера 2. Можно выбрать любой кластер для использования в качестве Кластер 1 и кластера 2.

Переменные столбец показывает имя атрибута, которое может быть имя столбца или сочетанием имени столбца и слова Переход. Значения столбец показывает точное значение атрибута или перехода. Затененные полосы в столбцах Кластер 1 и кластера 2 указывают интенсивность атрибута в сравниваемых кластерах. Чем длиннее полоса, тем выше вероятность, что этот кластер включает варианты с указанным атрибутом.

Сравнение двух кластеров с использованием вкладки «Сравнения кластеров»

  1. В сравнения кластеров вкладке для Кластер 1, выберите Тихоокеанский кластер.

    По умолчанию выбор для кластера 2 примет дополнением тихоокеанскому *** кластера.

    Атрибут верхнего уровня, который отличает Тихоокеанский кластер от всех других вариантов — это регион. Регион является настолько весомым атрибутом для кластеризации, что нивелирует все остальные атрибуты. Чтобы избежать подобного эффекта, сравните несколько других меньших кластеров между собой. После этого список атрибутов изменится; в нем может появиться больше переходов между моделями.

  2. Найдите строку перехода и задержите указатель мыши на затененной полосе.

    Элементы в значения столбец может включать состояний и переходов. Затемнение для каждого элемента отражает коэффициент сравнения. Дополнительные сведения о значении различных оценок см. в разделе интеллектуального анализа данных модели содержимого для моделей кластеризации последовательностей и #40; Службы Analysis Services — Интеллектуальный анализ данных ).

В начало

Вкладка «Переходы состояния»

На переходы между состояниями вкладке можно выбрать кластер и просмотреть переходы его состояний. При выборе заполнение (все) из списка кластеров диаграмме показано распределение состояний для модели интеллектуального анализа данных полностью.

Каждый узел диаграммы представляет собой состояние или возможное значение анализируемых последовательностей. Цвет фона узла указывает на частоту появления данного состояния. Переходы между состояниями указаны соединяющими такие состояния линиями. Можно переместить ползунок вверх или вниз для изменения порога вероятности переходов. Числа, связанные с некоторыми узлами, указывают на значение вероятности данного состояния.

Изучение связей на вкладке «Переходы состояния»

  1. В переходы между состояниями средства просмотра модели интеллектуального анализа данных, выберите Тихоокеанский кластер из списка кластеров. Убедитесь, что отобразить метки краев выбран параметр.

    После обновления графа будут отображены наиболее общие переходы в данном кластере.

  2. Щелкните любой узел, который соединен линией с другим узлом.

    После обновления графа будут выделены связанные узлы. Числовое значение рядом с линией представляет собой вероятность перехода.

  3. Поднимите ползунок до все ссылки, чтобы увеличить количество переходов, включаемых в граф.

  4. Выберите заполнение (все) из кластера.

    Примите к сведению, что после загрузки другого кластера граф будет использовать параметры отображения по умолчанию, то есть ползунок будет находиться в среднем положении.

  5. Щелкните затененный узел графа, который должен быть Sport-100.

    Обратите внимание, что данный товар не имеет линий, соединяющих его с другими товарами.

  6. Поднимите ползунок вверх на один пункт, чтобы увеличить количество переходов, включаемых в граф. Не проходят вплоть до все ссылки еще.

    После обновления на графе появится несколько новых переходов, но ни один из них не будет включать модель Sport-100.

  7. Переместите ползунок до упора в все ссылки. Щелкните узел Sport-100, если он еще не выбран.

    После обновления на графе будет отображено большое количество переходов, которые включают модель Sport-100. Направление стрелки соединительной линии говорит о том, была ли модель Sport-100 выбрана в качестве первого или второго участника пары.

  8. Щелкните узел шины для туристического велосипеда и переместите ползунок обратно в среднее положение.

    Вначале будет отображаться большое количество линий переходов, соединяющих шины для туристического велосипеда с другими товарами. Но как только порог вероятности поднимется, менее вероятные переходы будут удалены из графа, на котором останется только один переход — Шина для туристического велосипеда > Камера шины для туристического велосипеда. Данный переход означает, что если клиент помещает в свою корзину покупок шину для туристического велосипеда, то существует большая вероятность того, что следующим товаром станет камера шины для туристического велосипеда.

В начало

Средство просмотра деревьев содержимого общего вида

Это средство просмотра может использоваться для всех моделей независимо от типа модели и алгоритма. Средство просмотра деревьев содержимого MicrosoftGeneric доступна из просмотра раскрывающегося списка.

Дерево содержимого представляет модель интеллектуального анализа данных в виде ряда узлов, каждый из которых представляет полученные знания относительно обучающих данных. Узел может содержать закономерность, набор правил, кластер или определение интервала дат, объединяемых некоторыми общими атрибутами. Конкретное содержимое узлов зависит от алгоритма и прогнозируемого атрибута, но общее представление содержимого одинаково.

Каждый узел можно раскрыть, чтобы увеличить уровень детализации, и скопировать содержимое любого узла в буфер обмена. Дополнительные сведения см. в разделе Просмотр модели в средстве просмотра деревьев содержимого общего вида (Майкрософт).

Просмотр сведений о модели кластеризации последовательностей с использованием средства просмотра деревьев содержимого общего вида

  1. В средство просмотра модели интеллектуального анализа щелкните просмотра и выберите просмотра деревьев содержимого общего Microsoft.

  2. В заголовок узла панели, щелкните Тихоокеанский кластер (1).

    Имя данного узла состоит из понятного имени кластера, присвоенного ему пользователем, и идентификатора базового узла. Идентификаторы узлов можно использовать для получения дополнительных сведений о модели.

  3. Разверните первый дочерний узел, с именем последовательности уровень для кластера 1.

    Узел уровня последовательности для кластера содержит сведения о состояниях и переходах, имеющихся в таком кластере. Эти сведения (в столбце NODE_DISTRIBUTION) можно использовать с целью изучения последовательности и состояний каждого кластера или модели в целом.

  4. Продолжайте разворачивать узлы для просмотра сведений на панели средства просмотра HTML-страниц.

Дополнительные сведения о модели интеллектуального анализа данных и использовать данные в средстве просмотра см. в разделе содержимое модели интеллектуального анализа данных для моделей кластеризации последовательностей ( Службы Analysis Services — Интеллектуальный анализ данных ).

В начало

Следующая задача занятия

Создание модели кластеризации последовательностей связанных ( учебник по интеллектуальному анализу данных — средний )

См. также:

Алгоритм кластеризации последовательностей (Майкрософт)
Примеры запросов к модели кластеризации последовательностей