Поделиться через


Изучение модели кластеризации (учебник по интеллектуальному анализу данных — начальный уровень)

Алгоритм кластеризации Майкрософт группирует варианты в кластеры, которые содержат похожие характеристики. Такие группирования полезно использовать для просмотра данных, выявления в них аномалий и создания прогнозов.

Средство просмотра кластеров (Майкрософт) предоставляет следующие вкладки для изучения кластеризация моделей интеллектуального анализа данных:

Вкладка «Диаграмма кластеров»

Вкладка «Диаграмма кластеров» содержит все кластеры, которые имеются в модели интеллектуального анализа данных. Линии между кластерами показывают «близость», а их заливка отражает степень схожести кластеров. Цвет каждого из кластеров указывает на частоту появления переменной и состояние в кластере.

Изучение модели на вкладке «Диаграмма кластеров»

  1. Используйте список Модель интеллектуального анализа данных в верхней части вкладки Средство просмотра моделей интеллектуального анализа данных, чтобы переключиться на TM_Clustering модель.

  2. В списке Средство просмотра выберите Средство просмотра кластеров (Майкрософт).

  3. В поле Переменная заливки выберите Bike Buyer (Покупатель велосипедов).

    Переменная по умолчанию — Population, но вы можете изменить ее на любой атрибут в модели, чтобы определить, какие кластеры содержат члены с нужными атрибутами.

  4. Выберите 1 в поле Штат , чтобы изучить случаи приобретения велосипеда.

    Условные обозначения плотности описывают плотность пары состояний атрибутов, выбранных в переменной заливки и состоянии. В этом примере это говорит нам, что кластер с самым темным заливкой имеет самый высокий процент покупателей велосипедов.

  5. Наведите указатель мыши на кластер с самой темной заливкой.

    Во всплывающей подсказке отобразится процент вариантов, у которых атрибут Bike Buyer = 1.

  6. Выберите кластер с наибольшей плотностью, щелкните его правой кнопкой мыши, выберите Переименовать кластер и введите Bike Buyers High для последующей идентификации. Нажмите кнопку ОК.

  7. Найдите кластер с самой светлой заливкой (и с наименьшей плотностью). Щелкните кластер правой кнопкой мыши, выберите Переименовать кластер и введите Bike Buyers Low. Нажмите кнопку ОК.

  8. Щелкните кластер Bike Buyers High и перетащите его в область панели, чтобы получить четкое представление о его подключениях к другим кластерам.

    При выборе кластера выделяются линии, соединяющие его с другими кластерами, что позволяет легко определить связи данного кластера. Если кластер не выделен, по цвету линий можно определить, насколько тесная связь между кластерами на диаграмме. Светлая заливка или отсутствие заливки означает, что кластеры не очень схожи.

  9. С помощью ползунка, расположенного слева от сети, можно отфильтровывать слабые связи и находить кластеры с наиболее близкими связями. Отделу маркетинга Adventure Works Cycles может потребоваться объединить аналогичные кластеры вместе при определении оптимального метода доставки целевой рассылки.

Вкладка «Профили кластера»

На вкладке Профили кластера представлено общее представление TM_Clustering модели. Вкладка Профили кластера содержит столбец для каждого кластера в модели. В первом столбце перечислены атрибуты, связанные по крайней мере с одним кластером. В оставшейся области средства просмотра отображается распределение состояний атрибута для каждого из кластеров. Распределение дискретной переменной отображается в виде цветной полосы с максимальным количеством полос, отображаемых в списке гистограмм . Непрерывные атрибуты отображаются в ромбовидной диаграмме, отражающей среднее и стандартное отклонение в каждом из кластеров.

Изучение модели на вкладке «Профили кластера»

  1. Задайте для гистограммызначение 5.

    В нашей модели значение 5 — это максимальное количество состояний для любой одной переменной.

  2. Если условные обозначения интеллектуального анализа данных блокируют отображение профилей атрибутов, переместите его с пути.

  3. Выберите столбец Bike Buyers High и перетащите его вправо от столбца Население .

  4. Выберите столбец Bike Buyers Low (Покупатели велосипедов низкий ) и перетащите его вправо от столбца Bike Buyers High (Покупатели велосипедов High ).

  5. Щелкните столбец Bike Buyers High (Высокие покупатели велосипедов ).

    Столбец Переменные отсортирован в порядке важности для этого кластера. Просмотрите столбец и проанализируйте характеристики кластера «Много покупателей велосипедов». Например, вероятно, что они живут недалеко от работы.

  6. Дважды щелкните ячейку Возраст в столбце Bike Buyers High .

    В условных обозначениях интеллектуального анализа данных отображается более подробное представление, и вы можете увидеть возраст этих клиентов, а также средний возраст.

  7. Щелкните правой кнопкой мыши столбец Bike Buyers Low и выберите Скрыть столбец.

Вкладка «Характеристики кластера»

На вкладке Характеристики кластера можно более подробно изучить характеристики, составляющие кластер. Вместо сравнения характеристик всех кластеров (как на вкладке «Профили кластера») кластеры можно анализировать по одному. Например, если выбрать Bike Buyers High в списке Кластер , можно просмотреть характеристики клиентов в этом кластере. Хотя данное представление отличается от средства просмотра профилей кластера, результаты остаются такими же.

Примечание

Если вы не задали начальное значение для holdoutseed, результаты будут меняться при каждой обработке модели. Дополнительные сведения см. в разделе Элемент HoldoutSeed.

Вкладка «Сравнения кластеров»

На вкладке Дискриминация кластера можно изучить характеристики, отличающие один кластер от другого. После выбора двух кластеров, одного из списка Кластер 1 , а другого из списка Кластер 2 , средство просмотра вычисляет различия между кластерами и отображает список атрибутов, которые отличают кластеры больше всего.

Изучение модели на вкладке «Сравнения кластеров»

  1. В поле Кластер 1 выберите Bike Buyers High.

  2. В поле Кластер 2 выберите Байкеры велосипедов низкие.

  3. Щелкните Переменные для сортировки по алфавиту.

    Некоторые из более существенных различий между клиентами в кластерах "Байкеры велосипедов низкий " и "Высокие покупатели велосипедов " включают возраст, владение автомобилем, количество детей и регион.

Дополнительные сведения о других моделях интеллектуального анализа данных см. в следующих разделах.

Следующая задача занятия

Изучение модели упрощенного алгоритма Байеса (учебник по интеллектуальному анализу данных — начальный уровень)

Предыдущая задача занятия

Изучение модели дерева принятия решений (учебник по интеллектуальному анализу данных — начальный уровень)

См. также:

Просмотр модели с помощью средства просмотра кластеров (Майкрософт)
Вкладка «Сравнения кластеров» (средство просмотра моделей интеллектуального анализа данных)
Вкладка «Профили кластеров» (средство просмотра моделей интеллектуального анализа данных)
Вкладка «Характеристики кластеров» (средство просмотра моделей интеллектуального анализа данных)
Вкладка «Диаграмма кластеров» (средство просмотра моделей интеллектуального анализа данных)