Изучение модели дерева принятия решений (учебник по интеллектуальному анализу данных — начальный уровень)
Алгоритм деревьев принятия решений (Майкрософт) прогнозирует, какие столбцы влияют на решение о покупке велосипеда на основе оставшихся столбцов в обучаемом наборе.
Вкладка «Дерево принятия решений»
На вкладке Дерево принятия решений можно просмотреть деревья принятия решений для каждого прогнозируемого атрибута в наборе данных.
В этом случае модель прогнозирует только один столбец , Bike Buyer, поэтому есть только одно дерево для просмотра. Если деревьев больше, можно использовать поле Дерево , чтобы выбрать другое дерево.
При просмотре TM_Decision_Tree
модели в средстве просмотра дерева принятия решений можно увидеть наиболее важные атрибуты в левой части диаграммы. "Самое важное" означает, что эти атрибуты оказывают наибольшее влияние на результат. Атрибуты ниже по дереву (справа от диаграммы) имеют меньший эффект.
В этом примере возраст является самым важным фактором при прогнозировании покупки велосипедов. Модель группировать клиентов по возрасту, а затем отображает следующий более важный атрибут для каждой возрастной группы. Например, в группе клиентов в возрасте от 34 до 40 лет число принадлежащих автомобилей является самым сильным прогнозатором по возрасту.
Исследование модели на вкладке «Дерево принятия решений»
Откройте вкладку Средство просмотра моделей интеллектуального анализаданных в Designer интеллектуального анализа данных.
По умолчанию конструктор открывает первую модель, которая была добавлена в структуру , в данном случае
TM_Decision_Tree
— .Для настройки размера отображения дерева воспользуйтесь кнопками со значком лупы.
По умолчанию в средстве просмотра деревьев (Майкрософт) отображаются только первые три уровня дерева. Если дерево содержит меньше трех уровней, показываются только существующие уровни. Дополнительные уровни можно просмотреть с помощью ползунка Показать уровень или списка расширения по умолчанию .
Уровень слайд-шоу на четвертую панель.
Измените значение параметра Фон на
1
.Изменив параметр Фон , вы можете быстро увидеть количество вариантов в каждом узле, для которых целевое
1
значение для [Bike Buyer]. В этом конкретном сценарии следует помнить, что каждый вариант представляет покупателя. Значение1
указывает, что клиент ранее приобрел велосипед; значение 0 указывает, что клиент не приобрел велосипед. Чем темнее заливка узла, тем больший процент вариантов с нужным целевым значением он содержит.Наведите курсор на узел с меткой Все. В подсказке отобразятся следующие сведения.
Общее число вариантов
Число вариантов покупки товара, не являющегося велосипедом
Число вариантов покупки велосипеда
Число вариантов с отсутствующими значениями для элемента [Покупатель велосипеда]
Можно также поместить курсор над любым узлом в дереве и просмотреть условие, необходимое для достижения этого узла из узла, стоящего перед ним. Эти же сведения также можно просмотреть в условных обозначениях интеллектуального анализа данных.
Щелкните узел Возраст >=34 и < 41. Отобразится гистограмма в виде тонкой горизонтальной полоски, пересекающей узел. Она показывает распределение клиентов в этом диапазоне возраста, которые раньше покупали (розовый цвет) и не покупали (синий цвет) велосипед. В средстве просмотра показано, что клиенты в возрасте от 34 до 40 лет с одним автомобилем или не имеющие автомобиля, вероятно, купят велосипед. Сделав еще один шаг, мы видим, что вероятность покупки велосипеда увеличивается, если возраст клиента — от 38 до 40 лет.
Поскольку при создании структуры и модели была включена детализация, из вариантов модели и структуры интеллектуального анализа данных можно получить подробные сведения, в том числе для столбцов, не включенных в модель интеллектуального анализа данных (например, столбцов emailAddress, FirstName).
Дополнительные сведения см. в разделе Запросы детализации (интеллектуальный анализ данных).
Углубленная детализация данных вариантов
Щелкните узел правой кнопкой мыши и выберите Пункт Детализация , а затем — Только столбцы модели.
Сведения для каждого обучающего варианта отображаются в формате электронной таблицы. Эти сведения получены из представления vTargetMail, выбранного как таблица вариантов при построении структуры интеллектуального анализа данных.
Щелкните узел правой кнопкой мыши и выберите Пункт Детализация , а затем — Столбцы модели и структуры.
Отобразится та же электронная таблица со столбцами структуры, присоединенными в конец таблицы.
Вкладка «Сеть зависимостей»
На вкладке Сеть зависимостей отображаются связи между атрибутами, которые влияют на прогнозную способность модели интеллектуального анализа данных. Средство просмотра «Сеть зависимостей» еще более явно подтверждает предположение, что возраст и регион являются важными факторами в прогнозировании покупки велосипеда.
Исследование модели на вкладке «Сеть зависимостей»
Bike Buyer
Щелкните узел, чтобы определить его зависимости.Центральный узел для сети
Bike Buyer
зависимостей представляет прогнозируемый атрибут в модели интеллектуального анализа данных. Диаграмма выделяет все подключенные узлы, которые влияют на прогнозируемый атрибут.Настройте ползунок Все ссылки , чтобы определить наиболее влиятельный атрибут.
При перетаскивании ползунка атрибуты, которые оказывают слабое влияние на столбец [Bike Buyer], удаляются из графа. Настроив ползунок, вы можете обнаружить, что возраст и регион являются самыми большими факторами в прогнозировании того, является ли кто-то покупателем велосипеда.
Связанные задачи
Ознакомьтесь с этими статьями, чтобы изучить данные с помощью других типов моделей.
Следующая задача занятия
Изучение модели кластеризации (учебник по интеллектуальному анализу данных — начальный уровень)
См. также:
Задачи и инструкции средства просмотра моделей интеллектуального анализа данных
Вкладка «Дерево принятия решений» (средство просмотра моделей интеллектуального анализа данных)
Вкладка «Сеть зависимостей» (средство просмотра моделей интеллектуального анализа данных)
Просмотр модели с помощью средства просмотра деревьев (Майкрософт)