Диаграмма точности прогнозов (службы Analysis Services — интеллектуальный анализ данных)
На вкладках Диаграмма точности прогнозов и Диаграмма точности интеллектуального анализа данных в конструкторе интеллектуального анализа данных можно просмотреть различные типы диаграмм (в зависимости от выбранной модели, прогнозируемого атрибута модели и других параметров).
Если прогноз модели спрогнозировал дискретное значение, то можно создать диаграмму точности прогнозов или диаграмму роста прибыли. В диаграмме точности прогнозов сравниваются прогнозы всех моделей. В этой диаграмме можно настроить отображение точности для прогнозов в целом или для прогнозов определенного значения. Диаграмма роста прибыли является связанным типом диаграмм, содержащей те же данные, что и диаграмма точности прогнозов, но на ней также отображается прогнозируемый рост прибыли, относящийся к каждой модели. Используйте список Тип диаграммы, чтобы выбрать необходимый тип диаграммы.
Примечание Модели временных рядов невозможно отобразить в диаграмме точности прогнозов или диаграмме роста прибыли, но на вкладке Прогноз модели интеллектуального анализа данных можно просмотреть диаграмму, в которой отображаются как исторические ряды, так и прогнозы на основе этих рядов. Дополнительные сведения см. в разделе Алгоритм временных рядов (Майкрософт).
Дополнительные сведения см. в разделахДиаграмма роста прибыли (службы Analysis Services — интеллектуальный анализ данных), Точечная диаграмма (службы Analysis Services — интеллектуальный анализ данных)
Сценарий
На вкладке Диаграмма точности прогнозов отображается графическое представление изменения точности, обеспечиваемое моделью интеллектуального анализа данных. Например, по базе данных Adventure Works Cycles отделу маркетинга необходимо разработать кампанию целевой рассылки. На основе предыдущих кампаний известно, что процент ответивших, равный 10, является типичным. В таблице базы данных хранится список, содержащий 10 000 потенциальных клиентов. На основании типового процента ответивших они могут ожидать, что ответит 1 000 потенциальных клиентов.
Однако денег, выделенных на проект, недостаточно, чтобы охватить все 10 000 клиентов, имеющихся в базе данных. На основе бюджета они могут позволить себе выслать рекламу только 5 000 клиентам. У отдела маркетинга есть следующие две возможности.
Случайно выбрать 5 000 целевых клиентов.
Использовать модель интеллектуального анализа данных, чтобы выбрать 5 000 целевых клиентов, вероятность ответа которых наиболее велика.
Если компания случайным образом выберет 5 000 клиентов, на основании типового процента ответивших она может ожидать лишь 500 ответов. Этот сценарий представлен случайной линией на диаграмме точности прогнозов. Но если отдел маркетинга использует модель интеллектуального анализа данных для целевой рассылки, то они могут ожидать более высокого процента ответивших, поскольку они могут связаться только с теми клиентами, вероятность ответа которых наиболее высока. Если бы модель была совершенной, то есть могла бы создавать безошибочные прогнозы, то в ответ на рассылку сообщений тысяче рекомендованных моделью клиентов компания могла бы ожидать получения всех 1 000 ответов. Этот сценарий представлен идеальной линией на диаграмме точности прогнозов. В реальности модель интеллектуального анализа данных находится, скорее всего, между этими крайними случаями: случайным предположением и идеальным прогнозом. Любое повышение по сравнению со случайным предположением считается повышением точности прогнозирования.
Основные сведения о диаграмме точности прогнозов
Диаграммы точности прогнозов бывают двух типов: в одном целевое значение для прогнозируемого столбца указывается, в другом — нет. При переключении между вкладкамиВыбор входа и Диаграмма точности прогнозов диаграмма обновляется, при этом отражаются все изменения, внесенные в сопоставления столбцов или в другие параметры.
Диаграмма точности прогнозов с целевым значением
На следующем рисунке показана диаграмма точности прогнозов для модели целевой рассылки, созданной в Учебник по основам интеллектуального анализа данных. На этой диаграмме целевым атрибутом является [Bike Buyer], а целевым значением – 1, это означает, что клиент приобрел велосипед или собирается это сделать. Таким образом, диаграмма точности прогнозов показывает улучшение, которое обеспечивает модель, при определении клиентов, которые собираются купить велосипед.
Кроме базовой модели диаграмма включает связанную модель, отфильтрованную по конкретным целевым клиентам. К диаграмме точности прогнозов можно добавлять несколько моделей, с условием, что все модели имеют одинаковый прогнозируемый атрибут. Этот фильтр ограничивает варианты, которые используются в обучении и оценке клиентов, не достигших возраста 30 лет. В результате количество вариантов, по которым оценивается модель, отличается для базовой модели и отфильтрованной модели. Это важно помнить при интерпретации результатов прогноза и других статистических данных.
Ось X диаграммы представляет процент проверочного набора данных, используемого для сравнения прогнозов. Ось Y диаграммы представляет процент предсказанных значений.
Диагональная прямая линия голубого цвета появляется на каждой диаграмме. Она представляет результат случайного выбора и является базовой линией, по которой оценивается точность предсказаний. Для каждой модели, добавляемой к диаграмме точности прогнозов, отображаются две дополнительные линии: одна показывает безупречный результат для набора данных для обучения, если удастся создать модель идеального прогноза, а вторая показывает фактическую точность предсказаний (или улучшение результата) для модели.
В этом примере идеальная линия для отфильтрованной модели отображается темно-синим цветом, а линия фактической точности предсказаний – желтым. На диаграмме можно видеть, что высшей точкой линии идеального прогноза является примерно 40 процентов. Это означает, что в случае идеальной модели можно охватить 100 процентов целевых клиентов, отправив рассылку лишь 40 процентам всей совокупности клиентов. Фактическая точность предсказаний для отфильтрованной модели, если отправить рассылку 40 процентам всей совокупности клиентов, составляет 60-70 процентов, а это означает, что можно охватить 60-70 процентов целевых клиентов, отправив рассылку 40 процентам всей совокупности клиентов.
Обозначения интеллектуального анализа данных содержат фактические значения для каждой точки кривых. Можно изменить измеряемое место, щелкнув вертикальную серую линию и переместив ее. На диаграмме серая линия смещена на 30 процентов, поскольку в этой точке наиболее эффективны как отфильтрованная, так и неотфильтрованная модели, а после нее точность предсказаний падает.
Условные обозначения интеллектуального анализа данных также содержат оценки и статистические данные, помогающие интерпретировать диаграмму. Эти результаты представляют точность модели на серой линии, которая в этом сценарии расположена так, чтобы включить 30 процентов всех проверочных вариантов.
Ряд, модель |
Оценка |
Целевое заполнение |
Вероятность предсказания |
---|---|---|---|
Целевая рассылка для всех |
0,71 |
47,40% |
61,38% |
Целевая рассылка для клиентов в возрасте менее 30 лет |
0,85 |
51,81% |
46,62% |
Модель случайного выбора |
31,00% |
||
Идеальная модель для: целевая рассылка для всех |
62,48% |
||
Идеальная модель для: @целевая рассылка для клиентов с возрастом менее 30 лет |
65,28% |
Из этих результатов можно видеть, что если оценивать 30 процентов от всех вариантов выбора, общая модель (целевая рассылка для всех) может предсказать поведение покупателей велосипедов 47,40 процентов целевого заполнения. Другими словами, если отправить рассылку только 30 процентам клиентов, имеющихся в базе данных, можно охватить немногим менее половины целевой аудитории. При использовании отфильтрованной модели можно охватить 51 процент целевых клиентов.
Значение Вероятность прогноза представляет пороговое значение, необходимое для включения клиента в вариант выбора «собирается купить». Для каждого варианта модель оценивает точность прогноза и сохраняет это значение, которое можно использовать для фильтрации или для планирования клиентов. Например, чтобы определить потенциальных клиентов из базовой модели, используется запрос для получения вариантов со значением вероятности прогноза не менее 61 процента. Чтобы получить клиентов, запланированных отфильтрованной моделью, нужно создать запрос, получающий варианты, которые удовлетворяют всем следующим условиям: возраст и значение PredictProbability не менее 46 процентов.
Интересно сравнить модели. Отфильтрованная модель охватывает больше потенциальных клиентов, но если планировать клиентов с оценкой вероятности прогноза, равной 46 процентам, существует 53-процентная вероятность отправить рассылку тем, кто не будет покупать велосипед. Поэтому при определении, какая модель лучше, нужно уравновешивать точность прогноза и меньший размер целевой аудитории в отфильтрованной модели с селективностью базовой модели.
Значение Оценка помогает сравнивать модели, вычисляя эффективность каждой относительно нормализованного заполнения. Более высокая оценка лучше, поэтому в этом случае можно решить, что планирование клиентов в возрасте менее 30 лет является более эффективным методом, несмотря на меньшую вероятность прогноза.
Диаграмма точности прогнозов для модели без целевого значения
Если не указано состояние прогнозируемого столбца, то можно создать диаграмму следующего типа, показанного на следующей диаграмме. На этой диаграмме показана точность модели для всех состояний прогнозируемого атрибута. Например, она покажет насколько точно модель предсказывает как клиентов, собирающихся купить велосипед, так и тех, кто вряд ли его купит.
Ось X такая же, как и на диаграмме с заданным прогнозируемым столбцом, но ось Y теперь представляет процент прогнозов, являющихся правильными. Поэтому идеальная линия проходит по диагонали и показывает, что при 50 процентах данных модель верно прогнозирует 50 процентов вариантов, то есть ожидаемый максимум.
Диаграмму можно щелкнуть, чтобы переместить серую линию, и Условные обозначения интеллектуального анализа данных отобразят процент всех вариантов и процент верно предсказанных вариантов. Например, если ползунок серой линии установить на отметке 50 процентов, в условных обозначениях интеллектуального анализа данных отобразятся следующие оценки точности. Эти рисунки созданы на основе модели TM_Decision Tree из учебника по основам интеллектуального анализа данных.
Ряд, модель |
Оценка |
Целевое заполнение |
Вероятность предсказания |
---|---|---|---|
TM_DecisionTree |
0.77 |
40.50% |
72.91% |
Идеальная модель |
50.00% |
Эта таблица показывает, что при 50-процентном заполнении созданная модель верно предсказывает 40 процентов вариантов. Ее можно считать достаточно точной моделью. Однако нужно помнить, что эта конкретная модель предсказывает все значения прогнозируемого атрибута. Поэтому эта модель может оказаться точной при прогнозе, что 90 клиентов не купят велосипед.
Примечание |
---|
Точность предсказания для всех дискретных значений прогнозируемого атрибута показана сплошной линией. Если нужно увидеть линии точности прогнозов для всех индивидуальных значений прогнозируемого атрибута, необходимо создать отдельную диаграмму точности прогнозов для каждого значения. |
В начало
Создания диаграммы точности прогнозов
В учебник по основам интеллектуального анализа данных включено пошаговое руководство по созданию диаграммы точности прогнозов для модели целевой рассылки. Дополнительные сведения см. в разделе Проверка точности при помощи диаграмм точности прогнозов (учебник интеллектуального анализа данных, начальный уровень).
Пошаговое описание процедуры для диаграмм всех типов см. в разделе Как создать диаграмму точности для модели интеллектуального анализа данных.
См. также