Проверка точности при помощи диаграмм точности прогнозов (учебник интеллектуального анализа данных — начальный уровень)
На вкладке Диаграмма точности интеллектуального анализа данных Designer интеллектуального анализа данных можно вычислить, насколько хорошо каждая из моделей делает прогнозы, и сравнить результаты каждой модели непосредственно с результатами других моделей. Этот метод сравнения называется диаграммой точности. Обычно точность прогнозирования модели интеллектуального анализа данных определяется либо точностью предсказания, либо точностью классификации. В данном учебнике используются только диаграммы точности прогнозов.
В этом разделе будут выполнены следующие задачи:
Выбор входных данных
Первым шагом в проверке точности моделей интеллектуального анализа данных является выбор источника данных, который будет использоваться для проверки. Будет проверено, насколько хорошо работают модели на проверочных данных, а затем эти модели будут использованы с внешними данными.
Выбор набора данных
Перейдите на вкладку Диаграмма точности интеллектуального анализа данных в Designer интеллектуального анализа данных в SQL Server Data Tools (SSDT) и выберите вкладку Выбор входных данных.
В поле Выберите набор данных для группы Диаграмма точности выберите Использовать тестовые случаи структуры интеллектуального анализа данных. Это проверочные данные, которые вы выделили при создании структуры интеллектуального анализа данных.
Дополнительные сведения о других параметрах см. в разделах Выбор типа диаграммы точности и Установка параметров диаграммы.
Настройка параметров диаграммы точности
Чтобы создать диаграмму точности, необходимо определить три вещи:
Какие модели следует включить в диаграмму точности?
Какой прогнозируемый атрибут нужно измерить? Некоторые модели могут иметь несколько целевых объектов, но каждая диаграмма может измерять только один результат одновременно.
Чтобы использовать столбец в качестве прогнозируемого имени столбца на диаграмме точности, столбцы должны иметь тип
Predict
использования илиPredict Only
. Кроме того, типом содержимого целевого столбца должно быть илиDiscrete
Discretized
. Иными словами, с помощью диаграммы точности нельзя измерить точность непрерывных числовых выходных данных.Вы хотите измерить общую точность модели или ее точность при прогнозировании определенного значения (например, [Bike Buyer] = 'Yes')
Создание диаграммы точности
На вкладке Выбор входных данных Designer интеллектуального анализа данных в разделе Выбор прогнозируемых столбцов модели интеллектуального анализа данных для отображения на диаграмме точности установите флажок Синхронизировать прогнозирующие столбцы и значения.
Убедитесь, что в столбце Имя прогнозируемого столбца выбрано значение Bike Buyer для каждой модели.
В столбце Показать выберите каждую из моделей.
По умолчанию выбраны все модели в структуре интеллектуального анализа данных. Можно выбрать любую из моделей, однако в данном учебнике следует оставить выбранными все модели.
В столбце Прогнозировать значение выберите 1. То же значение автоматически вводится для каждой модели, имеющей такой же прогнозируемый столбец.
Перейдите на вкладку Диаграмма точности .
При переходе на вкладку выполняется прогнозирующий запрос для получения прогнозов для тестовых данных, а результаты сравниваются с известными значениями. Результаты выводятся в виде диаграммы.
Если вы указали конкретный целевой результат с помощью параметра Прогнозировать значение , диаграмма точности отображает результаты случайных предположений и результаты идеальной модели.
Линия случайного предположения показывает, насколько точно модель будет без использования каких-либо данных для информирования ее прогнозов: то есть разделение 50–50 между двумя результатами. Диаграмма точности позволяет визуализировать, насколько лучше работает модель по сравнению со случайным предположением.
Идеальная линия модели представляет верхнюю границу точности. Он показывает максимально возможные преимущества, которые можно достичь, если модель всегда точно прогнозировала.
Созданные вами модели интеллектуального анализа данных обычно попадают между этими двумя крайнотами. Любое улучшение от случайного предположения считается подъемом.
Для нахождения линий, представляющих идеальную модель и модель случайного выбора, используйте условные обозначения.
Вы заметите, что
TM_Decision_Tree
модель обеспечивает наибольший подъем, превосходя модели Кластеризации и Упрощенного Байеса.
Подробное описание диаграммы точности, аналогичной созданной на этом занятии, см. в разделе Диаграмма точности (службы Analysis Services — интеллектуальный анализ данных).
Следующая задача занятия
Проверка модели с фильтром (учебник по интеллектуальному анализу данных — начальный уровень)
См. также:
Диаграмма точности прогнозов (службы Analysis Services — интеллектуальный анализ данных)
Вкладка «Диаграмма точности прогнозов» (представление диаграммы точности интеллектуального анализа данных)