Проверка моделей интеллектуального анализа данных
Можно использовать вкладку Диаграмма точности интеллектуального анализа данных конструктора интеллектуального анализа данных, чтобы проверить точность и сравнить прогнозирующие возможности моделей интеллектуального анализа в структуре интеллектуального анализа данных. Это полезно при выборе подходящего алгоритма или настройки параметров конкретного алгоритма.
Проверка — это важный шаг в процессе интеллектуального анализа данных. Знать то, насколько хорошо работает с реальными данными используемая модель интеллектуального анализа, важно еще до того, как модель будет развернута в производственной среде. Дополнительные сведения о том, как проверка моделей применяется в более общих процессах интеллектуального анализа данных, см. в разделе Основные понятия интеллектуального анализа данных.
Средства проверки
Вкладка Диаграмма точности интеллектуального анализа данных содержит следующие средства, используемые при проверке моделей интеллектуального анализа:
- Диаграмма точности предсказаний;
- Матрица классификации.
Диаграмма точности предсказаний
Диаграмма точности предсказаний создается путем построения графика по результатам прогнозирующих запросов из проверочного набора данных относительно известных значений прогнозируемых столбцов, присутствующих в наборе. Ниже приведен пример такой диаграммы.
Диаграмма отображает линию результатов модели интеллектуального анализа, вместе с двумя другими: одна линия представляет результаты работы идеальной модели, с совершенными безошибочными прогнозами, а другая — результаты случайного выбора. Результаты реальных моделей окажутся где-то между идеальными и случайными. Любое улучшение по сравнению с линией случайного выбора называется точностью предсказаний (lift), и чем большую точность предсказаний демонстрирует модель, тем она эффективнее.
Диаграммы точности предсказаний, которые строятся на основе непрерывных прогнозируемых атрибутов, — это точечные диаграммы, а не графики.
Чтобы построить диаграмму точности предсказаний, нужно следующее:
- одна или несколько обученных моделей интеллектуального анализа данных;
- входной набор данных, содержащий значение прогнозируемого столбца;
- сопоставление входных данных со структурой модели интеллектуального анализа.
Дополнительные сведения Раздел руководства по вкладке «Диаграмма точности интеллектуального анализа», Сопоставления столбцов (диаграмма точности предсказаний), Диаграмма точности предсказаний.
В начало
Матрица классификации
Вкладка Матрица классификации предлагает иной путь выяснения того, насколько точны прогнозы моделей интеллектуального анализа в пределах структуры. Матрица классификации строится на основе сравнения действительных значений, существующих в проверочном наборе данных, с теми, что прогнозируются моделью интеллектуального анализа. Матрица представляет собой полезный инструмент, поскольку она не только отображает, как часто модель прогнозировала верное значение, но и какие значения чаще всего прогнозируются неправильно.
Например, рассмотрим случай, когда модель была построена для прогнозирования типа членской карточки, которой пользуются покупатели в продуктовом магазине. Карточки бывают трех типов: бронзовые, серебряные и золотые. Следующая таблица — это представление матрицы классификации для модели, которая прогнозирует тип членской карточки на базе данных, где этот тип известен.
Бронзовая | Серебряная | Золотая | |
---|---|---|---|
Бронзовая |
Действительная |
Ошибка бронзовой |
Ошибка бронзовой |
Серебряная |
Ошибка серебряной |
Действительная |
Ошибка серебряной |
Золотая |
Ошибка золотой |
Ошибка золотой |
Действительная |
Значения, которые находятся на диагонали из верхнего левого в правый нижний угол матрицы, дают верное число значений, которые действительно присутствуют в проверочном наборе данных. Столбцы матрицы представляют элементы, которые были спрогнозированы в тестовом наборе данных. Строки представляют действительное состояние атрибута в том виде, в котором он имеется в проверочном наборе данных.
Например, рассмотрим, как модель интеллектуального анализа данных прогнозирует заказчиков с бронзовой карточкой. Значение на пересечении строки и столбца для бронзы представляет действительное число заказчиков с бронзовыми карточками в проверочной базе данных. Значение на пересечении столбца для серебра и строки для бронзы представляет собой число случаев, в которых было неверно спрогнозировано серебро, в то время как на самом деле это была бронза. Число неверно спрогнозированных значений для бронзы будет суммой пересечений столбца для бронзы со строками для серебра и золота. Анализ других типов карточек аналогичен приведенному.
Дополнительные сведенияРаздел руководства по вкладке «Диаграмма точности интеллектуального анализа», Сопоставления столбцов (диаграмма точности предсказаний), Матрица классификации.
В начало
См. также
Основные понятия
Использование средств интеллектуального анализа данных
Основные понятия интеллектуального анализа данных
Работа с интеллектуальным анализом данных
Другие ресурсы
Раздел руководства по вкладке «Диаграмма точности интеллектуального анализа»