Вывод и оценка моделей прогнозирования
В этой статье рассматриваются понятия, связанные с выводом модели и оценкой в задачах прогнозирования. Инструкции и примеры для обучения моделей прогнозирования в AutoML см. в статье Настройка AutoML для обучения модели прогнозирования временных рядов с помощью пакета SDK и CLI.
После использования AutoML для обучения и выбора оптимальной модели следующим шагом является создание прогнозов. Затем, если это возможно, оцените их точность в тестовом наборе, проведенном из обучающих данных. Сведения о настройке и запуске оценки модели прогнозирования в автоматизированном машинном обучении см. в разделе "Оркестрация обучения", "Вывод" и "Оценка".
Сценарии вывода
В машинном обучении вывод — это процесс создания прогнозов модели для новых данных, не используемых в обучении. Существует несколько способов создания прогнозов в прогнозировании из-за зависимости времени от данных. Самый простой сценарий заключается в том, что период вывода сразу же следует за учебным периодом и вы создаете прогнозы на горизонт прогноза. Этот сценарий представлен на схеме ниже.
На схеме показаны два важных параметра вывода:
- Длина контекста — это объем журнала, который требуется модели для прогнозирования.
- Горизонт прогнозирования заключается в том, насколько далеко впереди прогнозировщик обучен прогнозировать.
Модели прогнозирования обычно используют некоторые исторические сведения, контекст, чтобы прогнозы заранее до горизонта прогнозирования. Если контекст является частью обучающих данных, AutoML сохраняет необходимые прогнозы. Нет необходимости явно предоставить его.
Существует два других сценария вывода, которые более сложны:
- Создание прогнозов дальше в будущее, чем горизонт прогнозирования
- Получение прогнозов при наличии разрыва между периодами обучения и вывода
В следующих подразделах рассматриваются эти случаи.
Прогнозирование мимо горизонта прогнозирования: рекурсивное прогнозирование
Если вам нужны прогнозы за горизонтом, AutoML применяет модель рекурсивно за период вывода. Прогнозы из модели возвращаются в качестве входных данных для создания прогнозов для последующих окон прогнозирования. На следующей схеме показан простой пример:
Здесь машинное обучение создает прогнозы на период в три раза больше длины горизонта. Он использует прогнозы из одного окна в качестве контекста для следующего окна.
Предупреждение
Ошибки моделирования рекурсивных прогнозируемых соединений. Прогнозы становятся менее точными, чем дальше они находятся от исходного горизонта прогнозирования. Вы можете найти более точную модель, повторно обучая с более длинным горизонтом.
Прогнозирование с разрывом между периодами обучения и вывода
Предположим, что после обучения модели вы хотите использовать ее, чтобы сделать прогнозы из новых наблюдений, которые еще не были доступны во время обучения. В этом случае между периодами обучения и вывода существует интервал времени:
AutoML поддерживает этот сценарий вывода, но необходимо предоставить данные контекста в период пробела, как показано на схеме. Данные прогнозирования, передаваемые компоненту вывода, нуждаются в значениях признаков и наблюдаемых целевых значений в разрыве и отсутствующих значениях или NaN
значениях целевого объекта в период вывода. В следующей таблице показан пример этого шаблона:
Известные значения целевого объекта и функций предоставляются через 2023-05-01
2023-05-03
. Отсутствующие целевые значения, начиная с 2023-05-04
того, указывают на то, что период вывода начинается с этой даты.
AutoML использует новые данные контекста для обновления задержки и других функций обратного просмотра, а также для обновления моделей, таких как ARIMA, которые сохраняют внутреннее состояние. Эта операция не обновляет или не изменяет параметры модели.
Оценка модели
Оценка — это процесс создания прогнозов на тестовом наборе, удерживаемом на основе обучающих данных и вычислительных метрик из этих прогнозов, которые направляют решения по развертыванию модели. Соответственно, существует режим вывода, подходящий для оценки модели: скользящий прогноз.
Рекомендуемая процедура оценки модели прогнозирования заключается в переадресации обученного прогнозировщика вовремя по набору тестов, усреднению метрик ошибок в нескольких окнах прогнозирования. Эта процедура иногда называется обратным тестом. В идеале набор тестов для оценки длинен относительно горизонта прогноза модели. Оценки ошибки прогнозирования могут быть статистически шумными и, следовательно, менее надежными.
На следующей схеме показан простой пример с тремя окнами прогнозирования:
На схеме показаны три скользящей оценки:
- Длина контекста — это объем журнала, который требуется модели для прогнозирования.
- Горизонт прогнозирования заключается в том, насколько далеко впереди прогнозировщик обучен прогнозировать.
- Размер шага заключается в том, насколько далеко впереди скользякое окно перемещается по каждому итерации в тестовом наборе.
Контекст перемещается вместе с окном прогнозирования. Фактические значения из тестового набора используются для прогнозирования, когда они попадают в текущее окно контекста. Последняя дата фактических значений, используемых для заданного окна прогноза, называется временем источника окна. В следующей таблице показан пример выходных данных из трех оконного прогноза с горизонтом трех дней и размером шага в один день:
В таблице, подобной этой, можно визуализировать прогнозы и фактические и вычисляемые метрики оценки. Конвейеры AutoML могут создавать скользящие прогнозы для тестового набора с компонентом вывода.
Примечание.
Если период тестирования совпадает с горизонтом прогнозирования, то в последовательном прогнозе есть одно окно прогнозов до горизонта.
Метрики оценки
Конкретный бизнес-сценарий обычно приводит к выбору сводки оценки или метрики. Некоторые распространенные варианты включают следующие примеры:
- Графики наблюдаемых целевых значений и прогнозируемых значений, чтобы убедиться, что некоторые динамические данные, которые фиксирует модель
- Средняя абсолютная процентная ошибка (MAPE) между фактическими и прогнозируемыми значениями
- Корень среднеквадратической ошибки (RMSE), возможно, с нормализацией между фактическими и прогнозируемыми значениями
- Средняя абсолютная ошибка (MAE), возможно, с нормализацией между фактическими и прогнозируемыми значениями
Существует множество других возможностей в зависимости от бизнес-сценария. Возможно, потребуется создать собственные служебные программы после обработки для вычислений метрик оценки из результатов вывода или скользящего прогноза. Дополнительные сведения о метриках см. в разделе регрессии и прогнозирования метрик.
Связанный контент
- Узнайте больше о настройке AutoML для обучения модели прогнозирования временных рядов.
- Узнайте, как AutoML использует машинное обучение для создания моделей прогнозирования.
- Ознакомьтесь с ответами на часто задаваемые вопросы о прогнозировании в AutoML.