Поделиться через


Функции задержки для прогнозирования временных рядов в AutoML

В этой статье описывается, как автоматизированное машинное обучение (AutoML) в Машинное обучение Azure создает функции задержки и агрегирования окон для прогнозирования моделей регрессии временных рядов. Функции AutoML используют исторические данные модели, которые могут значительно повысить точность модели, помогая модели изучать корреляционные шаблоны во времени.

Если вы хотите узнать больше о методологии прогнозирования в AutoML, ознакомьтесь с общими сведениями о методах прогнозирования в AutoML. Сведения о примерах обучения для моделей прогнозирования в AutoML см. в статье Настройка AutoML для обучения модели прогнозирования временных рядов с помощью пакета SDK и CLI.

Добавление признаков задержки в AutoML

AutoML создает функции задержки, соответствующие горизонту прогнозирования. В этом разделе рассматриваются признаки задержки в AutoML для модели с прогнозным горизонтом трех и целевого порядка задержки одного. В следующих таблицах представлены данные модели и функции задержки для ежемесячных временных рядов.

Таблица 1. Исходная временные ряды

Дата $y_t$
1/1/2001 0
2/1/2001 10
3/1/2001 20
4/1/2001 30
5/1/2001 40
6/1/2001 50

Первый шаг создает функцию задержки для горизонта $h=1$ только. В последующих таблицах показано, почему процесс использует отдельные горизонты для завершения признаков задержки.

Таблица 2. Отложение признаков для горизонта $h=1$

Дата $y_t$ Источник $y_{t-1}$ $h$
1/1/2001 0 12/1/2000 - 1
2/1/2001 10 1/1/2001 0 1
3/1/2001 20 2/1/2001 10 1
4/1/2001 30 3/1/2001 20 1
5/1/2001 40 4/1/2001 30 1
6/1/2001 50 5/1/2001 40 1

AutoML создает данные в таблице 2 из данных в таблице 1 путем перемещения столбца $y_t$ вниз по одному наблюдению. Таблицы 2–5 включают столбец "Источник ", чтобы отобразить даты, из которых возникают функции задержки.

Следующий шаг создает функцию задержки для горизонта прогнозирования $h=2$ только.

Таблица 3. Отложение признаков для прогнозного горизонта $h=2$

Дата $y_t$ Источник $y_{t-2}$ $h$
1/1/2001 0 11/1/2000 - 2
2/1/2001 10 12/1/2000 - 2
3/1/2001 20 1/1/2001 0 2
4/1/2001 30 2/1/2001 10 2
5/1/2001 40 3/1/2001 20 2
6/1/2001 50 4/1/2001 30 2

AutoML создает данные в таблице 3 из данных в таблице 1, переместив столбец $y_t$ вниз двумя наблюдениями.

Следующий шаг создает функцию задержки для горизонта прогнозирования $h=3$ только.

Таблица 4. Отложение признаков для прогнозного горизонта $h=3$

Дата $y_t$ Источник $y_{t-3}$ $h$
1/1/2001 0 10/1/2000 - 3
2/1/2001 10 11/1/2000 - 3
3/1/2001 20 12/1/2000 - 3
4/1/2001 30 1/1/2001 0 3
5/1/2001 40 2/1/2001 10 3
6/1/2001 50 3/1/2001 20 3

Последний шаг объединяет данные в таблицах 1, 2 и 3 и переупорядочение строк.

Таблица 5. Заполнение признаков задержки

Дата $y_t$ Источник $y_{t-1}^{(h)}$ $h$
1/1/2001 0 12/1/2000 - 1
1/1/2001 0 11/1/2000 - 2
1/1/2001 0 10/1/2000 - 3
2/1/2001 10 1/1/2001 0 1
2/1/2001 10 12/1/2000 - 2
2/1/2001 10 11/1/2000 - 3
3/1/2001 20 2/1/2001 10 1
3/1/2001 20 1/1/2001 0 2
3/1/2001 20 12/1/2000 - 3
4/1/2001 30 3/1/2001 20 1
4/1/2001 30 2/1/2001 10 2
4/1/2001 30 1/1/2001 0 3
5/1/2001 40 4/1/2001 30 1
5/1/2001 40 3/1/2001 20 2
5/1/2001 40 2/1/2001 10 3
6/1/2001 50 4/1/2001 40 1
6/1/2001 50 4/1/2001 30 2
6/1/2001 50 3/1/2001 20 3

В таблице 5 столбец задержки переименован в $y_{t-1}^{(h)}$ для отражения того, что задержка создается относительно определенного горизонта. В таблице 5 показано, как задержки, созданные относительно горизонта, можно сопоставить с обычными способами создания задержек в предыдущих таблицах.

Таблица 5 является примером расширения данных, которое AutoML применяется к обучающим данным, чтобы обеспечить прямое прогнозирование из моделей регрессии. Если конфигурация включает функции задержки, AutoML создает задержки, зависящие от горизонта, а также функцию целочисленного горизонта. Модели регрессии автоматического прогнозирования autoML могут сделать прогноз на горизонте $h$ без учета прогноза на $h-1$, в отличие от рекурсивно определенных моделей, таких как ARIMA.

Рекомендации по признаку задержки

Существует несколько соображений, связанных с отставанием признаков для модели. Ознакомьтесь со следующими разделами, чтобы определить возможные действия для вашего сценария.

Рост размера набора данных

Когда AutoML создает функции задержки, зависящие от горизонта, она добавляет новые строки в набор данных модели. Число новых строк пропорционально горизонту прогнозирования.

Рост размера набора данных может привести к ошибкам вне памяти на небольших вычислительных узлах или когда размер набора данных уже велик. Вы можете найти решения для решения этой проблемы в часто задаваемых вопросов (часто задаваемых вопросов) для прогнозирования AutoML.

Развязка порядка задержки и горизонта прогнозирования

Стратегия отставания AutoML отделяет порядок задержки и горизонт прогнозирования. Предположим, что горизонт прогноза составляет семь, и вы хотите, чтобы AutoML использовал функции задержки. В этом сценарии вам не нужно задавать порядок задержки на семь, чтобы обеспечить прогнозирование по полному горизонту прогнозирования. Так как AutoML создает задержки относительно горизонта, вы можете задать порядок задержки в одном. AutoML расширяет данные, поэтому задержки любого порядка допустимы до горизонта прогнозирования.