Поделиться через


Подготовка данных для прогнозирования

В этой статье описывается, как AutoML подготавливает данные для обучения прогнозирования и описывает настраиваемые параметры данных. Эти параметры можно настроить во время настройки эксперимента в пользовательском интерфейсе AutoML.

Сведения о настройке этих параметров с помощью API AutoML см. в справочнике по API Python AutoML.

Поддерживаемые типы функций данных

Поддерживаются только перечисленные ниже типы функций. Например, изображения не поддерживаются.

Поддерживаются следующие типы функций:

  • Числовые (ByteType, ShortType, IntegerType, LongType, FloatType и DoubleType)
  • Логический
  • Строковые (категориальные или текст на английском языке)
  • Метки времени (TimestampType, DateType)
  • ArrayType[Numeric] (Databricks Runtime 10.4 LTS ML и более поздних версий)
  • DecimalType (Databricks Runtime 11.3 LTS ML и более поздней версии)

Вменить отсутствующие значения

В Databricks Runtime 10.4 LTS ML и более поздних версиях можно указать, как вменяются значения NULL. В пользовательском интерфейсе выберите метод из раскрывающегося списка в Impute с столбцом в схеме таблицы. В API используйте imputers параметр. Дополнительные сведения см . в справочнике по API Python AutoML.

По умолчанию AutoML выбирает метод импутации на основе типа столбца и содержимого.

Примечание.

При выборе метода добавления отсутствующих данных, кроме заданного по умолчанию, AutoML не выполняет Обнаружение семантических типов.

Разделение данных прогнозирования на наборы для обучения, проверки и тестирования

AutoML разделяет данные на три разбиения для обучения, проверки и тестирования.

Для задач прогнозирования autoML использует перекрестную проверку временных рядов. Этот метод постепенно расширяет набор данных обучения в хронологическом порядке и выполняет проверку в последующих точках времени. Перекрестная проверка обеспечивает надежную оценку производительности модели в разных сегментах времени. Это гарантирует, что модель прогнозирования тщательно проверяется на невидимые будущие данные, сохраняя релевантность и точность прогнозов.

Количество сверток перекрестной проверки зависит от характеристик входной таблицы, таких как количество временных рядов, наличие ковариатов и длина временных рядов.

Агрегирование временных рядов

Для проблем прогнозирования при наличии нескольких значений метки времени в временных рядах AutoML использует среднее значение значений.

Чтобы использовать сумму вместо этого, измените записную книжку исходного кода, созданную пробной версией. В ячейке Агрегировать данные по… измените .agg(y=(target_col, "avg")) на .agg(y=(target_col, "sum")), как показано ниже.

group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
  .groupby(group_cols) \
  .agg(y=(target_col, "sum")) \
  .reset_index() \
  .rename(columns={ time_col : "ds" })