Подготовка данных для прогнозирования
В этой статье описывается, как AutoML подготавливает данные для обучения прогнозирования и описывает настраиваемые параметры данных. Эти параметры можно настроить во время настройки эксперимента в пользовательском интерфейсе AutoML.
Сведения о настройке этих параметров с помощью API AutoML см. в справочнике по API Python AutoML.
Поддерживаемые типы функций данных
Поддерживаются только перечисленные ниже типы функций. Например, изображения не поддерживаются.
Поддерживаются следующие типы функций:
- Числовые (
ByteType
,ShortType
,IntegerType
,LongType
,FloatType
иDoubleType
) - Логический
- Строковые (категориальные или текст на английском языке)
- Метки времени (
TimestampType
,DateType
) - ArrayType[Numeric] (Databricks Runtime 10.4 LTS ML и более поздних версий)
- DecimalType (Databricks Runtime 11.3 LTS ML и более поздней версии)
Вменить отсутствующие значения
В Databricks Runtime 10.4 LTS ML и более поздних версиях можно указать, как вменяются значения NULL. В пользовательском интерфейсе выберите метод из раскрывающегося списка в Impute с столбцом в схеме таблицы. В API используйте imputers
параметр. Дополнительные сведения см . в справочнике по API Python AutoML.
По умолчанию AutoML выбирает метод импутации на основе типа столбца и содержимого.
Примечание.
При выборе метода добавления отсутствующих данных, кроме заданного по умолчанию, AutoML не выполняет Обнаружение семантических типов.
Разделение данных прогнозирования на наборы для обучения, проверки и тестирования
AutoML разделяет данные на три разбиения для обучения, проверки и тестирования.
Для задач прогнозирования autoML использует перекрестную проверку временных рядов. Этот метод постепенно расширяет набор данных обучения в хронологическом порядке и выполняет проверку в последующих точках времени. Перекрестная проверка обеспечивает надежную оценку производительности модели в разных сегментах времени. Это гарантирует, что модель прогнозирования тщательно проверяется на невидимые будущие данные, сохраняя релевантность и точность прогнозов.
Количество сверток перекрестной проверки зависит от характеристик входной таблицы, таких как количество временных рядов, наличие ковариатов и длина временных рядов.
Агрегирование временных рядов
Для проблем прогнозирования при наличии нескольких значений метки времени в временных рядах AutoML использует среднее значение значений.
Чтобы использовать сумму вместо этого, измените записную книжку исходного кода, созданную пробной версией. В ячейке Агрегировать данные по… измените .agg(y=(target_col, "avg"))
на .agg(y=(target_col, "sum"))
, как показано ниже.
group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
.groupby(group_cols) \
.agg(y=(target_col, "sum")) \
.reset_index() \
.rename(columns={ time_col : "ds" })