Compartilhar via


Preparação de dados para previsão

Este artigo descreve como o AutoML prepara dados para treinamento de previsão e descreve as configurações de dados configuráveis. Você pode ajustar essas opções durante a configuração do experimento na interface de usuário do AutoML.

Para definir essas configurações usando a API do AutoML), consulte a referência da API Python do AutoML.

Tipos de recursos de dados com suporte

Somente os tipos de recursos listados abaixo são suportados. Por exemplo, não há suporte para imagens.

Há suporte para os seguintes tipos de recursos:

  • Numérico (ByteType, ShortType, IntegerType, LongType, FloatType e DoubleType)
  • Boolean
  • Cadeia de caracteres (texto categórico ou inglês)
  • Carimbos de data/hora (TimestampType, DateType)
  • ArrayType[Numeric] (Databricks Runtime 10.4 LTS ML e superior)
  • DecimalType (Databricks Runtime 11.3 LTS ML e posterior)

Acrescentar valores ausentes

No Databricks Runtime 10.4 LTS ML e superior, você pode especificar como valores nulos são imputados. Na interface do usuário, selecione um método na lista suspensa no Impute com coluna no esquema de tabela. Na API, use o parâmetro imputers. Para obter mais informações, consulte Referência da API do AutoML Python.

Por padrão, o AutoML seleciona um método de imputação com base no tipo de coluna e no conteúdo.

Observação

Se você especificar um método de imputação não padrão, o AutoML não executará a detecção de tipo semântico.

Divida os dados de previsão em conjuntos de treinamento, validação e teste

O AutoML divide seus dados em três divisões para treinamento, validação e teste.

Para tarefas de previsão, o AutoML usa validação cruzada de série temporal. Esse método estende cronologicamente o conjunto de dados de treinamento de forma incremental e executa a validação em pontos de tempo subsequentes. A validação cruzada fornece uma avaliação robusta do desempenho de um modelo em diferentes segmentos de tempo. Garante que o modelo de previsão seja rigorosamente testado em relação a dados futuros não previstos, mantendo a relevância e a precisão das previsões.

O número de dobras de validação cruzada depende das características da tabela de entrada, como o número de séries temporais, a presença de covariáveis e o comprimento da série temporal.

Agregação de série temporal

Para prever problemas, quando há vários valores para um carimbo de data/hora em uma série temporal, o AutoML usa a média dos valores.

Para usar a soma, edite o notebook do código-fonte gerado pelas execuções de teste. Na célula Agregar dados por..., altere .agg(y=(target_col, "avg")) para .agg(y=(target_col, "sum")), conforme mostrado:

group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
  .groupby(group_cols) \
  .agg(y=(target_col, "sum")) \
  .reset_index() \
  .rename(columns={ time_col : "ds" })