Preparação de dados para previsão
Este artigo descreve como o AutoML prepara dados para treinamento de previsão e descreve as configurações de dados configuráveis. Você pode ajustar essas opções durante a configuração do experimento na interface do usuário do AutoML.
Para definir essas configurações usando a API AutoML), consulte a referência da API AutoML Python.
Tipos de recursos de dados suportados
Apenas os tipos de recursos listados abaixo são suportados. Por exemplo, imagens não são suportadas.
Os seguintes tipos de recursos são suportados:
- Numérico (
ByteType
,ShortType
,IntegerType
,LongType
,FloatType
, eDoubleType
) - Boolean
- String (texto categórico ou em inglês)
- Carimbos de data/hora (
TimestampType
,DateType
) - ArrayType[Numeric] (Databricks Runtime 10.4 LTS ML e superior)
- DecimalType (Databricks Runtime 11.3 LTS ML e superior)
Imputar valores em falta
No Databricks Runtime 10.4 LTS ML e superior, você pode especificar como os valores nulos são imputados. Na interface do usuário, selecione um método na lista suspensa na coluna Impute com no esquema da tabela. Na API, use o imputers
parâmetro. Para obter mais informações, consulte Referência da API do AutoML Python.
Por padrão, o AutoML seleciona um método de imputação com base no tipo de coluna e no conteúdo.
Nota
Se você especificar um método de imputação não padrão, o AutoML não executará a deteção de tipo semântico.
Divida os dados de previsão em conjuntos de treinamento, validação e teste
O AutoML divide seus dados em três divisões para treinamento, validação e teste.
Para tarefas de previsão, o AutoML usa a validação cruzada de séries temporais. Esse método estende incrementalmente o conjunto de dados de treinamento cronologicamente e executa a validação em pontos de tempo subsequentes. A validação cruzada fornece uma avaliação robusta do desempenho de um modelo ao longo de diferentes segmentos de tempo. Ele garante que o modelo de previsão seja rigorosamente testado em relação a dados futuros invisíveis, mantendo a relevância e a precisão das previsões.
O número de dobras de validação cruzada depende das características da tabela de entrada, como o número de séries temporais, a presença de covariáveis e o comprimento da série temporal.
Agregação de séries cronológicas
Para problemas de previsão, quando há vários valores para um carimbo de data/hora em uma série temporal, o AutoML usa a média dos valores.
Para usar a soma em vez disso, edite o bloco de anotações de código-fonte gerado pelas execuções de avaliação. Na célula Agregar dados por ..., altere .agg(y=(target_col, "avg"))
para .agg(y=(target_col, "sum"))
, conforme mostrado:
group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
.groupby(group_cols) \
.agg(y=(target_col, "sum")) \
.reset_index() \
.rename(columns={ time_col : "ds" })