Compartir a través de


Preparación de datos para la previsión

En este artículo se describe cómo AutoML prepara los datos para el entrenamiento de previsión y describe la configuración de datos configurable. Puede ajustar estas opciones durante la configuración del experimento en la Interfaz de usuario de AutoML.

Para configurar estas opciones mediante la API de AutoML), consulte la Referencia de la API de Python de AutoML.

Tipos de características de datos admitidos

Solo se admiten los tipos de características que se enumeran a continuación. Por ejemplo, no se admiten imágenes.

Se admiten los siguientes tipos de características:

  • Numérica (ByteType, ShortType, IntegerType, LongType, FloatType, y DoubleType)
  • Boolean
  • Cadena (texto categórico o en inglés)
  • Marcas de tiempo (TimestampType, DateType)
  • ArrayType[Numeric] (Databricks Runtime 10.4 LTS ML y posteriores)
  • DecimalType (Databricks Runtime 11.3 LTS ML y versiones posteriores)

Atribución de valores que faltan

En Databricks Runtime 10.4 LTS ML y posteriores, puede especificar cómo se imputan los valores NULL. En la interfaz de usuario, seleccione un método en la lista desplegable de la columna Impute with en el esquema de tabla. En la API, use el parámetro imputers. Para más información, consulte Referencia de la API de Python de AutoML.

De forma predeterminada, AutoML selecciona un método de imputación basado en el tipo de columna y el contenido.

Nota:

Si elige un método de imputación distinto del predeterminado, AutoML no realiza la detección de tipos semánticos.

Dividir los datos de previsión en conjuntos de entrenamiento, validación y pruebas

AutoML divide los datos en tres divisiones para el entrenamiento, la validación y las pruebas.

Para las tareas de pronóstico, AutoML usa la validación cruzada de series temporales. Este método amplía gradualmente el conjunto de datos de entrenamiento cronológicamente y procede con la validación en los puntos de tiempo posteriores. La validación cruzada proporciona una evaluación sólida del rendimiento de un modelo en distintos segmentos de tiempo. De este modo se garantiza que el modelo de pronóstico se pruebe rigurosamente con datos futuros inadvertidos, con lo que se mantiene la relevancia y la precisión de las predicciones.

El número de plegamientos de validación cruzada depende de las características de la tabla de entrada, como el número de series temporales, la presencia de covariados y la longitud de la serie temporal.

Agregación de serie temporal

Para los problemas de previsión, cuando hay varios valores para una marca de tiempo en una serie temporal, AutoML usa el promedio de los valores.

Para usar la suma en su lugar, edite el cuaderno de código fuente generado por la versión de prueba. En la celda Agregar datos por..., cambie .agg(y=(target_col, "avg")) a .agg(y=(target_col, "sum")), como se muestra aquí:

group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
  .groupby(group_cols) \
  .agg(y=(target_col, "sum")) \
  .reset_index() \
  .rename(columns={ time_col : "ds" })