Préparation des données pour la prévision

Article
11/19/2024

Cet article décrit comment AutoML prépare les données pour la formation de prévision et décrit les paramètres de données configurables. Vous pouvez ajuster ces options durant la configuration de l’expérience dans l’IU AutoML.

Pour configurer ces paramètres à l’aide de l’API AutoML), consultez les informations de référence sur l’API Python AutoML.

Types de fonctionnalités de données pris en charge

Seuls les types de fonctionnalités répertoriés ci-dessous sont pris en charge. Par exemple, les images ne sont pas prises en charge.

Seuls les types de fonctionnalités suivants sont pris en charge :

Numerique ( ByteType, ShortType, IntegerType, LongType, FloatType , et DoubleType)
Boolean
Chaîne (texte catégorique ou anglais)
Horodatages (TimestampType, DateType)
ArrayType [Numeric] (Databricks Runtime 10.4 LTS ML et versions ultérieures)
DecimalType (Databricks Runtime 11.3 LTS ML et versions ultérieures)

Imputer des valeurs manquantes

Dans Databricks Runtime 10.4 LTS ML et versions ultérieures, vous pouvez spécifier la manière dont les valeurs null sont imputées. Dans l’interface utilisateur, sélectionnez une méthode dans la liste déroulante dans la colonne Imputer avec dans le schéma de table. Dans l’API, utilisez le paramètre imputers. Pour plus d’informations, consultez la référence de l’API Python AutoML.

Par défaut, AutoML sélectionne une méthode d’imputation en fonction du type et du contenu de la colonne.

Notes

Si vous spécifiez une méthode d’imputation autre que celle par défaut, AutoML n’effectue pas la détection de type sémantique.

Fractionner les données de prévision en jeux d’apprentissage, de validation et de test

AutoML fractionne vos données en trois parties à des fins de formation, de validation et de test.

Pour les tâches de prévision, AutoML utilise la validation croisée de série chronologique. Cette méthode étend de façon incrémentielle le jeu de données de formation chronologiquement et effectue la validation sur les points de temps suivants. La validation croisée fournit une évaluation robuste des performances d’un modèle sur différents segments de temps. Elle garantit que le modèle de prévision est rigoureusement testé par rapport aux données futures invisibles, en conservant la pertinence et la précision des prédictions.

Le nombre de plis de validation croisée dépend des caractéristiques de la table d’entrée, par exemple le nombre de séries chronologiques, la présence de covariables et la longueur des séries chronologiques.

Agrégation de séries chronologiques

Pour les problèmes de prévision, lorsqu’il existe plusieurs valeurs pour un horodatage dans une série chronologique, AutoML utilise la moyenne des valeurs.

Pour utiliser la somme à la place, modifiez le notebook de code source généré par les exécutions d’essai. Dans la cellule agréger les données par... , remplacez .agg(y=(target_col, "avg")) par .agg(y=(target_col, "sum")), comme indiqué ci-dessous :

group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
  .groupby(group_cols) \
  .agg(y=(target_col, "sum")) \
  .reset_index() \
  .rename(columns={ time_col : "ds" })

Partager via

Préparation des données pour la prévision

Types de fonctionnalités de données pris en charge

Imputer des valeurs manquantes

Fractionner les données de prévision en jeux d’apprentissage, de validation et de test

Agrégation de séries chronologiques

Commentaires

Ressources supplémentaires