Delen via


Gegevensvoorbereiding voor prognoses

In dit artikel wordt beschreven hoe AutoML gegevens voorbereidt voor training voor prognoses en beschrijft configureerbare gegevensinstellingen. U kunt deze opties aanpassen tijdens het instellen van het experiment in de AutoML-gebruikersinterface.

Raadpleeg de Naslaginformatie over de Python-API voor AutoML voor het configureren van deze instellingen met behulp van de AutoML-API.

Ondersteunde gegevensfunctiestypen

Alleen de hieronder vermelde functietypen worden ondersteund. Afbeeldingen worden bijvoorbeeld niet ondersteund.

De volgende functietypen worden ondersteund:

  • Numeriek (, , , , , en ByteTypeShortType) IntegerTypeLongTypeFloatTypeDoubleType
  • Booleaanse waarde
  • Tekenreeks (categorische of Engelse tekst)
  • Tijdstempels (TimestampType, DateType)
  • ArrayType[Numeriek] (Databricks Runtime 10.4 LTS ML en hoger)
  • DecimalType (Databricks Runtime 11.3 LTS ML en hoger)

Imputeer ontbrekende values

In Databricks Runtime 10.4 LTS ML en hoger kunt u opgeven hoe null-values worden geïmputeerd. select in de gebruikersinterface een methode uit de vervolgkeuzelijst in de Impute metcolumn in de tableschema. Gebruik de imputers parameter in de API. Zie naslaginformatie over de AutoML Python-API voor meer informatie.

Standaard selecteert AutoML een imputatiemethode op basis van het column type en inhoud.

Notitie

Als u een niet-standaardimplicatiemethode opgeeft, voert AutoML geen semantische typedetectie uit.

Prognosegegevens splitsen in trainings-, validatie- en testsets

AutoML splitst uw gegevens in drie splitsingen voor training, validatie en testen.

Voor prognosetaken gebruikt AutoML kruisvalidatie van tijdreeksen. Deze methode breidt de trainingsgegevensset chronologisch uit en voert validatie uit op volgende tijdstippen. Kruisvalidatie biedt een robuuste evaluatie van de prestaties van een model gedurende verschillende tijdssegmenten. Het zorgt ervoor dat het voorspellingsmodel grondig wordt getest op ongelezen toekomstige gegevens, waarbij de relevantie en nauwkeurigheid van voorspellingen behouden blijven.

Het aantal kruisvalidatievouwvouwen is afhankelijk van invoer table kenmerken zoals het aantal tijdreeksen, de aanwezigheid van covariaten en de lengte van de tijdreeks.

Tijdreeksaggregatie

Voor het voorspellen van problemen, wanneer er meerdere values voor een tijdstempel in een tijdreeks zijn, gebruikt AutoML het gemiddelde van de values.

Als u de som wilt gebruiken, bewerkt u het broncodenotitieblok dat door de proefversie wordt gegenereerd. Wijzig .agg(y=(target_col, "avg"))in de .agg(y=(target_col, "sum")) in , zoals wordt weergegeven:

group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
  .groupby(group_cols) \
  .agg(y=(target_col, "sum")) \
  .reset_index() \
  .rename(columns={ time_col : "ds" })