Sdílet prostřednictvím


Příprava dat pro prognózování

Tento článek popisuje, jak AutoML připravuje data pro prognózování trénování a popisuje konfigurovatelná nastavení dat. Tyto možnosti můžete upravit během nastavení experimentu v uživatelském rozhraní AutoML.

Informace o konfiguraci těchto nastavení pomocí rozhraní API AutoML najdete v referenčních informacích k rozhraní Python API autoML.

Podporované datové typy funkcí

Podporují se jenom níže uvedené typy funkcí. Obrázky se například nepodporují .

Podporují se následující typy funkcí:

  • Číselné (ByteType, , ShortTypeIntegerTypeLongType, , FloatTypea )DoubleType
  • Logická hodnota
  • Řetězec (kategorický nebo anglický text)
  • Časové razítka (TimestampType, DateType)
  • ArrayType[Numeric] (Databricks Runtime 10.4 LTS ML a vyšší)
  • DecimalType (Databricks Runtime 11.3 LTS ML a vyšší)

Doplňovat chybějící values

V Databricks Runtime 10.4 LTS ML a novějších můžete určit, jak jsou imputovány hodnoty null values. V uživatelském rozhraní vyberte metodu select z rozevíracího seznamu v sekci Impute scolumn v tableschema. V rozhraní API použijte imputers parametr. Další informace najdete v tématu Referenční informace k rozhraní PYTHON API pro AutoML.

AutoML ve výchozím nastavení vybere metodu imputace na základě typu column a obsahu.

Poznámka:

Pokud zadáte metodu bez výchozí imputace, AutoML neprovádí detekci sémantických typů.

Rozdělení dat prognóz do trénovacích, ověřovacích a testovacích sad

AutoML rozdělí data do tří rozdělení pro trénování, ověřování a testování.

Pro úlohy prognózování používá AutoML křížové ověřování časových řad. Tato metoda přírůstkově rozšiřuje trénovací datovou sadu chronologicky a provádí ověřování v následných časových bodech. Křížové ověřování poskytuje robustní vyhodnocení výkonu modelu v různých segmentech času. Zajišťuje, aby byl model prognózování pečlivě testován proti nezoznaným budoucím datům, přičemž zachovává relevanci a přesnost předpovědí.

Počet záhybů křížového ověřování závisí na vlastnostech vstupních table, jako je počet časových řad, přítomnost kovariantů a délka časové řady.

Agregace časových řad

V případě problémů s prognózováním, když pro časové razítko v časové řadě existuje více hodnot values, používá AutoML průměr hodnot values.

Pokud chcete místo toho použít součet, upravte poznámkový blok zdrojového kódu vygenerovaný zkušebními spuštěními. V buňce Agregovat data podle ... změňte .agg(y=(target_col, "avg")) na .agg(y=(target_col, "sum")), jak je znázorněno na obrázku:

group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
  .groupby(group_cols) \
  .agg(y=(target_col, "sum")) \
  .reset_index() \
  .rename(columns={ time_col : "ds" })