Příprava dat pro prognózování
Tento článek popisuje, jak AutoML připravuje data pro prognózování trénování a popisuje konfigurovatelná nastavení dat. Tyto možnosti můžete upravit během nastavení experimentu v uživatelském rozhraní AutoML.
Informace o konfiguraci těchto nastavení pomocí rozhraní API AutoML najdete v referenčních informacích k rozhraní Python API autoML.
Podporované datové typy funkcí
Podporují se jenom níže uvedené typy funkcí. Obrázky se například nepodporují .
Podporují se následující typy funkcí:
- Číselné (
ByteType
, ,ShortType
IntegerType
LongType
, ,FloatType
a )DoubleType
- Logická hodnota
- Řetězec (kategorický nebo anglický text)
- Časové razítka (
TimestampType
,DateType
) - ArrayType[Numeric] (Databricks Runtime 10.4 LTS ML a vyšší)
- DecimalType (Databricks Runtime 11.3 LTS ML a vyšší)
Doplňovat chybějící values
V Databricks Runtime 10.4 LTS ML a novějších můžete určit, jak jsou imputovány hodnoty null values. V uživatelském rozhraní vyberte metodu select z rozevíracího seznamu v sekci Impute scolumn v tableschema. V rozhraní API použijte imputers
parametr. Další informace najdete v tématu Referenční informace k rozhraní PYTHON API pro AutoML.
AutoML ve výchozím nastavení vybere metodu imputace na základě typu column a obsahu.
Poznámka:
Pokud zadáte metodu bez výchozí imputace, AutoML neprovádí detekci sémantických typů.
Rozdělení dat prognóz do trénovacích, ověřovacích a testovacích sad
AutoML rozdělí data do tří rozdělení pro trénování, ověřování a testování.
Pro úlohy prognózování používá AutoML křížové ověřování časových řad. Tato metoda přírůstkově rozšiřuje trénovací datovou sadu chronologicky a provádí ověřování v následných časových bodech. Křížové ověřování poskytuje robustní vyhodnocení výkonu modelu v různých segmentech času. Zajišťuje, aby byl model prognózování pečlivě testován proti nezoznaným budoucím datům, přičemž zachovává relevanci a přesnost předpovědí.
Počet záhybů křížového ověřování závisí na vlastnostech vstupních table, jako je počet časových řad, přítomnost kovariantů a délka časové řady.
Agregace časových řad
V případě problémů s prognózováním, když pro časové razítko v časové řadě existuje více hodnot values, používá AutoML průměr hodnot values.
Pokud chcete místo toho použít součet, upravte poznámkový blok zdrojového kódu vygenerovaný zkušebními spuštěními.
V buňce Agregovat data podle ... změňte .agg(y=(target_col, "avg"))
na .agg(y=(target_col, "sum"))
, jak je znázorněno na obrázku:
group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
.groupby(group_cols) \
.agg(y=(target_col, "sum")) \
.reset_index() \
.rename(columns={ time_col : "ds" })