Datenvorbereitung für die Prognose
In diesem Artikel wird beschrieben, wie AutoML Daten für Prognoseschulungen vorbereitet und konfigurierbare Dateneinstellungen beschreibt. Sie können diese Optionen während der Experimenteinrichtung über die Benutzeroberfläche für automatisiertes maschinelles Lernen anpassen.
Informationen dazu, wie Sie diese Einstellungen über die API für automatisiertes maschinelles Lernen konfigurieren, finden Sie in der Referenz zur Python-API für automatisiertes maschinelles Lernen.
Unterstützte Datenmerkmalstypen
Nur die unten aufgeführten Featuretypen werden unterstützt. Bilder werden z. B. nicht unterstützt.
Die folgenden Merkmalstypen werden unterstützt:
- Numerisch (
ByteType
,ShortType
,IntegerType
,LongType
,FloatType
undDoubleType
) - Boolean
- Zeichenfolge (kategorischer oder englischer Text)
- Zeitstempel (
TimestampType
,DateType
) - ArrayType[Numeric] (Databricks Runtime 10.4 LTS ML und höher)
- DecimalType (Databricks Runtime 11.3 LTS ML und höher)
Imputieren von fehlenden Werten
In Databricks Runtime 10.4 LTS ML und höher können Sie angeben, wie NULL-Werte imputiert werden. Wählen Sie auf der Benutzeroberfläche eine Methode aus der Dropdownliste in der Spalte Imputation mit im Tabellenschema aus. Verwenden Sie in der API den Parameter imputers
. Weitere Informationen finden Sie in der Referenz zur AutoML-Python-API.
AutoML wählt als Standard eine Imputationsmethode auf der Grundlage des Spaltentyps und des Inhalts aus.
Hinweis
Wenn Sie eine nicht standardmäßige Imputationsmethode angeben, führt AutoML keine semantische Typerkennung durch.
Aufteilen von Prognosedaten in Train-, Validierungs- und Testsätze
Automatisiertes maschinelles Lernen teilt Ihre Daten auf drei Bereiche auf: Training, Validierung und Tests.
Für Prognosevorgänge verwendet AutoML die Zeitreihen-Kreuzvalidierung. Diese Methode erweitert das Trainingsdataset inkrementell chronologisch und führt eine Überprüfung für nachfolgende Zeitpunkte durch. Kreuzüberprüfung bietet eine robuste Auswertung der Leistung eines Modells über verschiedene Zeitsegmente. Es stellt sicher, dass das Prognosemodell streng auf zukünftige Daten getestet wird, wobei die Relevanz und Genauigkeit von Vorhersagen beibehalten wird.
Die Anzahl von Kreuzvalidierungsfalten hängt von den Eingabetabellenmerkmalen wie der Anzahl von Zeitreihen, dem Vorhandensein von Kovariaten und der Länge der Zeitreihen ab.
Zeitreihenaggregation
Wenn bei Vorhersageproblemen mehrere Werte für einen Zeitstempel in einer Zeitreihe vorhanden sind, verwendet AutoML den Durchschnitt der Werte.
Um stattdessen die Summe zu verwenden, bearbeiten Sie das Quellcode-Notebook, das im Zuge der Testausführungen generiert wurde. Ändern Sie in der Zelle Aggregieren von Daten nach ... .agg(y=(target_col, "avg"))
zu .agg(y=(target_col, "sum"))
auf folgende Weise:
group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
.groupby(group_cols) \
.agg(y=(target_col, "sum")) \
.reset_index() \
.rename(columns={ time_col : "ds" })