Aggregator Klasse
Definiert eine Aggregation für angegebene Spalten, die mit Joinschlüsseln identifiziert werden.
- Vererbung
-
builtins.objectAggregator
Konstruktor
Aggregator()
Hinweise
Aggregatoren werden in der Regel nicht direkt instanziiert. Geben Sie stattdessen den Typ des Aggregators an, wenn Sie eine Anreicherung wie das HolidayEnricher-Objekt verwenden.
Abgeleitete Aggregatoren umfassen AggregatorAll, AggregatorAvg, AggregatorMax, AggregatorMin und AggregatorTop.
Die process(env, customer_data, public_data, join_keys, debug)
-Methode führt die Aggregation aus.
Methoden
get_log_property |
Ruft das Protokolleigenschaftstupel ab; „None“, wenn keine Eigenschaft vorhanden ist. |
process |
Verknüpft „customer_data“ mit „public_data“ nach „join_keys“ Löscht alle Spalten in join_keys und alle Spalten, die sich anschließend in der Liste to_be_cleaned_up_column_names befinden. |
process_public_dataset |
Führt eine Aggregation für die angegebenen öffentlichen Datenspalten aus |
get_log_property
Ruft das Protokolleigenschaftstupel ab; „None“, wenn keine Eigenschaft vorhanden ist.
get_log_property()
process
Verknüpft „customer_data“ mit „public_data“ nach „join_keys“
Löscht alle Spalten in join_keys und alle Spalten, die sich anschließend in der Liste to_be_cleaned_up_column_names befinden.
process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)
Parameter
Name | Beschreibung |
---|---|
env
Erforderlich
|
Die Laufzeitumgebung. |
customer_data
Erforderlich
|
Die Kundendaten. |
public_data
Erforderlich
|
Öffentliche Daten |
join_keys
Erforderlich
|
Eine Liste von Joinschlüsselpaaren. |
debug
Erforderlich
|
Gibt an, ob Debuginformationen ausgegeben werden sollen |
Gibt zurück
Typ | Beschreibung |
---|---|
Ein Tupel aus einer neuen Instanz der CustomerData-Klasse, einer unveränderten PublicData-Instanz, einer neuen verknüpften Instanz der CustomerData-Klasse und Joinschlüsseln (Tupelliste) wird zurückgegeben. |
process_public_dataset
Führt eine Aggregation für die angegebenen öffentlichen Datenspalten aus
process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object
Parameter
Name | Beschreibung |
---|---|
env
Erforderlich
|
Die Laufzeitumgebung. |
_public_dataset
Erforderlich
|
Ein Datenrahmen des öffentlicher Datasets. |
cols
|
Eine Liste abzurufender Spaltennamen. Standardwert: None
|
join_keys
|
Liste der zu verwendenden Joinschlüssel Standardwert: []
|
Gibt zurück
Typ | Beschreibung |
---|---|
Einen neuen Dataframe des öffentlichen Datasets |
Attribute
should_direct_join
should_direct_join = True