Aggregator Klasse

Referenz

Definiert eine Aggregation für angegebene Spalten, die mit Joinschlüsseln identifiziert werden.

Vererbung: builtins.object

Aggregator

Konstruktor

Aggregator()

Hinweise

Aggregatoren werden in der Regel nicht direkt instanziiert. Geben Sie stattdessen den Typ des Aggregators an, wenn Sie eine Anreicherung wie das HolidayEnricher-Objekt verwenden.

Abgeleitete Aggregatoren umfassen AggregatorAll, AggregatorAvg, AggregatorMax, AggregatorMin und AggregatorTop.

Die process(env, customer_data, public_data, join_keys, debug)-Methode führt die Aggregation aus.

Methoden

get_log_property

Ruft das Protokolleigenschaftstupel ab; „None“, wenn keine Eigenschaft vorhanden ist.

process

Verknüpft „customer_data“ mit „public_data“ nach „join_keys“

Löscht alle Spalten in join_keys und alle Spalten, die sich anschließend in der Liste to_be_cleaned_up_column_names befinden.

process_public_dataset

Führt eine Aggregation für die angegebenen öffentlichen Datenspalten aus

get_log_property

Ruft das Protokolleigenschaftstupel ab; „None“, wenn keine Eigenschaft vorhanden ist.

get_log_property()

process

Verknüpft „customer_data“ mit „public_data“ nach „join_keys“

Löscht alle Spalten in join_keys und alle Spalten, die sich anschließend in der Liste to_be_cleaned_up_column_names befinden.

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

Parameter

Name	Beschreibung
env Erforderlich	RuntimeEnv Die Laufzeitumgebung.
customer_data Erforderlich	CustomerData Die Kundendaten.
public_data Erforderlich	PublicData Öffentliche Daten
join_keys Erforderlich	list[tuple] Eine Liste von Joinschlüsselpaaren.
debug Erforderlich	bool Gibt an, ob Debuginformationen ausgegeben werden sollen

Gibt zurück

Typ	Beschreibung
tuple[ CustomerData, PublicData, CustomerData, list[tuple([str, str])]	Ein Tupel aus einer neuen Instanz der CustomerData-Klasse, einer unveränderten PublicData-Instanz, einer neuen verknüpften Instanz der CustomerData-Klasse und Joinschlüsseln (Tupelliste) wird zurückgegeben.

process_public_dataset

Führt eine Aggregation für die angegebenen öffentlichen Datenspalten aus

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

Parameter

Name	Beschreibung
env Erforderlich	RuntimeEnv Die Laufzeitumgebung.
_public_dataset Erforderlich	DataFrame Ein Datenrahmen des öffentlicher Datasets.
cols	list Eine Liste abzurufender Spaltennamen. Standardwert: None
join_keys	list Liste der zu verwendenden Joinschlüssel Standardwert: []

Gibt zurück

Typ	Beschreibung
object	Einen neuen Dataframe des öffentlichen Datasets

Attribute

should_direct_join

should_direct_join = True

Freigeben über

Aggregator Klasse

Konstruktor

Hinweise

Methoden

get_log_property

process

Parameter

Gibt zurück

process_public_dataset

Parameter

Gibt zurück

Attribute

should_direct_join

Feedback

Zusätzliche Ressourcen