Delen via


Aggregator Klas

Definieert een aggregatie op basis van opgegeven kolommen die zijn geïdentificeerd met joinsleutels.

Overname
builtins.object
Aggregator

Constructor

Aggregator()

Opmerkingen

Aggregators worden doorgaans niet rechtstreeks geïnstantieerd. Geef in plaats daarvan het type aggregator op wanneer u een verrijker gebruikt, zoals het HolidayEnricher -object.

Afgeleide aggregators omvatten AggregatorAll, AggregatorAvg, AggregatorMax, AggregatorMin, . AggregatorTop

De process(env, customer_data, public_data, join_keys, debug) methode voert de aggregatie uit.

Methoden

get_log_property

Tuple van logboekeigenschap ophalen, Geen of geen eigenschap.

process

Links koppelen customer_data met public_data op join_keys.

Verwijder alle kolommen in join_keys en alle kolommen in de lijst met to_be_cleaned_up_column_names erna.

process_public_dataset

Aggregatie uitvoeren op opgegeven openbare gegevenskolommen.

get_log_property

Tuple van logboekeigenschap ophalen, Geen of geen eigenschap.

get_log_property()

process

Links koppelen customer_data met public_data op join_keys.

Verwijder alle kolommen in join_keys en alle kolommen in de lijst met to_be_cleaned_up_column_names erna.

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

Parameters

Name Description
env
Vereist

De runtime-omgeving.

customer_data
Vereist

De klantgegevens.

public_data
Vereist

De openbare gegevens.

join_keys
Vereist

Een lijst met join-sleutelparen.

debug
Vereist

Geeft aan of foutopsporingsgegevens moeten worden afgedrukt.

Retouren

Type Description

Een tuple van ( een nieuw exemplaar van klasse CustomerData, ongewijzigd exemplaar van PublicData, een nieuw gekoppeld exemplaar van klasse CustomerData, joinsleutels (lijst met tuple))

process_public_dataset

Aggregatie uitvoeren op opgegeven openbare gegevenskolommen.

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

Parameters

Name Description
env
Vereist

De runtime-omgeving.

_public_dataset
Vereist

Een gegevensframe van een openbare gegevensset.

cols

Een lijst met op te halen kolomnamen.

Default value: None
join_keys

Een lijst met joinsleutels die moeten worden gebruikt.

Default value: []

Retouren

Type Description

Een nieuw DataFrame van de openbare gegevensset.

Kenmerken

should_direct_join

should_direct_join = True