Aggregator Klas
Definieert een aggregatie op basis van opgegeven kolommen die zijn geïdentificeerd met joinsleutels.
- Overname
-
builtins.objectAggregator
Constructor
Aggregator()
Opmerkingen
Aggregators worden doorgaans niet rechtstreeks geïnstantieerd. Geef in plaats daarvan het type aggregator op wanneer u een verrijker gebruikt, zoals het HolidayEnricher -object.
Afgeleide aggregators omvatten AggregatorAll, AggregatorAvg, AggregatorMax, AggregatorMin, . AggregatorTop
De process(env, customer_data, public_data, join_keys, debug)
methode voert de aggregatie uit.
Methoden
get_log_property |
Tuple van logboekeigenschap ophalen, Geen of geen eigenschap. |
process |
Links koppelen customer_data met public_data op join_keys. Verwijder alle kolommen in join_keys en alle kolommen in de lijst met to_be_cleaned_up_column_names erna. |
process_public_dataset |
Aggregatie uitvoeren op opgegeven openbare gegevenskolommen. |
get_log_property
Tuple van logboekeigenschap ophalen, Geen of geen eigenschap.
get_log_property()
process
Links koppelen customer_data met public_data op join_keys.
Verwijder alle kolommen in join_keys en alle kolommen in de lijst met to_be_cleaned_up_column_names erna.
process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)
Parameters
Name | Description |
---|---|
env
Vereist
|
De runtime-omgeving. |
customer_data
Vereist
|
De klantgegevens. |
public_data
Vereist
|
De openbare gegevens. |
join_keys
Vereist
|
Een lijst met join-sleutelparen. |
debug
Vereist
|
Geeft aan of foutopsporingsgegevens moeten worden afgedrukt. |
Retouren
Type | Description |
---|---|
Een tuple van ( een nieuw exemplaar van klasse CustomerData, ongewijzigd exemplaar van PublicData, een nieuw gekoppeld exemplaar van klasse CustomerData, joinsleutels (lijst met tuple)) |
process_public_dataset
Aggregatie uitvoeren op opgegeven openbare gegevenskolommen.
process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object
Parameters
Name | Description |
---|---|
env
Vereist
|
De runtime-omgeving. |
_public_dataset
Vereist
|
Een gegevensframe van een openbare gegevensset. |
cols
|
Een lijst met op te halen kolomnamen. Default value: None
|
join_keys
|
Een lijst met joinsleutels die moeten worden gebruikt. Default value: []
|
Retouren
Type | Description |
---|---|
Een nieuw DataFrame van de openbare gegevensset. |
Kenmerken
should_direct_join
should_direct_join = True