Condividi tramite


Aggregator Classe

Definisce un'aggregazione rispetto alle colonne specificate identificate con chiavi di join.

Ereditarietà
builtins.object
Aggregator

Costruttore

Aggregator()

Commenti

Gli aggregatori non vengono in genere creata direttamente. Specificare invece il tipo di aggregatore quando si usa un arricchimento, ad esempio l'oggetto HolidayEnricher .

Gli aggregatori derivati includono AggregatorAll, , AggregatorAvgAggregatorMax, . AggregatorTopAggregatorMin

Il process(env, customer_data, public_data, join_keys, debug) metodo esegue l'aggregazione.

Metodi

get_log_property

Ottenere la tupla della proprietà log, Nessuna se nessuna proprietà.

process

Aggiunta a sinistra customer_data con public_data su join_keys.

Eliminare tutte le colonne in join_keys e tutte le colonne presenti nell'elenco di to_be_cleaned_up_column_names successivamente.

process_public_dataset

Eseguire l'aggregazione nelle colonne di dati pubbliche specificate.

get_log_property

Ottenere la tupla della proprietà log, Nessuna se nessuna proprietà.

get_log_property()

process

Aggiunta a sinistra customer_data con public_data su join_keys.

Eliminare tutte le colonne in join_keys e tutte le colonne presenti nell'elenco di to_be_cleaned_up_column_names successivamente.

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

Parametri

Nome Descrizione
env
Necessario

Ambiente di runtime.

customer_data
Necessario

Dati del cliente.

public_data
Necessario

Dati pubblici.

join_keys
Necessario

Elenco delle coppie chiave di join.

debug
Necessario

Indica se stampare le informazioni di debug.

Restituisce

Tipo Descrizione

Tupla di ( una nuova istanza della classe CustomerData, istanza invariata di PublicData, una nuova istanza unita della classe CustomerData, chiavi di join (elenco di tuple))

process_public_dataset

Eseguire l'aggregazione nelle colonne di dati pubbliche specificate.

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

Parametri

Nome Descrizione
env
Necessario

Ambiente di runtime.

_public_dataset
Necessario

Dataframe del set di dati pubblico.

cols

Elenco di nomi di colonna da recuperare.

Valore predefinito: None
join_keys

Elenco delle chiavi di join da usare.

Valore predefinito: []

Restituisce

Tipo Descrizione

Nuovo dataframe del set di dati pubblico.

Attributi

should_direct_join

should_direct_join = True