Aggregator Classe
Definisce un'aggregazione rispetto alle colonne specificate identificate con chiavi di join.
- Ereditarietà
-
builtins.objectAggregator
Costruttore
Aggregator()
Commenti
Gli aggregatori non vengono in genere creata direttamente. Specificare invece il tipo di aggregatore quando si usa un arricchimento, ad esempio l'oggetto HolidayEnricher .
Gli aggregatori derivati includono AggregatorAll, , AggregatorAvgAggregatorMax, . AggregatorTopAggregatorMin
Il process(env, customer_data, public_data, join_keys, debug)
metodo esegue l'aggregazione.
Metodi
get_log_property |
Ottenere la tupla della proprietà log, Nessuna se nessuna proprietà. |
process |
Aggiunta a sinistra customer_data con public_data su join_keys. Eliminare tutte le colonne in join_keys e tutte le colonne presenti nell'elenco di to_be_cleaned_up_column_names successivamente. |
process_public_dataset |
Eseguire l'aggregazione nelle colonne di dati pubbliche specificate. |
get_log_property
Ottenere la tupla della proprietà log, Nessuna se nessuna proprietà.
get_log_property()
process
Aggiunta a sinistra customer_data con public_data su join_keys.
Eliminare tutte le colonne in join_keys e tutte le colonne presenti nell'elenco di to_be_cleaned_up_column_names successivamente.
process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)
Parametri
Nome | Descrizione |
---|---|
env
Necessario
|
Ambiente di runtime. |
customer_data
Necessario
|
Dati del cliente. |
public_data
Necessario
|
Dati pubblici. |
join_keys
Necessario
|
Elenco delle coppie chiave di join. |
debug
Necessario
|
Indica se stampare le informazioni di debug. |
Restituisce
Tipo | Descrizione |
---|---|
Tupla di ( una nuova istanza della classe CustomerData, istanza invariata di PublicData, una nuova istanza unita della classe CustomerData, chiavi di join (elenco di tuple)) |
process_public_dataset
Eseguire l'aggregazione nelle colonne di dati pubbliche specificate.
process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object
Parametri
Nome | Descrizione |
---|---|
env
Necessario
|
Ambiente di runtime. |
_public_dataset
Necessario
|
Dataframe del set di dati pubblico. |
cols
|
Elenco di nomi di colonna da recuperare. Valore predefinito: None
|
join_keys
|
Elenco delle chiavi di join da usare. Valore predefinito: []
|
Restituisce
Tipo | Descrizione |
---|---|
Nuovo dataframe del set di dati pubblico. |
Attributi
should_direct_join
should_direct_join = True