Aggregator Classe

Riferimento

Definisce un'aggregazione rispetto alle colonne specificate identificate con chiavi di join.

Ereditarietà: builtins.object

Aggregator

Costruttore

Aggregator()

Commenti

Gli aggregatori non vengono in genere creata direttamente. Specificare invece il tipo di aggregatore quando si usa un arricchimento, ad esempio l'oggetto HolidayEnricher .

Gli aggregatori derivati includono AggregatorAll, , AggregatorAvg AggregatorMax, . AggregatorTop AggregatorMin

Il process(env, customer_data, public_data, join_keys, debug) metodo esegue l'aggregazione.

Metodi

get_log_property

Ottenere la tupla della proprietà log, Nessuna se nessuna proprietà.

process

Aggiunta a sinistra customer_data con public_data su join_keys.

Eliminare tutte le colonne in join_keys e tutte le colonne presenti nell'elenco di to_be_cleaned_up_column_names successivamente.

process_public_dataset

Eseguire l'aggregazione nelle colonne di dati pubbliche specificate.

get_log_property

Ottenere la tupla della proprietà log, Nessuna se nessuna proprietà.

get_log_property()

process

Aggiunta a sinistra customer_data con public_data su join_keys.

Eliminare tutte le colonne in join_keys e tutte le colonne presenti nell'elenco di to_be_cleaned_up_column_names successivamente.

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

Parametri

Nome	Descrizione
env Necessario	RuntimeEnv Ambiente di runtime.
customer_data Necessario	CustomerData Dati del cliente.
public_data Necessario	PublicData Dati pubblici.
join_keys Necessario	list[tuple] Elenco delle coppie chiave di join.
debug Necessario	bool Indica se stampare le informazioni di debug.

Restituisce

Tipo	Descrizione
tuple[ CustomerData, PublicData, CustomerData, list[tuple([str, str])]	Tupla di ( una nuova istanza della classe CustomerData, istanza invariata di PublicData, una nuova istanza unita della classe CustomerData, chiavi di join (elenco di tuple))

process_public_dataset

Eseguire l'aggregazione nelle colonne di dati pubbliche specificate.

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

Parametri

Nome	Descrizione
env Necessario	RuntimeEnv Ambiente di runtime.
_public_dataset Necessario	DataFrame Dataframe del set di dati pubblico.
cols	list Elenco di nomi di colonna da recuperare. Valore predefinito: None
join_keys	list Elenco delle chiavi di join da usare. Valore predefinito: []

Restituisce

Tipo	Descrizione
object	Nuovo dataframe del set di dati pubblico.

Attributi

should_direct_join

should_direct_join = True

Condividi tramite

Aggregator Classe

Costruttore

Commenti

Metodi

get_log_property

process

Parametri

Restituisce

process_public_dataset

Parametri

Restituisce

Attributi

should_direct_join

Commenti e suggerimenti

Risorse aggiuntive