Aggregator Classe
Définit une agrégation par rapport aux colonnes spécifiées identifiées par des clés de jointure.
- Héritage
-
builtins.objectAggregator
Constructeur
Aggregator()
Remarques
En règle générale, les agrégateurs ne sont pas instanciés directement. À la place, spécifiez le type d’agrégateur quand vous utilisez un enrichisseur tel que l’objet HolidayEnricher.
Les agrégateurs dérivés incluent AggregatorAll, AggregatorAvg, AggregatorMax, AggregatorMin et AggregatorTop.
La méthode process(env, customer_data, public_data, join_keys, debug)
effectue l’agrégation.
Méthodes
get_log_property |
Permet d’obtenir le tuple de propriété de journal, None en l’absence de propriété. |
process |
Customer_data de jointure gauche avec public_data sur join_keys. Supprime toutes les colonnes de join_keys et toutes les colonnes qui se trouvent dans la liste to_be_cleaned_up_column_names par la suite. |
process_public_dataset |
Effectue une agrégation sur les colonnes de données publiques spécifiées. |
get_log_property
Permet d’obtenir le tuple de propriété de journal, None en l’absence de propriété.
get_log_property()
process
Customer_data de jointure gauche avec public_data sur join_keys.
Supprime toutes les colonnes de join_keys et toutes les colonnes qui se trouvent dans la liste to_be_cleaned_up_column_names par la suite.
process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)
Paramètres
Nom | Description |
---|---|
env
Obligatoire
|
Environnement d’exécution. |
customer_data
Obligatoire
|
Données client. |
public_data
Obligatoire
|
Données publiques. |
join_keys
Obligatoire
|
Liste de paires de clés de jointure. |
debug
Obligatoire
|
Indique s’il est nécessaire d’imprimer les informations de débogage. |
Retours
Type | Description |
---|---|
Un tuple de ( une nouvelle instance de la classe CustomerData, une instance inchangée de PublicData, une nouvelle instance jointe de la classe CustomerData, des clés de jointure (liste de tuples)) |
process_public_dataset
Effectue une agrégation sur les colonnes de données publiques spécifiées.
process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object
Paramètres
Nom | Description |
---|---|
env
Obligatoire
|
Environnement d’exécution. |
_public_dataset
Obligatoire
|
Trame de données du jeu de données public. |
cols
|
Liste des noms de colonnes à récupérer. Valeur par défaut: None
|
join_keys
|
Liste des clés de jointure à utiliser. Valeur par défaut: []
|
Retours
Type | Description |
---|---|
Nouvelle trame de données du jeu de données public. |
Attributs
should_direct_join
should_direct_join = True