Compartir a través de


Aggregator Clase

Define una agregación en columnas especificadas identificadas con claves de combinación.

Herencia
builtins.object
Aggregator

Constructor

Aggregator()

Comentarios

Normalmente, no se crea una instancia de los agregadores directamente. En su lugar, especifique el tipo de agregador al usar un enriquecedor como el objeto HolidayEnricher.

Los agregadores derivados incluyen AggregatorAll, AggregatorAvg, AggregatorMax, AggregatorMin, AggregatorTop.

El método process(env, customer_data, public_data, join_keys, debug) realiza la agregación.

Métodos

get_log_property

Obtenga la tupla de la propiedad de registro; None si no hay ninguna propiedad.

process

Combinación izquierda customer_data con public_data en join_keys.

Elimina todas las columnas en join_keys y todas las columnas que están en la lista de to_be_cleaned_column_names después.

process_public_dataset

Realice la agregación en columnas de datos públicas especificadas.

get_log_property

Obtenga la tupla de la propiedad de registro; None si no hay ninguna propiedad.

get_log_property()

process

Combinación izquierda customer_data con public_data en join_keys.

Elimina todas las columnas en join_keys y todas las columnas que están en la lista de to_be_cleaned_column_names después.

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

Parámetros

Nombre Description
env
Requerido

Entorno de ejecución.

customer_data
Requerido

Datos del cliente.

public_data
Requerido

Datos públicos.

join_keys
Requerido

Lista de pares de claves de combinación.

debug
Requerido

Indica si se va a imprimir la información de depuración.

Devoluciones

Tipo Description

Una tupla de (una nueva instancia de clase CustomerData, instancia sin cambios de PublicData, una nueva instancia unida de clase CustomerData, claves de combinación [lista de tupla])

process_public_dataset

Realice la agregación en columnas de datos públicas especificadas.

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

Parámetros

Nombre Description
env
Requerido

Entorno de ejecución.

_public_dataset
Requerido

Trama de datos de conjunto de datos público.

cols

Lista de nombres de columna que se recuperarán.

Valor predeterminado: None
join_keys

Lista de claves de combinación que se usarán.

Valor predeterminado: []

Devoluciones

Tipo Description

Nuevo DataFrame del conjunto de datos público.

Atributos

should_direct_join

should_direct_join = True