Aggregator Clase
Define una agregación en columnas especificadas identificadas con claves de combinación.
- Herencia
-
builtins.objectAggregator
Constructor
Aggregator()
Comentarios
Normalmente, no se crea una instancia de los agregadores directamente. En su lugar, especifique el tipo de agregador al usar un enriquecedor como el objeto HolidayEnricher.
Los agregadores derivados incluyen AggregatorAll, AggregatorAvg, AggregatorMax, AggregatorMin, AggregatorTop.
El método process(env, customer_data, public_data, join_keys, debug)
realiza la agregación.
Métodos
get_log_property |
Obtenga la tupla de la propiedad de registro; None si no hay ninguna propiedad. |
process |
Combinación izquierda customer_data con public_data en join_keys. Elimina todas las columnas en join_keys y todas las columnas que están en la lista de to_be_cleaned_column_names después. |
process_public_dataset |
Realice la agregación en columnas de datos públicas especificadas. |
get_log_property
Obtenga la tupla de la propiedad de registro; None si no hay ninguna propiedad.
get_log_property()
process
Combinación izquierda customer_data con public_data en join_keys.
Elimina todas las columnas en join_keys y todas las columnas que están en la lista de to_be_cleaned_column_names después.
process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)
Parámetros
Nombre | Description |
---|---|
env
Requerido
|
Entorno de ejecución. |
customer_data
Requerido
|
Datos del cliente. |
public_data
Requerido
|
Datos públicos. |
join_keys
Requerido
|
Lista de pares de claves de combinación. |
debug
Requerido
|
Indica si se va a imprimir la información de depuración. |
Devoluciones
Tipo | Description |
---|---|
Una tupla de (una nueva instancia de clase CustomerData, instancia sin cambios de PublicData, una nueva instancia unida de clase CustomerData, claves de combinación [lista de tupla]) |
process_public_dataset
Realice la agregación en columnas de datos públicas especificadas.
process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object
Parámetros
Nombre | Description |
---|---|
env
Requerido
|
Entorno de ejecución. |
_public_dataset
Requerido
|
Trama de datos de conjunto de datos público. |
cols
|
Lista de nombres de columna que se recuperarán. Valor predeterminado: None
|
join_keys
|
Lista de claves de combinación que se usarán. Valor predeterminado: []
|
Devoluciones
Tipo | Description |
---|---|
Nuevo DataFrame del conjunto de datos público. |
Atributos
should_direct_join
should_direct_join = True