Aggregator Clase

Referencia

Define una agregación en columnas especificadas identificadas con claves de combinación.

Herencia: builtins.object

Aggregator

Constructor

Aggregator()

Comentarios

Normalmente, no se crea una instancia de los agregadores directamente. En su lugar, especifique el tipo de agregador al usar un enriquecedor como el objeto HolidayEnricher.

Los agregadores derivados incluyen AggregatorAll, AggregatorAvg, AggregatorMax, AggregatorMin, AggregatorTop.

El método process(env, customer_data, public_data, join_keys, debug) realiza la agregación.

Métodos

get_log_property

Obtenga la tupla de la propiedad de registro; None si no hay ninguna propiedad.

process

Combinación izquierda customer_data con public_data en join_keys.

Elimina todas las columnas en join_keys y todas las columnas que están en la lista de to_be_cleaned_column_names después.

process_public_dataset

Realice la agregación en columnas de datos públicas especificadas.

get_log_property

Obtenga la tupla de la propiedad de registro; None si no hay ninguna propiedad.

get_log_property()

process

Combinación izquierda customer_data con public_data en join_keys.

Elimina todas las columnas en join_keys y todas las columnas que están en la lista de to_be_cleaned_column_names después.

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

Parámetros

Nombre	Description
env Requerido	RuntimeEnv Entorno de ejecución.
customer_data Requerido	CustomerData Datos del cliente.
public_data Requerido	PublicData Datos públicos.
join_keys Requerido	list[tuple] Lista de pares de claves de combinación.
debug Requerido	bool Indica si se va a imprimir la información de depuración.

Devoluciones

Tipo	Description
tuple[ CustomerData, PublicData, CustomerData, list[tuple([str, str])]	Una tupla de (una nueva instancia de clase CustomerData, instancia sin cambios de PublicData, una nueva instancia unida de clase CustomerData, claves de combinación [lista de tupla])

process_public_dataset

Realice la agregación en columnas de datos públicas especificadas.

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

Parámetros

Nombre	Description
env Requerido	RuntimeEnv Entorno de ejecución.
_public_dataset Requerido	DataFrame Trama de datos de conjunto de datos público.
cols	list Lista de nombres de columna que se recuperarán. Valor predeterminado: None
join_keys	list Lista de claves de combinación que se usarán. Valor predeterminado: []

Devoluciones

Tipo	Description
object	Nuevo DataFrame del conjunto de datos público.

Atributos

should_direct_join

should_direct_join = True

Compartir a través de

Aggregator Clase

Constructor

Comentarios

Métodos

get_log_property

process

Parámetros

Devoluciones

process_public_dataset

Parámetros

Devoluciones

Atributos

should_direct_join

Comentarios

Recursos adicionales