Partilhar via


Aggregator Classe

Define uma agregação em relação a colunas especificadas identificadas com chaves de associação.

Herança
builtins.object
Aggregator

Construtor

Aggregator()

Observações

Normalmente, os agregadores não são instanciados diretamente. Em vez disso, especifique o tipo de agregador ao utilizar um melhorador, como o HolidayEnricher objeto.

Os agregadores derivados incluem AggregatorAll, , AggregatorAvg, AggregatorMax, AggregatorMin, AggregatorTop.

O process(env, customer_data, public_data, join_keys, debug) método executa a agregação.

Métodos

get_log_property

Obtenha a cadeia de identificação da propriedade de registo, Nenhuma se não tiver propriedade.

process

Junte-se à esquerda customer_data com public_data no join_keys.

Largue todas as colunas no join_keys e em todas as colunas que se encontra na lista de to_be_cleaned_up_column_names posteriormente.

process_public_dataset

Efetue a agregação em colunas de dados públicos especificadas.

get_log_property

Obtenha a cadeia de identificação da propriedade de registo, Nenhuma se não tiver propriedade.

get_log_property()

process

Junte-se à esquerda customer_data com public_data no join_keys.

Largue todas as colunas no join_keys e em todas as colunas que se encontra na lista de to_be_cleaned_up_column_names posteriormente.

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

Parâmetros

Name Description
env
Necessário

O ambiente de runtime.

customer_data
Necessário

Os dados do cliente.

public_data
Necessário

Os dados públicos.

join_keys
Necessário

Uma lista de pares de chaves de associação.

debug
Necessário

Indica se pretende imprimir informações de depuração.

Devoluções

Tipo Description

Uma cadeia de identificação de ( uma nova instância da classe CustomerData, instância inalterada de PublicData, uma nova instância associada da classe CustomerData, chaves de associação (lista de cadeias de identificação))

process_public_dataset

Efetue a agregação em colunas de dados públicos especificadas.

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

Parâmetros

Name Description
env
Necessário

O ambiente de runtime.

_public_dataset
Necessário

Um dataframe de conjunto de dados público.

cols

Uma lista de nomes de colunas a obter.

Default value: None
join_keys

Uma lista de chaves de associação a utilizar.

Default value: []

Devoluções

Tipo Description

Um novo DataFrame do conjunto de dados público.

Atributos

should_direct_join

should_direct_join = True