Aggregator Classe

Referência

Define uma agregação em relação a colunas especificadas identificadas com chaves de associação.

Herança: builtins.object

Aggregator

Construtor

Aggregator()

Observações

Normalmente, os agregadores não são instanciados diretamente. Em vez disso, especifique o tipo de agregador ao utilizar um melhorador, como o HolidayEnricher objeto.

Os agregadores derivados incluem AggregatorAll, , AggregatorAvg, AggregatorMax, AggregatorMin, AggregatorTop.

O process(env, customer_data, public_data, join_keys, debug) método executa a agregação.

Métodos

get_log_property

Obtenha a cadeia de identificação da propriedade de registo, Nenhuma se não tiver propriedade.

process

Junte-se à esquerda customer_data com public_data no join_keys.

Largue todas as colunas no join_keys e em todas as colunas que se encontra na lista de to_be_cleaned_up_column_names posteriormente.

process_public_dataset

Efetue a agregação em colunas de dados públicos especificadas.

get_log_property

Obtenha a cadeia de identificação da propriedade de registo, Nenhuma se não tiver propriedade.

get_log_property()

process

Junte-se à esquerda customer_data com public_data no join_keys.

Largue todas as colunas no join_keys e em todas as colunas que se encontra na lista de to_be_cleaned_up_column_names posteriormente.

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

Parâmetros

Name	Description
env Necessário	RuntimeEnv O ambiente de runtime.
customer_data Necessário	CustomerData Os dados do cliente.
public_data Necessário	PublicData Os dados públicos.
join_keys Necessário	list[tuple] Uma lista de pares de chaves de associação.
debug Necessário	bool Indica se pretende imprimir informações de depuração.

Devoluções

Tipo	Description
tuple[ CustomerData, PublicData, CustomerData, list[tuple([str, str])]	Uma cadeia de identificação de ( uma nova instância da classe CustomerData, instância inalterada de PublicData, uma nova instância associada da classe CustomerData, chaves de associação (lista de cadeias de identificação))

process_public_dataset

Efetue a agregação em colunas de dados públicos especificadas.

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

Parâmetros

Name	Description
env Necessário	RuntimeEnv O ambiente de runtime.
_public_dataset Necessário	DataFrame Um dataframe de conjunto de dados público.
cols	list Uma lista de nomes de colunas a obter. Default value: None
join_keys	list Uma lista de chaves de associação a utilizar. Default value: []

Devoluções

Tipo	Description
object	Um novo DataFrame do conjunto de dados público.

Atributos

should_direct_join

should_direct_join = True

Partilhar via

Aggregator Classe

Construtor

Observações

Métodos

get_log_property

process

Parâmetros

Devoluções

process_public_dataset

Parâmetros

Devoluções

Atributos

should_direct_join

Comentários

Recursos adicionais