Aggregator Classe
Define uma agregação em relação a colunas especificadas identificadas com chaves de associação.
- Herança
-
builtins.objectAggregator
Construtor
Aggregator()
Observações
Normalmente, os agregadores não são instanciados diretamente. Em vez disso, especifique o tipo de agregador ao utilizar um melhorador, como o HolidayEnricher objeto.
Os agregadores derivados incluem AggregatorAll, , AggregatorAvg, AggregatorMax, AggregatorMin, AggregatorTop.
O process(env, customer_data, public_data, join_keys, debug)
método executa a agregação.
Métodos
get_log_property |
Obtenha a cadeia de identificação da propriedade de registo, Nenhuma se não tiver propriedade. |
process |
Junte-se à esquerda customer_data com public_data no join_keys. Largue todas as colunas no join_keys e em todas as colunas que se encontra na lista de to_be_cleaned_up_column_names posteriormente. |
process_public_dataset |
Efetue a agregação em colunas de dados públicos especificadas. |
get_log_property
Obtenha a cadeia de identificação da propriedade de registo, Nenhuma se não tiver propriedade.
get_log_property()
process
Junte-se à esquerda customer_data com public_data no join_keys.
Largue todas as colunas no join_keys e em todas as colunas que se encontra na lista de to_be_cleaned_up_column_names posteriormente.
process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)
Parâmetros
Name | Description |
---|---|
env
Necessário
|
O ambiente de runtime. |
customer_data
Necessário
|
Os dados do cliente. |
public_data
Necessário
|
Os dados públicos. |
join_keys
Necessário
|
Uma lista de pares de chaves de associação. |
debug
Necessário
|
Indica se pretende imprimir informações de depuração. |
Devoluções
Tipo | Description |
---|---|
Uma cadeia de identificação de ( uma nova instância da classe CustomerData, instância inalterada de PublicData, uma nova instância associada da classe CustomerData, chaves de associação (lista de cadeias de identificação)) |
process_public_dataset
Efetue a agregação em colunas de dados públicos especificadas.
process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object
Parâmetros
Name | Description |
---|---|
env
Necessário
|
O ambiente de runtime. |
_public_dataset
Necessário
|
Um dataframe de conjunto de dados público. |
cols
|
Uma lista de nomes de colunas a obter. Default value: None
|
join_keys
|
Uma lista de chaves de associação a utilizar. Default value: []
|
Devoluções
Tipo | Description |
---|---|
Um novo DataFrame do conjunto de dados público. |
Atributos
should_direct_join
should_direct_join = True