Aggregator Třída
Definuje agregaci pro zadané sloupce identifikované pomocí klíčů spojení.
- Dědičnost
-
builtins.objectAggregator
Konstruktor
Aggregator()
Poznámky
Agregátory se obvykle nedají vytvořit přímo. Místo toho zadejte typ agregátoru při použití rozšiřujícího nástroje, jako HolidayEnricher je například objekt .
Mezi odvozené agregátory patří AggregatorAll, , AggregatorMaxAggregatorAvg, , AggregatorMin. AggregatorTop
Metoda process(env, customer_data, public_data, join_keys, debug)
provede agregaci.
Metody
get_log_property |
Získejte řazenou kolekci členů vlastnosti protokolu, pokud žádná vlastnost není k dispozici. |
process |
Levé customer_data spojení s public_data na join_keys. Přetáhněte všechny sloupce v join_keys a všechny sloupce, které jsou v seznamu to_be_cleaned_up_column_names potom. |
process_public_dataset |
Proveďte agregaci u zadaných veřejných sloupců dat. |
get_log_property
Získejte řazenou kolekci členů vlastnosti protokolu, pokud žádná vlastnost není k dispozici.
get_log_property()
process
Levé customer_data spojení s public_data na join_keys.
Přetáhněte všechny sloupce v join_keys a všechny sloupce, které jsou v seznamu to_be_cleaned_up_column_names potom.
process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)
Parametry
Name | Description |
---|---|
env
Vyžadováno
|
Prostředí modulu runtime. |
customer_data
Vyžadováno
|
Zákaznická data. |
public_data
Vyžadováno
|
Veřejná data. |
join_keys
Vyžadováno
|
Seznam párů klíčů spojení. |
debug
Vyžadováno
|
Určuje, jestli se mají vytisknout informace o ladění. |
Návraty
Typ | Description |
---|---|
Řazená kolekce členů ( nová instance třídy CustomerData, nezměněná instance PublicData, nová připojená instance třídy CustomerData, klíče spojení (seznam řazených kolekcí členů)) |
process_public_dataset
Proveďte agregaci u zadaných veřejných sloupců dat.
process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object
Parametry
Name | Description |
---|---|
env
Vyžadováno
|
Prostředí modulu runtime. |
_public_dataset
Vyžadováno
|
Datový rámec veřejné datové sady. |
cols
|
Seznam názvů sloupců, které se mají načíst. Default value: None
|
join_keys
|
Seznam klíčů pro spojení, které se mají použít. Default value: []
|
Návraty
Typ | Description |
---|---|
Nový datový rámec veřejné datové sady. |
Atributy
should_direct_join
should_direct_join = True