Aggregator Klasa
Definiuje agregację dla określonych kolumn zidentyfikowanych przy użyciu kluczy sprzężenia.
- Dziedziczenie
-
builtins.objectAggregator
Konstruktor
Aggregator()
Uwagi
Agregatory zwykle nie są tworzone bezpośrednio. Zamiast tego określ typ agregatora podczas korzystania z wzbogacacza, takiego jak HolidayEnricher obiekt.
Pochodne agregatory obejmują AggregatorAll, , AggregatorAvg, AggregatorMax, AggregatorMin, AggregatorTop.
Metoda process(env, customer_data, public_data, join_keys, debug)
wykonuje agregację.
Metody
get_log_property |
Pobierz krotkę właściwości dziennika, Brak, jeśli nie ma właściwości. |
process |
Customer_data sprzężenia lewego z public_data w join_keys. Upuść wszystkie kolumny w join_keys i wszystkie kolumny, które znajdują się na liście to_be_cleaned_up_column_names później. |
process_public_dataset |
Wykonaj agregację dla określonych kolumn danych publicznych. |
get_log_property
Pobierz krotkę właściwości dziennika, Brak, jeśli nie ma właściwości.
get_log_property()
process
Customer_data sprzężenia lewego z public_data w join_keys.
Upuść wszystkie kolumny w join_keys i wszystkie kolumny, które znajdują się na liście to_be_cleaned_up_column_names później.
process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)
Parametry
Nazwa | Opis |
---|---|
env
Wymagane
|
Środowisko uruchomieniowe. |
customer_data
Wymagane
|
Dane klienta. |
public_data
Wymagane
|
Dane publiczne. |
join_keys
Wymagane
|
Lista par kluczy sprzężenia. |
debug
Wymagane
|
Wskazuje, czy mają być drukowane informacje o debugowaniu. |
Zwraca
Typ | Opis |
---|---|
Krotka klasy CustomerData ( nowe wystąpienie klasy CustomerData, niezmienione wystąpienie publicData, nowe dołączone wystąpienie klasy CustomerData, klucze sprzężenia (lista krotki)) |
process_public_dataset
Wykonaj agregację dla określonych kolumn danych publicznych.
process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object
Parametry
Nazwa | Opis |
---|---|
env
Wymagane
|
Środowisko uruchomieniowe. |
_public_dataset
Wymagane
|
Publiczna ramka danych zestawu danych. |
cols
|
Lista nazw kolumn do pobrania. Domyślna wartość: None
|
join_keys
|
Lista kluczy sprzężenia do użycia. Domyślna wartość: []
|
Zwraca
Typ | Opis |
---|---|
Nowa ramka danych publicznego zestawu danych. |
Atrybuty
should_direct_join
should_direct_join = True