Aggregator 클래스
조인 키로 식별된 지정된 열에 대한 집계를 정의합니다.
- 상속
-
builtins.objectAggregator
생성자
Aggregator()
설명
집계는 일반적으로 직접 인스턴스화되지 않습니다. 대신 개체와 같은 보강자를 사용할 때 집계 형식을 HolidayEnricher 지정합니다.
파생 집계에는 AggregatorAll, AggregatorAvg, AggregatorMax, AggregatorMin, AggregatorTop가 포함됩니다.
process(env, customer_data, public_data, join_keys, debug)
메서드는 집계를 수행합니다.
메서드
get_log_property |
로그 속성 튜플을 가져옵니다. 속성이 없으면 None입니다. |
process |
join_keys의 public_data와 customer_data를 레프트 조인합니다. join_keys의 모든 열과 to_be_cleaned_up_column_names 목록에 있는 모든 열을 나중에 삭제합니다. |
process_public_dataset |
지정된 공개 데이터 열에 대해 집계를 수행합니다. |
get_log_property
로그 속성 튜플을 가져옵니다. 속성이 없으면 None입니다.
get_log_property()
process
join_keys의 public_data와 customer_data를 레프트 조인합니다.
join_keys의 모든 열과 to_be_cleaned_up_column_names 목록에 있는 모든 열을 나중에 삭제합니다.
process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)
매개 변수
Name | Description |
---|---|
env
필수
|
런타임 환경입니다. |
customer_data
필수
|
고객 데이터입니다. |
public_data
필수
|
공개 데이터입니다. |
join_keys
필수
|
조인 키 쌍의 목록입니다. |
debug
필수
|
디버그 정보를 인쇄할지 여부를 나타냅니다. |
반환
형식 | Description |
---|---|
(CustomerData 클래스의 새 인스턴스, 변경되지 않은 PublicData 인스턴스, CustomerData 클래스의 새 조인된 인스턴스, 조인 키(튜플 목록))의 튜플입니다. |
process_public_dataset
지정된 공개 데이터 열에 대해 집계를 수행합니다.
process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object
매개 변수
Name | Description |
---|---|
env
필수
|
런타임 환경입니다. |
_public_dataset
필수
|
공개 데이터 세트 데이터 프레임입니다. |
cols
|
검색할 열 이름 목록입니다. Default value: None
|
join_keys
|
사용할 조인 키 목록입니다. Default value: []
|
반환
형식 | Description |
---|---|
공개 데이터 세트의 새 DataFrame입니다. |
특성
should_direct_join
should_direct_join = True