다음을 통해 공유


Aggregator 클래스

조인 키로 식별된 지정된 열에 대한 집계를 정의합니다.

상속
builtins.object
Aggregator

생성자

Aggregator()

설명

집계는 일반적으로 직접 인스턴스화되지 않습니다. 대신 개체와 같은 보강자를 사용할 때 집계 형식을 HolidayEnricher 지정합니다.

파생 집계에는 AggregatorAll, AggregatorAvg, AggregatorMax, AggregatorMin, AggregatorTop가 포함됩니다.

process(env, customer_data, public_data, join_keys, debug) 메서드는 집계를 수행합니다.

메서드

get_log_property

로그 속성 튜플을 가져옵니다. 속성이 없으면 None입니다.

process

join_keys의 public_data와 customer_data를 레프트 조인합니다.

join_keys의 모든 열과 to_be_cleaned_up_column_names 목록에 있는 모든 열을 나중에 삭제합니다.

process_public_dataset

지정된 공개 데이터 열에 대해 집계를 수행합니다.

get_log_property

로그 속성 튜플을 가져옵니다. 속성이 없으면 None입니다.

get_log_property()

process

join_keys의 public_data와 customer_data를 레프트 조인합니다.

join_keys의 모든 열과 to_be_cleaned_up_column_names 목록에 있는 모든 열을 나중에 삭제합니다.

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

매개 변수

Name Description
env
필수

런타임 환경입니다.

customer_data
필수

고객 데이터입니다.

public_data
필수

공개 데이터입니다.

join_keys
필수

조인 키 쌍의 목록입니다.

debug
필수

디버그 정보를 인쇄할지 여부를 나타냅니다.

반환

형식 Description

(CustomerData 클래스의 새 인스턴스, 변경되지 않은 PublicData 인스턴스, CustomerData 클래스의 새 조인된 인스턴스, 조인 키(튜플 목록))의 튜플입니다.

process_public_dataset

지정된 공개 데이터 열에 대해 집계를 수행합니다.

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

매개 변수

Name Description
env
필수

런타임 환경입니다.

_public_dataset
필수

공개 데이터 세트 데이터 프레임입니다.

cols

검색할 열 이름 목록입니다.

Default value: None
join_keys

사용할 조인 키 목록입니다.

Default value: []

반환

형식 Description

공개 데이터 세트의 새 DataFrame입니다.

특성

should_direct_join

should_direct_join = True