Aggregator 클래스

참조

조인 키로 식별된 지정된 열에 대한 집계를 정의합니다.

상속: builtins.object

Aggregator

생성자

Aggregator()

설명

집계는 일반적으로 직접 인스턴스화되지 않습니다. 대신 개체와 같은 보강자를 사용할 때 집계 형식을 HolidayEnricher 지정합니다.

파생 집계에는 AggregatorAll, AggregatorAvg, AggregatorMax, AggregatorMin, AggregatorTop가 포함됩니다.

process(env, customer_data, public_data, join_keys, debug) 메서드는 집계를 수행합니다.

메서드

get_log_property

로그 속성 튜플을 가져옵니다. 속성이 없으면 None입니다.

process

join_keys의 public_data와 customer_data를 레프트 조인합니다.

join_keys의 모든 열과 to_be_cleaned_up_column_names 목록에 있는 모든 열을 나중에 삭제합니다.

process_public_dataset

지정된 공개 데이터 열에 대해 집계를 수행합니다.

get_log_property

로그 속성 튜플을 가져옵니다. 속성이 없으면 None입니다.

get_log_property()

process

join_keys의 public_data와 customer_data를 레프트 조인합니다.

join_keys의 모든 열과 to_be_cleaned_up_column_names 목록에 있는 모든 열을 나중에 삭제합니다.

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

매개 변수

Name	Description
env 필수	RuntimeEnv 런타임 환경입니다.
customer_data 필수	CustomerData 고객 데이터입니다.
public_data 필수	PublicData 공개 데이터입니다.
join_keys 필수	list[tuple] 조인 키 쌍의 목록입니다.
debug 필수	bool 디버그 정보를 인쇄할지 여부를 나타냅니다.

반환

형식	Description
tuple[ CustomerData, PublicData, CustomerData, list[tuple([str, str])]	(CustomerData 클래스의 새 인스턴스, 변경되지 않은 PublicData 인스턴스, CustomerData 클래스의 새 조인된 인스턴스, 조인 키(튜플 목록))의 튜플입니다.

process_public_dataset

지정된 공개 데이터 열에 대해 집계를 수행합니다.

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

매개 변수

Name	Description
env 필수	RuntimeEnv 런타임 환경입니다.
_public_dataset 필수	DataFrame 공개 데이터 세트 데이터 프레임입니다.
cols	list 검색할 열 이름 목록입니다. Default value: None
join_keys	list 사용할 조인 키 목록입니다. Default value: []

반환

형식	Description
object	공개 데이터 세트의 새 DataFrame입니다.

특성

should_direct_join

should_direct_join = True

다음을 통해 공유

Aggregator 클래스

생성자

설명

메서드

get_log_property

process

매개 변수

반환

process_public_dataset

매개 변수

반환

특성

should_direct_join

피드백

추가 리소스