Aggregator 類別
針對使用聯結索引鍵識別的指定資料行定義匯總。
- 繼承
-
builtins.objectAggregator
建構函式
Aggregator()
備註
匯總工具通常不會直接具現化。 請改用擴充器,例如 HolidayEnricher 物件,指定匯總工具的類型。
衍生匯總工具組括 AggregatorAll 、 AggregatorAvg 、 AggregatorMax 、 AggregatorMin 、 AggregatorTop 。
方法 process(env, customer_data, public_data, join_keys, debug)
會執行匯總。
方法
get_log_property |
取得記錄屬性元組,如果沒有屬性,則為 None。 |
process |
左聯結customer_data與join_keys上的public_data。 卸載join_keys中的所有資料行,以及之後在to_be_cleaned_up_column_names清單中的所有資料行。 |
process_public_dataset |
對指定的公用資料行執行匯總。 |
get_log_property
取得記錄屬性元組,如果沒有屬性,則為 None。
get_log_property()
process
左聯結customer_data與join_keys上的public_data。
卸載join_keys中的所有資料行,以及之後在to_be_cleaned_up_column_names清單中的所有資料行。
process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)
參數
名稱 | Description |
---|---|
env
必要
|
執行時間環境。 |
customer_data
必要
|
客戶資料。 |
public_data
必要
|
公用資料。 |
join_keys
必要
|
聯結金鑰組的清單。 |
debug
必要
|
指出是否列印偵錯資訊。 |
傳回
類型 | Description |
---|---|
( CustomerData 類別的新實例、PublicData 的新聯結實例、CustomerData 類別的新聯結實例、聯結索引鍵 (Tuple 清單) ) 的 Tuple |
process_public_dataset
對指定的公用資料行執行匯總。
process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object
參數
名稱 | Description |
---|---|
env
必要
|
執行時間環境。 |
_public_dataset
必要
|
公用資料集資料框架。 |
cols
|
要擷取的資料行名稱清單。 預設值: None
|
join_keys
|
要使用的聯結索引鍵清單。 預設值: []
|
傳回
類型 | Description |
---|---|
公用資料集的新 DataFrame。 |
屬性
should_direct_join
should_direct_join = True