Aggregator クラス

リファレンス

結合キーで識別される、指定された列に対する集計を定義します。

継承: builtins.object

Aggregator

コンストラクター

Aggregator()

注釈

通常、アグリゲーターは直接インスタンス化されません。そのため、HolidayEnricher オブジェクトなどのエンリッチャーを使用して、アグリゲーターの種類を指定します。

派生アグリゲーターには、AggregatorAll、AggregatorAvg、AggregatorMax、AggregatorMin、AggregatorTop があります。

process(env, customer_data, public_data, join_keys, debug) メソッドは集計を実行します。

メソッド

get_log_property

ログプロパティタプルを取得します。プロパティがない場合は None です。

process

join_keys による customer_data と public_data の左結合。

join_keys 内のすべての列と、その後の to_be_cleaned_up_column_names のリストにあるすべての列をドロップします。

process_public_dataset

指定されたパブリックデータ列に対して集計を実行します。

get_log_property

ログプロパティタプルを取得します。プロパティがない場合は None です。

get_log_property()

process

join_keys による customer_data と public_data の左結合。

join_keys 内のすべての列と、その後の to_be_cleaned_up_column_names のリストにあるすべての列をドロップします。

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

パラメーター

名前	説明
env 必須	RuntimeEnv ランタイム環境。
customer_data 必須	CustomerData 顧客データ。
public_data 必須	PublicData パブリックデータ。
join_keys 必須	list[tuple] 結合キーペアの一覧。
debug 必須	bool デバッグ情報を出力するかどうかを示します。

戻り値

型	説明
tuple[ CustomerData, PublicData, CustomerData, list[tuple([str, str])]	タプル (CustomerData クラスの新しいインスタンス、PublicData の変更されていないインスタンス、CustomerData クラスの新しい結合インスタンス、結合キー (タプルのリスト))

process_public_dataset

指定されたパブリックデータ列に対して集計を実行します。

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

パラメーター

名前	説明
env 必須	RuntimeEnv ランタイム環境。
_public_dataset 必須	DataFrame パブリックデータセットデータフレーム。
cols	list 取得する列名の一覧。規定値: None
join_keys	list 使用する結合キーの一覧。規定値: []

戻り値

型	説明
object	パブリックデータセットの新しい DataFrame。

属性

should_direct_join

should_direct_join = True

次の方法で共有

Aggregator クラス

コンストラクター

注釈

メソッド

get_log_property

process

パラメーター

戻り値

process_public_dataset

パラメーター

戻り値

属性

should_direct_join

フィードバック

その他のリソース