Aggregator 类

针对使用联接键标识的指定列定义聚合。

构造函数

Aggregator()

通常不会直接实例化聚合器。而是在使用扩充器（如 HolidayEnricher 对象）时指定聚合器的类型。

process(env, customer_data, public_data, join_keys, debug)方法执行聚合。

获取日志属性元组，如果没有属性，则获取 None。

process

在 join_keys 上执行 customer_data 和 public_data 的左联接。

删除 join_keys 中的所有列，以及此后 to_be_cleaned_up_column_names 列表中的所有列。

对指定的公共数据列执行聚合。

获取日志属性元组，如果没有属性，则获取 None。

get_log_property()

在 join_keys 上执行 customer_data 和 public_data 的左联接。

删除 join_keys 中的所有列，以及此后 to_be_cleaned_up_column_names 列表中的所有列。

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

类型	说明
tuple[ CustomerData, PublicData, CustomerData, list[tuple([str, str])]	（CustomerData 类的一个新实例，PublicData 的不变实例，CustomerData 类的一个新加入的实例，联接键（元组的列表））的一个元组

对指定的公共数据列执行聚合。

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

类型	说明
object	公共数据集的新 DataFrame。

should_direct_join = True