Aggregator 类
针对使用联接键标识的指定列定义聚合。
- 继承
-
builtins.objectAggregator
构造函数
Aggregator()
注解
通常不会直接实例化聚合器。 而是在使用扩充器(如 HolidayEnricher 对象)时指定聚合器的类型。
派生的聚合器包括 AggregatorAll、AggregatorAvg、AggregatorMax、AggregatorMin、AggregatorTop。
process(env, customer_data, public_data, join_keys, debug)
方法执行聚合。
方法
get_log_property |
获取日志属性元组,如果没有属性,则获取 None。 |
process |
在 join_keys 上执行 customer_data 和 public_data 的左联接。 删除 join_keys 中的所有列,以及此后 to_be_cleaned_up_column_names 列表中的所有列。 |
process_public_dataset |
对指定的公共数据列执行聚合。 |
get_log_property
获取日志属性元组,如果没有属性,则获取 None。
get_log_property()
process
在 join_keys 上执行 customer_data 和 public_data 的左联接。
删除 join_keys 中的所有列,以及此后 to_be_cleaned_up_column_names 列表中的所有列。
process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)
参数
名称 | 说明 |
---|---|
env
必需
|
运行时环境。 |
customer_data
必需
|
客户数据。 |
public_data
必需
|
公共数据。 |
join_keys
必需
|
联接键对的列表。 |
debug
必需
|
指示是否要打印调试信息。 |
返回
类型 | 说明 |
---|---|
(CustomerData 类的一个新实例,PublicData 的不变实例,CustomerData 类的一个新加入的实例,联接键(元组的列表))的一个元组 |
process_public_dataset
对指定的公共数据列执行聚合。
process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object
参数
名称 | 说明 |
---|---|
env
必需
|
运行时环境。 |
_public_dataset
必需
|
公共数据集数据帧。 |
cols
|
要检索的列名列表。 默认值: None
|
join_keys
|
要使用的联接键的列表。 默认值: []
|
返回
类型 | 说明 |
---|---|
公共数据集的新 DataFrame。 |
属性
should_direct_join
should_direct_join = True