OpenDatasetBase 类

用于继承的开放数据集基类。

构造开放数据集。

继承
OpenDatasetBase

构造函数

OpenDatasetBase(cols: List[str] | None = None, enable_telemetry: bool = True, **kwargs)

参数

名称 说明
cols

要从数据集加载的列名称列表,默认为“无”

默认值: None
enable_telemetry

是否对此数据集启用遥测,默认为 True

默认值: True
kwargs
必需

筛选器的 args

方法

get_file_dataset

获取开放数据集的文件数据集。

get_tabular_dataset

使用 blob url 初始化 AbstractTabularOpenDataset。

to_pandas_dataframe

到 pandas 数据帧。

to_spark_dataframe

到 spark 数据帧。

get_file_dataset

获取开放数据集的文件数据集。

get_file_dataset(start_date: datetime = None, end_date: datetime = None, enable_telemetry: bool = True, **kwargs) -> FileDataset

参数

名称 说明
cls
必需

当前类

start_date
必需

开始日期,默认值为“无”

end_date
必需

结束日期,默认值为“无”

enable_telemetry
必需

是否启用遥测,默认值为 True

返回

类型 说明

文件数据集

get_tabular_dataset

使用 blob url 初始化 AbstractTabularOpenDataset。

get_tabular_dataset(start_date: datetime = None, end_date: datetime = None, cols: List[str] = None, enable_telemetry: bool = True, **kwargs) -> TabularDataset

参数

名称 说明
cls
必需

键入数据集的类型名称。

start_date
必需

要查询的开始日期(含)。

end_date
必需

要查询的结束日期(含)。

cols
必需

要检索的列名列表。 “无”将获取所有列。

enable_telemetry
必需

是否启用遥测,仅针对 UT 禁用。

返回

类型 说明

TabularDataset

to_pandas_dataframe

到 pandas 数据帧。

to_pandas_dataframe() -> DataFrame

to_spark_dataframe

到 spark 数据帧。

to_spark_dataframe()

属性

cols

获取要检索的列名列表。

data

获取 OpenDataset 对象的数据。

id

获取开放数据的位置 ID。

log_properties

获取日志属性。

registry_id

获取在后端注册的此公共数据集的注册表 ID。

此注册表 ID 用于获取存储位置等最新元数据。 预期所有公共数据子类都分配 _registry_id。

返回

类型 说明
str

注册表 ID 字符串。

time_column_name

时间列名称。