OpenDatasetBase 类
用于继承的开放数据集基类。
构造开放数据集。
- 继承
-
OpenDatasetBase
构造函数
OpenDatasetBase(cols: List[str] | None = None, enable_telemetry: bool = True, **kwargs)
参数
名称 | 说明 |
---|---|
cols
|
要从数据集加载的列名称列表,默认为“无” 默认值: None
|
enable_telemetry
|
是否对此数据集启用遥测,默认为 True 默认值: True
|
kwargs
必需
|
筛选器的 args |
方法
get_file_dataset |
获取开放数据集的文件数据集。 |
get_tabular_dataset |
使用 blob url 初始化 AbstractTabularOpenDataset。 |
to_pandas_dataframe |
到 pandas 数据帧。 |
to_spark_dataframe |
到 spark 数据帧。 |
get_file_dataset
获取开放数据集的文件数据集。
get_file_dataset(start_date: datetime = None, end_date: datetime = None, enable_telemetry: bool = True, **kwargs) -> FileDataset
参数
名称 | 说明 |
---|---|
cls
必需
|
当前类 |
start_date
必需
|
开始日期,默认值为“无” |
end_date
必需
|
结束日期,默认值为“无” |
enable_telemetry
必需
|
是否启用遥测,默认值为 True |
返回
类型 | 说明 |
---|---|
文件数据集 |
get_tabular_dataset
使用 blob url 初始化 AbstractTabularOpenDataset。
get_tabular_dataset(start_date: datetime = None, end_date: datetime = None, cols: List[str] = None, enable_telemetry: bool = True, **kwargs) -> TabularDataset
参数
名称 | 说明 |
---|---|
cls
必需
|
键入数据集的类型名称。 |
start_date
必需
|
要查询的开始日期(含)。 |
end_date
必需
|
要查询的结束日期(含)。 |
cols
必需
|
要检索的列名列表。 “无”将获取所有列。 |
enable_telemetry
必需
|
是否启用遥测,仅针对 UT 禁用。 |
返回
类型 | 说明 |
---|---|
TabularDataset |
to_pandas_dataframe
到 pandas 数据帧。
to_pandas_dataframe() -> DataFrame
to_spark_dataframe
到 spark 数据帧。
to_spark_dataframe()
属性
cols
获取要检索的列名列表。
data
获取 OpenDataset 对象的数据。
id
获取开放数据的位置 ID。
log_properties
获取日志属性。
registry_id
time_column_name
时间列名称。