dataset_partition_prep 模块
包含用于指定数据集分区准备工作的功能。
在你使用某个需要数据分区的 opendatasets 类(如 NycTlcGreen 类)时,分区准备会自动进行。
函数
prep_partition_datetime
准备分区路径“year=\d+/month=\d+/”。
prep_partition_datetime(dflow: EnginelessDataflow, start_date: datetime, end_date: datetime, pattern: List[str])
参数
名称 | 说明 |
---|---|
dflow
必需
|
<xref:azureml.dataprep.Dataflow>
dataprep.Dataflow 的实例。 |
start_date
必需
|
数据集的开始日期/时间。 |
end_date
必需
|
数据集的结束日期/时间。 |
pattern
必需
|
日期/时间模式。 |
prep_partition_puYear_puMonth
准备分区路径“year=\d+/month=\d+/”。
prep_partition_puYear_puMonth(dflow: EnginelessDataflow, start_date: datetime, end_date: datetime, *, pattern: List[str] = ['puYear', 'puMonth'])
参数
名称 | 说明 |
---|---|
dflow
必需
|
<xref:azureml.dataprep.Dataflow>
dataprep.Dataflow 的实例。 |
start_date
必需
|
数据集的开始日期/时间。 |
end_date
必需
|
数据集的结束日期/时间。 |
pattern
必需
|
日期/时间模式。 |
仅限关键字的参数
名称 | 说明 |
---|---|
pattern
|
默认值: ['puYear', 'puMonth']
|
prep_partition_year
准备分区路径“year=\d+/month=\d+/”。
prep_partition_year(dflow: EnginelessDataflow, start_date: datetime, end_date: datetime, *, pattern: List[str] = ['year'])
参数
名称 | 说明 |
---|---|
dflow
必需
|
<xref:azureml.dataprep.Dataflow>
dataprep.Dataflow 的实例。 |
start_date
必需
|
数据集的开始日期/时间。 |
end_date
必需
|
数据集的结束日期/时间。 |
pattern
必需
|
日期/时间模式。 |
仅限关键字的参数
名称 | 说明 |
---|---|
pattern
|
默认值: ['year']
|
prep_partition_year_month
准备分区路径“year=\d+/month=\d+/”。
prep_partition_year_month(dflow: EnginelessDataflow, start_date: datetime, end_date: datetime, *, pattern: List[str] = ['year', 'month'])
参数
名称 | 说明 |
---|---|
dflow
必需
|
<xref:azureml.dataprep.Dataflow>
dataprep.Dataflow 的实例。 |
start_date
必需
|
数据集的开始日期/时间。 |
end_date
必需
|
数据集的结束日期/时间。 |
pattern
必需
|
日期/时间模式。 |
仅限关键字的参数
名称 | 说明 |
---|---|
pattern
|
默认值: ['year', 'month']
|
prep_partition_year_month_day
准备分区路径“year=\d+/month=\d+/”。
prep_partition_year_month_day(dflow: EnginelessDataflow, start_date: datetime, end_date: datetime, *, pattern: List[str] = ['year', 'month', 'day'])
参数
名称 | 说明 |
---|---|
dflow
必需
|
<xref:azureml.dataprep.Dataflow>
dataprep.Dataflow 的实例。 |
start_date
必需
|
数据集的开始日期/时间。 |
end_date
必需
|
数据集的结束日期/时间。 |
pattern
必需
|
日期/时间模式。 |
仅限关键字的参数
名称 | 说明 |
---|---|
pattern
|
默认值: ['year', 'month', 'day']
|