Compartir a través de


OpenDatasetBase Clase

Abre la clase base del conjunto de datos para heredar.

Construya conjuntos de datos abiertos.

Herencia
OpenDatasetBase

Constructor

OpenDatasetBase(cols: List[str] | None = None, enable_telemetry: bool = True, **kwargs)

Parámetros

Nombre Description
cols

Lista de nombres de columnas que se van a cargar desde el conjunto de datos, el valor predeterminado es None.

Valor predeterminado: None
enable_telemetry

Si se habilita la telemetría en este conjunto de datos, el valor predeterminado es True.

Valor predeterminado: True
kwargs
Requerido

argumentos para el filtro

Métodos

get_file_dataset

Obtiene el conjunto de datos de archivo para el conjunto de datos abierto.

get_tabular_dataset

Inicialice AbstractTabularOpenDataset con la dirección URL del blob.

to_pandas_dataframe

Para trama de datos de Pandas.

to_spark_dataframe

Para trama de datos de Spark.

get_file_dataset

Obtiene el conjunto de datos de archivo para el conjunto de datos abierto.

get_file_dataset(start_date: datetime = None, end_date: datetime = None, enable_telemetry: bool = True, **kwargs) -> FileDataset

Parámetros

Nombre Description
cls
Requerido

clase actual

start_date
Requerido

fecha de inicio, el valor predeterminado es None

end_date
Requerido

fecha de finalización, el valor predeterminado es None

enable_telemetry
Requerido

habilitar telemetría o no, el valor predeterminado es True

Devoluciones

Tipo Description

conjunto de datos de archivo

get_tabular_dataset

Inicialice AbstractTabularOpenDataset con la dirección URL del blob.

get_tabular_dataset(start_date: datetime = None, end_date: datetime = None, cols: List[str] = None, enable_telemetry: bool = True, **kwargs) -> TabularDataset

Parámetros

Nombre Description
cls
Requerido

nombre de tipo del conjunto de datos abierto.

start_date
Requerido

Fecha de inicio que se consulta de forma inclusiva.

end_date
Requerido

Fecha de finalización que se consulta de forma inclusiva.

cols
Requerido

Lista de nombres de columna que se recuperarán. El valor None obtendrá todas las columnas.

enable_telemetry
Requerido

Si se habilita la telemetría, se deshabilita solo para UT.

Devoluciones

Tipo Description

TabularDataset

to_pandas_dataframe

Para trama de datos de Pandas.

to_pandas_dataframe() -> DataFrame

to_spark_dataframe

Para trama de datos de Spark.

to_spark_dataframe()

Atributos

cols

Obtiene la lista de nombres de columna que se recuperará.

data

Obtiene los datos del objeto OpenDataset.

id

Obtiene el identificador de ubicación de los datos abiertos.

log_properties

Obtiene las propiedades del registro.

registry_id

Obtiene el identificador del registro de este conjunto de datos público registrado en el back-end.

Este identificador del registro se usa para obtener los metadatos más recientes, como la ubicación de almacenamiento. Se espera que todas las subclases de datos públicas asignen _registry_id.

Devoluciones

Tipo Description
str

Cadena de identificador del registro.

time_column_name

Nombre de la columna de hora.