Partager via


OpenDatasetBase Classe

Classe de base de jeu de données ouvert pour héritage.

Construire des jeux de données ouverts.

Héritage
OpenDatasetBase

Constructeur

OpenDatasetBase(cols: List[str] | None = None, enable_telemetry: bool = True, **kwargs)

Paramètres

Nom Description
cols

Liste des noms de colonnes à charger à partir du jeu de données, la valeur par défaut est None

Valeur par défaut: None
enable_telemetry

Si vous souhaitez activer la télémétrie sur ce jeu de données, la valeur par défaut est True

Valeur par défaut: True
kwargs
Obligatoire

args pour le filtre

Méthodes

get_file_dataset

Obtenir le jeu de données du fichier pour le jeu de données ouvert.

get_tabular_dataset

Initialiser AbstractTabularOpenDataset avec l’URL du blob.

to_pandas_dataframe

Vers pandas dataframe.

to_spark_dataframe

Vers spark dataframe.

get_file_dataset

Obtenir le jeu de données du fichier pour le jeu de données ouvert.

get_file_dataset(start_date: datetime = None, end_date: datetime = None, enable_telemetry: bool = True, **kwargs) -> FileDataset

Paramètres

Nom Description
cls
Obligatoire

classe actuelle

start_date
Obligatoire

date de début, la valeur par défaut est None

end_date
Obligatoire

date de fin, la valeur par défaut est None

enable_telemetry
Obligatoire

activer la télémétrie ou pas, la valeur par défaut est True

Retours

Type Description

jeu de données de fichier

get_tabular_dataset

Initialiser AbstractTabularOpenDataset avec l’URL du blob.

get_tabular_dataset(start_date: datetime = None, end_date: datetime = None, cols: List[str] = None, enable_telemetry: bool = True, **kwargs) -> TabularDataset

Paramètres

Nom Description
cls
Obligatoire

nom de type du jeu de données ouvert.

start_date
Obligatoire

Date de début à interroger de façon inclusive.

end_date
Obligatoire

Date de fin à interroger de façon inclusive.

cols
Obligatoire

Liste des noms de colonnes à récupérer. La valeur None permet d’obtenir toutes les colonnes.

enable_telemetry
Obligatoire

Indique s’il faut activer la télémétrie, désactivé pour UT uniquement.

Retours

Type Description

TabularDataset

to_pandas_dataframe

Vers pandas dataframe.

to_pandas_dataframe() -> DataFrame

to_spark_dataframe

Vers spark dataframe.

to_spark_dataframe()

Attributs

cols

Obtenir la liste des noms de colonnes à récupérer.

data

Obtenir les données de l’objet OpenDataset.

id

Obtenir l’ID d’emplacement des données ouvertes.

log_properties

Obtenir les propriétés de journal.

registry_id

Obtenir l’ID de registre de ce jeu de données public inscrit sur le back-end.

Cet ID de registre est utilisé pour récupérer les métadonnées les plus récentes, telles que l’emplacement de stockage. Toutes les sous-classes de données publiques doivent affecter _registry_id.

Retours

Type Description
str

Chaîne d’ID du registre.

time_column_name

Nom de colonne Heure.