OpenDatasetBase Classe
Classe de base de jeu de données ouvert pour héritage.
Construire des jeux de données ouverts.
- Héritage
-
OpenDatasetBase
Constructeur
OpenDatasetBase(cols: List[str] | None = None, enable_telemetry: bool = True, **kwargs)
Paramètres
Nom | Description |
---|---|
cols
|
Liste des noms de colonnes à charger à partir du jeu de données, la valeur par défaut est None Valeur par défaut: None
|
enable_telemetry
|
Si vous souhaitez activer la télémétrie sur ce jeu de données, la valeur par défaut est True Valeur par défaut: True
|
kwargs
Obligatoire
|
args pour le filtre |
Méthodes
get_file_dataset |
Obtenir le jeu de données du fichier pour le jeu de données ouvert. |
get_tabular_dataset |
Initialiser AbstractTabularOpenDataset avec l’URL du blob. |
to_pandas_dataframe |
Vers pandas dataframe. |
to_spark_dataframe |
Vers spark dataframe. |
get_file_dataset
Obtenir le jeu de données du fichier pour le jeu de données ouvert.
get_file_dataset(start_date: datetime = None, end_date: datetime = None, enable_telemetry: bool = True, **kwargs) -> FileDataset
Paramètres
Nom | Description |
---|---|
cls
Obligatoire
|
classe actuelle |
start_date
Obligatoire
|
date de début, la valeur par défaut est None |
end_date
Obligatoire
|
date de fin, la valeur par défaut est None |
enable_telemetry
Obligatoire
|
activer la télémétrie ou pas, la valeur par défaut est True |
Retours
Type | Description |
---|---|
jeu de données de fichier |
get_tabular_dataset
Initialiser AbstractTabularOpenDataset avec l’URL du blob.
get_tabular_dataset(start_date: datetime = None, end_date: datetime = None, cols: List[str] = None, enable_telemetry: bool = True, **kwargs) -> TabularDataset
Paramètres
Nom | Description |
---|---|
cls
Obligatoire
|
nom de type du jeu de données ouvert. |
start_date
Obligatoire
|
Date de début à interroger de façon inclusive. |
end_date
Obligatoire
|
Date de fin à interroger de façon inclusive. |
cols
Obligatoire
|
Liste des noms de colonnes à récupérer. La valeur None permet d’obtenir toutes les colonnes. |
enable_telemetry
Obligatoire
|
Indique s’il faut activer la télémétrie, désactivé pour UT uniquement. |
Retours
Type | Description |
---|---|
TabularDataset |
to_pandas_dataframe
Vers pandas dataframe.
to_pandas_dataframe() -> DataFrame
to_spark_dataframe
Vers spark dataframe.
to_spark_dataframe()
Attributs
cols
Obtenir la liste des noms de colonnes à récupérer.
data
Obtenir les données de l’objet OpenDataset.
id
Obtenir l’ID d’emplacement des données ouvertes.
log_properties
Obtenir les propriétés de journal.
registry_id
Obtenir l’ID de registre de ce jeu de données public inscrit sur le back-end.
Cet ID de registre est utilisé pour récupérer les métadonnées les plus récentes, telles que l’emplacement de stockage. Toutes les sous-classes de données publiques doivent affecter _registry_id.
Retours
Type | Description |
---|---|
Chaîne d’ID du registre. |
time_column_name
Nom de colonne Heure.