TabularDataset Klas
Vertegenwoordigt een tabellaire gegevensset die moet worden gebruikt in Azure Machine Learning.
Een TabularDataset definieert een reeks vertraagd geëvalueerde, onveranderbare bewerkingen om gegevens uit de gegevensbron in tabelvorm te laden. Gegevens worden pas uit de bron geladen als TabularDataset wordt gevraagd om gegevens te leveren.
TabularDataset wordt gemaakt met behulp van methoden zoals from_delimited_files uit de TabularDatasetFactory klasse.
Zie het artikel Gegevenssets toevoegen & registreren voor meer informatie. Zie https://aka.ms/tabulardataset-samplenotebookom aan de slag te gaan met een gegevensset in tabelvorm.
Initialiseer een TabularDataset-object.
Deze constructor mag niet rechtstreeks worden aangeroepen. De gegevensset is bedoeld om te worden gemaakt met behulp van TabularDatasetFactory klasse.
- Overname
-
TabularDataset
Constructor
TabularDataset()
Opmerkingen
Een TabularDataset kan worden gemaakt op basis van CSV-, TSV-, Parquet-bestanden of SQL-query's met behulp van de from_*
methoden van de TabularDatasetFactory klasse. U kunt subsetbewerkingen uitvoeren op een TabularDataset, zoals het splitsen, overslaan en filteren van records.
Het resultaat van subseting is altijd een of meer nieuwe TabularDataset-objecten.
U kunt een TabularDataset ook converteren naar andere indelingen, zoals een pandas DataFrame. De werkelijke gegevens worden geladen wanneer TabularDataset wordt gevraagd om de gegevens in een ander opslagmechanisme te leveren (bijvoorbeeld een Pandas Dataframe of een CSV-bestand).
TabularDataset kan worden gebruikt als invoer van een experimentuitvoering. Het kan ook worden geregistreerd bij de werkruimte met een opgegeven naam en later met die naam worden opgehaald.
Methoden
download |
Notitie Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie. Download bestandsstromen die door de gegevensset zijn gedefinieerd naar het lokale pad. |
drop_columns |
Verwijder de opgegeven kolommen uit de gegevensset. Als een tijdreekskolom wordt verwijderd, worden de bijbehorende mogelijkheden ook verwijderd voor de geretourneerde gegevensset. |
filter |
Notitie Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie. Filter de gegevens en laat alleen de records over die overeenkomen met de opgegeven expressie. |
get_profile |
Notitie Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie. Gegevensprofiel ophalen uit de meest recente profieluitvoering die is ingediend voor deze of dezelfde gegevensset in de werkruimte. |
get_profile_runs |
Notitie Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie. Vorige profieluitvoeringen retourneren die zijn gekoppeld aan deze of dezelfde gegevensset in de werkruimte. |
keep_columns |
Behoud de opgegeven kolommen en verwijdert alle andere kolommen uit de gegevensset. Als een tijdreekskolom wordt verwijderd, worden de bijbehorende mogelijkheden ook verwijderd voor de geretourneerde gegevensset. |
mount |
Notitie Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie. Maak een contextbeheer voor het koppelen van bestandsstromen die door de gegevensset zijn gedefinieerd als lokale bestanden. |
partition_by |
Gepartitioneerde gegevens worden gekopieerd en uitgevoerd naar de bestemming die is opgegeven door het doel. maak de gegevensset van het uitgevoerde gegevenspad met partitieindeling, registreer de gegevensset als de naam is opgegeven, retourneer de gegevensset voor het nieuwe gegevenspad met partities
|
random_split |
Splits records in de gegevensset willekeurig in twee delen en ongeveer op basis van het opgegeven percentage. De eerste gegevensset bevat ongeveer |
skip |
Sla records over vanaf de bovenkant van de gegevensset op basis van het opgegeven aantal. |
submit_profile_run |
Notitie Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie. Verzend een experimenteeruitvoering om het gegevensprofiel te berekenen. Een gegevensprofiel kan erg handig zijn om de invoergegevens te begrijpen, afwijkingen en ontbrekende waarden te identificeren door nuttige informatie te verstrekken over de gegevens, zoals kolomtype, ontbrekende waarden, enzovoort. |
take |
Neem een voorbeeld van records boven aan de gegevensset op basis van het opgegeven aantal. |
take_sample |
Neem een willekeurige steekproef van records in de gegevensset ongeveer op basis van de opgegeven waarschijnlijkheid. |
time_after |
Filter TabularDataset met tijdstempelkolommen na een opgegeven begintijd. |
time_before |
Filter TabularDataset met tijdstempelkolommen vóór een opgegeven eindtijd. |
time_between |
Filter TabularDataset tussen een opgegeven begin- en eindtijd. |
time_recent |
Filter TabularDataset om alleen de opgegeven duur (hoeveelheid) recente gegevens te bevatten. |
to_csv_files |
Converteer de huidige gegevensset naar een FileDataset met CSV-bestanden. De resulterende gegevensset bevat een of meer CSV-bestanden die elk overeenkomen met een partitie met gegevens uit de huidige gegevensset. Deze bestanden worden pas gerealiseerd als ze zijn gedownload of gelezen. |
to_dask_dataframe |
Notitie Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie. Retourneert een Dask DataFrame dat de gegevens in de gegevensset lui kan lezen. |
to_pandas_dataframe |
Laad alle records uit de gegevensset in een pandas DataFrame. |
to_parquet_files |
Converteer de huidige gegevensset naar een FileDataset die Parquet-bestanden bevat. De resulterende gegevensset bevat een of meer Parquet-bestanden, die elk overeenkomen met een partitie met gegevens uit de huidige gegevensset. Deze bestanden worden pas gerealiseerd als ze zijn gedownload of gelezen. |
to_spark_dataframe |
Laad alle records uit de gegevensset in een Spark DataFrame. |
with_timestamp_columns |
Tijdstempelkolommen definiëren voor de gegevensset. |
download
Notitie
Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie.
Download bestandsstromen die door de gegevensset zijn gedefinieerd naar het lokale pad.
download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)
Parameters
Name | Description |
---|---|
stream_column
Vereist
|
De stroomkolom die moet worden gedownload. |
target_path
Vereist
|
De lokale map waar u de bestanden naar wilt downloaden. Indien Geen, worden de gegevens gedownload naar een tijdelijke map. |
overwrite
Vereist
|
Geeft aan of bestaande bestanden moeten worden overschreven. De standaardwaarde is False. Bestaande bestanden worden overschreven als overschrijven is ingesteld op Waar; anders wordt er een uitzondering gegenereerd. |
ignore_not_found
Vereist
|
Hiermee wordt aangegeven of het downloaden mislukt als sommige bestanden die door de gegevensset zijn verwezen, niet zijn gevonden. De standaardwaarde is True. Downloaden mislukt als het downloaden van bestanden om welke reden dan ook mislukt als ignore_not_found is ingesteld op Onwaar; anders wordt een waring geregistreerd voor niet-gevonden fouten en kan de dowload worden uitgevoerd zolang er geen andere fouttypen worden aangetroffen. |
Retouren
Type | Description |
---|---|
Retourneert een matrix met bestandspaden voor elk gedownload bestand. |
drop_columns
Verwijder de opgegeven kolommen uit de gegevensset.
Als een tijdreekskolom wordt verwijderd, worden de bijbehorende mogelijkheden ook verwijderd voor de geretourneerde gegevensset.
drop_columns(columns)
Parameters
Name | Description |
---|---|
columns
Vereist
|
De naam of een lijst met namen voor de kolommen die moeten worden verwijderd. |
Retouren
Type | Description |
---|---|
Retourneert een nieuw TabularDataset-object met de opgegeven kolommen verwijderd. |
filter
Notitie
Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie.
Filter de gegevens en laat alleen de records over die overeenkomen met de opgegeven expressie.
filter(expression)
Parameters
Name | Description |
---|---|
expression
Vereist
|
De expressie die moet worden geëvalueerd. |
Retouren
Type | Description |
---|---|
De gewijzigde gegevensset (niet geregistreerd). |
Opmerkingen
Expressies worden gestart door de gegevensset te indexeren met de naam van een kolom. Ze ondersteunen verschillende functies en operators en kunnen worden gecombineerd met behulp van logische operators. De resulterende expressie wordt lazily geëvalueerd voor elke record wanneer een gegevens pull plaatsvindt en niet waar deze is gedefinieerd.
dataset['myColumn'] > dataset['columnToCompareAgainst']
dataset['myColumn'].starts_with('prefix')
get_profile
Notitie
Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie.
Gegevensprofiel ophalen uit de meest recente profieluitvoering die is ingediend voor deze of dezelfde gegevensset in de werkruimte.
get_profile(workspace=None)
Parameters
Name | Description |
---|---|
workspace
Vereist
|
De werkruimte waarin het profiel wordt uitgevoerd, is verzonden. Standaard ingesteld op de werkruimte van deze gegevensset. Vereist als de gegevensset niet is gekoppeld aan een werkruimte. Zie https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace voor meer informatie over werkruimten. |
Retouren
Type | Description |
---|---|
Profielresultaat van de meest recente profieluitvoering van het type DatasetProfile. |
get_profile_runs
Notitie
Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie.
Vorige profieluitvoeringen retourneren die zijn gekoppeld aan deze of dezelfde gegevensset in de werkruimte.
get_profile_runs(workspace=None)
Parameters
Name | Description |
---|---|
workspace
Vereist
|
De werkruimte waarin het profiel wordt uitgevoerd, is verzonden. Standaard ingesteld op de werkruimte van deze gegevensset. Vereist als de gegevensset niet is gekoppeld aan een werkruimte. Zie https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace voor meer informatie over werkruimten. |
Retouren
Type | Description |
---|---|
iterator-object van het type azureml.core.Run. |
keep_columns
Behoud de opgegeven kolommen en verwijdert alle andere kolommen uit de gegevensset.
Als een tijdreekskolom wordt verwijderd, worden de bijbehorende mogelijkheden ook verwijderd voor de geretourneerde gegevensset.
keep_columns(columns, validate=False)
Parameters
Name | Description |
---|---|
columns
Vereist
|
De naam of een lijst met namen voor de kolommen die moeten worden bewaard. |
validate
Vereist
|
Hiermee wordt aangegeven of moet worden gevalideerd of gegevens uit de geretourneerde gegevensset kunnen worden geladen. De standaardwaarde is False. Voor validatie is vereist dat de gegevensbron toegankelijk is via de huidige berekening. |
Retouren
Type | Description |
---|---|
Retourneert een nieuw TabularDataset-object met alleen de opgegeven kolommen. |
mount
Notitie
Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie.
Maak een contextbeheer voor het koppelen van bestandsstromen die door de gegevensset zijn gedefinieerd als lokale bestanden.
mount(stream_column, mount_point=None)
Parameters
Name | Description |
---|---|
stream_column
Vereist
|
De stroomkolom die moet worden gekoppeld. |
mount_point
Vereist
|
De lokale map waaraan u de bestanden wilt koppelen. Indien Geen, worden de gegevens gekoppeld aan een tijdelijke map, die u kunt vinden door de MountContext.mount_point-instantiemethode aan te roepen. |
Retouren
Type | Description |
---|---|
<xref:azureml.dataprep.fuse.daemon.MountContext>
|
Retourneert een contextbeheer voor het beheren van de levenscyclus van de koppeling. |
partition_by
Gepartitioneerde gegevens worden gekopieerd en uitgevoerd naar de bestemming die is opgegeven door het doel.
maak de gegevensset van het uitgevoerde gegevenspad met partitieindeling, registreer de gegevensset als de naam is opgegeven, retourneer de gegevensset voor het nieuwe gegevenspad met partities
ds = Dataset.get_by_name('test') # indexed by country, state, partition_date
# #1: call partition_by locally
new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
target=DataPath(datastore, "repartition"))
partition_keys = newds.partition_keys # ['country']
# new_ds can be passed to PRS as input dataset
partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)
Parameters
Name | Description |
---|---|
partition_keys
Vereist
|
Vereist, partitiesleutels |
target
Vereist
|
Vereist: het gegevensarchiefpad waarnaar de dataframe parquet-gegevens worden geüpload. Er wordt een GUID-map gegenereerd onder het doelpad om conflict te voorkomen. |
name
Vereist
|
Optioneel, de registratienaam. |
show_progress
Vereist
|
Optioneel, geeft aan of de voortgang van het uploaden in de console moet worden weergegeven. De standaardinstelling is True. |
partition_as_file_dataset
Vereist
|
Optioneel, geeft aan of een filedataset wordt geretourneerd of niet. De standaardinstelling is False. |
Retouren
Type | Description |
---|---|
De opgeslagen of geregistreerde gegevensset. |
random_split
Splits records in de gegevensset willekeurig in twee delen en ongeveer op basis van het opgegeven percentage.
De eerste gegevensset bevat ongeveer percentage
het totale aantal records en de tweede gegevensset de resterende records.
random_split(percentage, seed=None)
Parameters
Name | Description |
---|---|
percentage
Vereist
|
Het percentage waarop de gegevensset moet worden gesplitst bij benadering. Dit moet een getal zijn tussen 0,0 en 1,0. |
seed
Vereist
|
Optioneel seed voor gebruik voor de willekeurige generator. |
Retouren
Type | Description |
---|---|
Retourneert een tuple met nieuwe TabularDataset-objecten die de twee gegevenssets na de splitsing vertegenwoordigen. |
skip
Sla records over vanaf de bovenkant van de gegevensset op basis van het opgegeven aantal.
skip(count)
Parameters
Name | Description |
---|---|
count
Vereist
|
Het aantal records dat moet worden overgeslagen. |
Retouren
Type | Description |
---|---|
Retourneert een nieuw TabularDataset-object dat een gegevensset vertegenwoordigt met records die zijn overgeslagen. |
submit_profile_run
Notitie
Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie.
Verzend een experimenteeruitvoering om het gegevensprofiel te berekenen.
Een gegevensprofiel kan erg handig zijn om de invoergegevens te begrijpen, afwijkingen en ontbrekende waarden te identificeren door nuttige informatie te verstrekken over de gegevens, zoals kolomtype, ontbrekende waarden, enzovoort.
submit_profile_run(compute_target, experiment, cache_datastore_name=None)
Parameters
Name | Description |
---|---|
compute_target
Vereist
|
Het rekendoel waarop het profielberekeningsexperiment moet worden uitgevoerd. Geef 'lokaal' op om lokale rekenkracht te gebruiken. Zie https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget voor meer informatie over rekendoelen. |
experiment
Vereist
|
Het experimentobject. Zie https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment voor meer informatie over experimenten. |
cache_datastore_name
Vereist
|
de naam van het gegevensarchief voor het opslaan van de profielcache, indien Geen, wordt het standaardgegevensarchief gebruikt |
Retouren
Type | Description |
---|---|
Een object van het type DatasetProfileRun-klasse. |
take
Neem een voorbeeld van records boven aan de gegevensset op basis van het opgegeven aantal.
take(count)
Parameters
Name | Description |
---|---|
count
Vereist
|
Het aantal records dat moet worden uitgevoerd. |
Retouren
Type | Description |
---|---|
Retourneert een nieuw TabularDataset-object dat de voorbeeldgegevensset vertegenwoordigt. |
take_sample
Neem een willekeurige steekproef van records in de gegevensset ongeveer op basis van de opgegeven waarschijnlijkheid.
take_sample(probability, seed=None)
Parameters
Name | Description |
---|---|
probability
Vereist
|
De kans dat een record wordt opgenomen in de steekproef. |
seed
Vereist
|
Optioneel seed voor gebruik voor de willekeurige generator. |
Retouren
Type | Description |
---|---|
Retourneert een nieuw TabularDataset-object dat de voorbeeldgegevensset vertegenwoordigt. |
time_after
Filter TabularDataset met tijdstempelkolommen na een opgegeven begintijd.
time_after(start_time, include_boundary=True, validate=True)
Parameters
Name | Description |
---|---|
start_time
Vereist
|
De ondergrens voor het filteren van gegevens. |
include_boundary
Vereist
|
Geef aan of de rij die is gekoppeld aan de grenstijd ( |
validate
Vereist
|
Hiermee wordt aangegeven of moet worden gevalideerd of opgegeven kolommen in de gegevensset bestaan. De standaardwaarde is True. Voor validatie is vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening. |
Retouren
Type | Description |
---|---|
Een TabularDataset met de nieuwe gefilterde gegevensset. |
time_before
Filter TabularDataset met tijdstempelkolommen vóór een opgegeven eindtijd.
time_before(end_time, include_boundary=True, validate=True)
Parameters
Name | Description |
---|---|
end_time
Vereist
|
Bovengrens voor het filteren van gegevens. |
include_boundary
Vereist
|
Geef aan of de rij die is gekoppeld aan de grenstijd ( |
validate
Vereist
|
Hiermee wordt aangegeven of moet worden gevalideerd of opgegeven kolommen in de gegevensset bestaan. De standaardwaarde is True. Voor validatie is vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening. |
Retouren
Type | Description |
---|---|
Een TabularDataset met de nieuwe gefilterde gegevensset. |
time_between
Filter TabularDataset tussen een opgegeven begin- en eindtijd.
time_between(start_time, end_time, include_boundary=True, validate=True)
Parameters
Name | Description |
---|---|
start_time
Vereist
|
De ondergrens voor het filteren van gegevens. |
end_time
Vereist
|
De bovengrens voor het filteren van gegevens. |
include_boundary
Vereist
|
Geef aan of de rij die is gekoppeld aan de grenstijd ( |
validate
Vereist
|
Hiermee wordt aangegeven of moet worden gevalideerd of opgegeven kolommen in de gegevensset bestaan. De standaardwaarde is True. Voor validatie is vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening. |
Retouren
Type | Description |
---|---|
Een TabularDataset met de nieuwe gefilterde gegevensset. |
time_recent
Filter TabularDataset om alleen de opgegeven duur (hoeveelheid) recente gegevens te bevatten.
time_recent(time_delta, include_boundary=True, validate=True)
Parameters
Name | Description |
---|---|
time_delta
Vereist
|
De duur (hoeveelheid) van recente gegevens die moeten worden opgehaald. |
include_boundary
Vereist
|
Geef aan of de rij die is gekoppeld aan de grenstijd ( |
validate
Vereist
|
Hiermee wordt aangegeven of moet worden gevalideerd of opgegeven kolommen in de gegevensset bestaan. De standaardwaarde is True. Voor validatie is vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening. |
Retouren
Type | Description |
---|---|
Een TabularDataset met de nieuwe gefilterde gegevensset. |
to_csv_files
Converteer de huidige gegevensset naar een FileDataset met CSV-bestanden.
De resulterende gegevensset bevat een of meer CSV-bestanden die elk overeenkomen met een partitie met gegevens uit de huidige gegevensset. Deze bestanden worden pas gerealiseerd als ze zijn gedownload of gelezen.
to_csv_files(separator=',')
Parameters
Name | Description |
---|---|
separator
Vereist
|
Het scheidingsteken dat moet worden gebruikt om waarden in het resulterende bestand te scheiden. |
Retouren
Type | Description |
---|---|
Retourneert een nieuw FileDataset-object met een set CSV-bestanden die de gegevens in deze gegevensset bevatten. |
to_dask_dataframe
Notitie
Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/azuremlexperimental voor meer informatie.
Retourneert een Dask DataFrame dat de gegevens in de gegevensset lui kan lezen.
to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')
Parameters
Name | Description |
---|---|
sample_size
Vereist
|
Het aantal records dat moet worden gelezen om het schema en de typen te bepalen. |
dtypes
Vereist
|
Een optionele dict die de verwachte kolommen en hun dtypen opgeeft. sample_size wordt genegeerd als dit is opgegeven. |
on_error
Vereist
|
Foutwaarden in de gegevensset afhandelen, zoals de waarden die worden gegenereerd door een fout tijdens het parseren van waarden. Geldige waarden zijn 'null' die ze vervangen door null; en 'mislukken', wat resulteert in een uitzondering. |
out_of_range_datetime
Vereist
|
Hoe u datum-tijdwaarden kunt afhandelen die buiten het bereik vallen dat wordt ondersteund door Pandas. Geldige waarden zijn 'null' die ze vervangen door null; en 'mislukken', wat resulteert in een uitzondering. |
Retouren
Type | Description |
---|---|
dask.dataframe.core.DataFrame |
to_pandas_dataframe
Laad alle records uit de gegevensset in een pandas DataFrame.
to_pandas_dataframe(on_error='null', out_of_range_datetime='null')
Parameters
Name | Description |
---|---|
on_error
Vereist
|
Foutwaarden in de gegevensset afhandelen, zoals de waarden die worden gegenereerd door een fout tijdens het parseren van waarden. Geldige waarden zijn 'null' die ze vervangen door null; en 'mislukken', wat resulteert in een uitzondering. |
out_of_range_datetime
Vereist
|
Hoe u datum-tijdwaarden kunt afhandelen die buiten het bereik vallen dat wordt ondersteund door Pandas. Geldige waarden zijn 'null' die ze vervangen door null; en 'mislukken', wat resulteert in een uitzondering. |
Retouren
Type | Description |
---|---|
Hiermee wordt een pandas DataFrame geretourneerd. |
to_parquet_files
Converteer de huidige gegevensset naar een FileDataset die Parquet-bestanden bevat.
De resulterende gegevensset bevat een of meer Parquet-bestanden, die elk overeenkomen met een partitie met gegevens uit de huidige gegevensset. Deze bestanden worden pas gerealiseerd als ze zijn gedownload of gelezen.
to_parquet_files()
Retouren
Type | Description |
---|---|
Retourneert een nieuw FileDataset-object met een set Parquet-bestanden die de gegevens in deze gegevensset bevatten. |
to_spark_dataframe
Laad alle records uit de gegevensset in een Spark DataFrame.
to_spark_dataframe()
Retouren
Type | Description |
---|---|
Retourneert een Spark DataFrame. |
with_timestamp_columns
Tijdstempelkolommen definiëren voor de gegevensset.
with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)
Parameters
Name | Description |
---|---|
timestamp
Vereist
|
De naam van de kolom als tijdstempel (voorheen fine_grain_timestamp genoemd) (optioneel). De standaardwaarde is Geen(wissen). |
partition_timestamp
Vereist
|
De naam van kolom partition_timestamp (voorheen grof korreltijdstempel genoemd) (optioneel). De standaardwaarde is Geen(wissen). |
validate
Vereist
|
Hiermee wordt aangegeven of moet worden gevalideerd of opgegeven kolommen in de gegevensset bestaan. De standaardwaarde is False. Voor validatie is vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening. |
Retouren
Type | Description |
---|---|
Retourneert een nieuwe TabularDataset met gedefinieerde tijdstempelkolommen. |
Opmerkingen
De methode definieert kolommen die moeten worden gebruikt als tijdstempels. Tijdstempelkolommen in een gegevensset maken het mogelijk om de gegevens als tijdreeksgegevens te behandelen en extra mogelijkheden in te schakelen. Wanneer een gegevensset zowel als timestamp (used to be referred as fine_grain_timestamp)
partition_timestamp (used to be referred as coarse grain timestamp)
opgegeven heeft, moeten de twee kolommen dezelfde tijdlijn vertegenwoordigen.