OutputTabularDatasetConfig Klas
Vertegenwoordigt hoe u de uitvoer van een uitvoering kopieert en wordt gepromoveerd als een TabularDataset.
Initialiseer een OutputTabularDatasetConfig.
- Overname
-
OutputTabularDatasetConfig
Constructor
OutputTabularDatasetConfig(**kwargs)
Opmerkingen
U moet deze constructor niet rechtstreeks aanroepen, maar in plaats daarvan een OutputFileDatasetConfig maken en vervolgens de bijbehorende read_*-methoden aanroepen om deze te converteren naar een OutputTabularDatasetConfig.
De manier waarop de uitvoer wordt gekopieerd naar de bestemming voor een OutputTabularDatasetConfig is hetzelfde als een OutputFileDatasetConfig. Het verschil is dat de gegevensset die wordt gemaakt, een TabularDataset is die alle opgegeven transformaties bevat.
Methoden
as_input |
Geef op hoe de uitvoer moet worden gebruikt als invoer in de volgende pijplijnstappen. |
as_mount |
Stel de modus van de uitvoer in op koppelen. Voor de koppelingsmodus is de uitvoermap een aan FUSE gekoppelde map. Bestanden die naar de gekoppelde map worden geschreven, worden geüpload wanneer het bestand wordt gesloten. |
as_upload |
Stel de modus in van de uitvoer die moet worden geüpload. Voor de uploadmodus worden bestanden die naar de uitvoermap worden geschreven, aan het einde van de taak geüpload. Als de taak mislukt of wordt geannuleerd, wordt de uitvoermap niet geüpload. |
drop_columns |
Verwijder de opgegeven kolommen uit de gegevensset. |
keep_columns |
Behoud de opgegeven kolommen en verwijdert alle andere kolommen uit de gegevensset. |
random_split |
Splits records in de gegevensset willekeurig in twee delen en ongeveer op basis van het opgegeven percentage. De namen van de resulterende uitvoerconfiguraties worden gewijzigd, op de eerste wordt _1 toegevoegd aan de naam en bij de tweede wordt _2 aan de naam toegevoegd. Als dit een naamconflict veroorzaakt of als u een aangepaste naam wilt opgeven, moet u de namen handmatig instellen. |
as_input
Geef op hoe de uitvoer moet worden gebruikt als invoer in de volgende pijplijnstappen.
as_input(name=None)
Parameters
Name | Description |
---|---|
name
Vereist
|
De naam van de invoer die specifiek is voor de uitvoering. |
Retouren
Type | Description |
---|---|
Een DatasetConsumptionConfig exemplaar waarin wordt beschreven hoe de invoergegevens moeten worden geleverd. |
as_mount
Stel de modus van de uitvoer in op koppelen.
Voor de koppelingsmodus is de uitvoermap een aan FUSE gekoppelde map. Bestanden die naar de gekoppelde map worden geschreven, worden geüpload wanneer het bestand wordt gesloten.
as_mount()
Retouren
Type | Description |
---|---|
Een OutputTabularDatasetConfig exemplaar met de modus ingesteld op koppelen. |
as_upload
Stel de modus in van de uitvoer die moet worden geüpload.
Voor de uploadmodus worden bestanden die naar de uitvoermap worden geschreven, aan het einde van de taak geüpload. Als de taak mislukt of wordt geannuleerd, wordt de uitvoermap niet geüpload.
as_upload(overwrite=False, source_globs=None)
Parameters
Name | Description |
---|---|
overwrite
Vereist
|
Hiermee wordt aangegeven of bestanden die al in de bestemming bestaan, moeten worden overschreven. |
source_globs
Vereist
|
Glob-patronen die worden gebruikt voor het filteren van bestanden die worden geüpload. |
Retouren
Type | Description |
---|---|
Een OutputTabularDatasetConfig exemplaar waarvoor de modus is ingesteld om te uploaden. |
drop_columns
Verwijder de opgegeven kolommen uit de gegevensset.
drop_columns(columns)
Parameters
Name | Description |
---|---|
columns
Vereist
|
De naam of een lijst met namen voor de kolommen die moeten worden verwijderd. |
Retouren
Type | Description |
---|---|
Een OutputTabularDatasetConfig exemplaar waarmee kolommen moeten worden verwijderd. |
keep_columns
Behoud de opgegeven kolommen en verwijdert alle andere kolommen uit de gegevensset.
keep_columns(columns)
Parameters
Name | Description |
---|---|
columns
Vereist
|
De naam of een lijst met namen voor de kolommen die moeten worden bewaard. |
Retouren
Type | Description |
---|---|
Een OutputTabularDatasetConfig exemplaar waarmee kolommen moeten worden bewaard. |
random_split
Splits records in de gegevensset willekeurig in twee delen en ongeveer op basis van het opgegeven percentage.
De namen van de resulterende uitvoerconfiguraties worden gewijzigd, op de eerste wordt _1 toegevoegd aan de naam en bij de tweede wordt _2 aan de naam toegevoegd. Als dit een naamconflict veroorzaakt of als u een aangepaste naam wilt opgeven, moet u de namen handmatig instellen.
random_split(percentage, seed=None)
Parameters
Name | Description |
---|---|
percentage
Vereist
|
Het percentage bij benadering waarop de gegevensset moet worden gesplitst. Dit moet een getal tussen 0,0 en 1,0 zijn. |
seed
Vereist
|
Optioneel seed voor gebruik voor de willekeurige generator. |
Retouren
Type | Description |
---|---|
Retourneert een tuple van twee OutputTabularDatasetConfig-objecten die de twee gegevenssets na de splitsing vertegenwoordigen. |