OutputFileDatasetConfig Třída
Představuje, jak kopírovat výstup spuštění a být povýšen jako FileDataset.
OutputFileDatasetConfig umožňuje určit, jak se má konkrétní místní cesta v cílovém výpočetním objektu nahrávat do zadaného cíle. Pokud konstruktoru nejsou předány žádné argumenty, automaticky vygenerujeme název, cíl a místní cestu.
Příklad nepředávky argumentů:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Příklad vytvoření výstupu a následného zvýšení úrovně výstupu na tabulkovou datovou sadu a jeho registraci s názvem foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Inicializace OutputFileDatasetConfig.
OutputFileDatasetConfig umožňuje určit, jak se má konkrétní místní cesta v cílovém výpočetním objektu nahrávat do zadaného cíle. Pokud konstruktoru nejsou předány žádné argumenty, automaticky vygenerujeme název, cíl a místní cestu.
Příklad nepředávky argumentů:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Příklad vytvoření výstupu a následného zvýšení úrovně výstupu na tabulkovou datovou sadu a jeho registraci s názvem foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
- Dědičnost
-
OutputFileDatasetConfigOutputFileDatasetConfig
Konstruktor
OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)
Parametry
Name | Description |
---|---|
name
Vyžadováno
|
Název výstupu specifického pro toto spuštění. Obvykle se používá pro účely rodokmenu. Pokud je nastavená hodnota Žádné, automaticky vygenerujeme název. Název se také stane proměnnou prostředí, která obsahuje místní cestu, kam můžete zapsat výstupní soubory a složky, které se nahrají do cíle. |
destination
Vyžadováno
|
Cíl, do který se má výstup zkopírovat. Pokud je nastavená hodnota Žádná, zkopírujeme výstup do úložiště dat workspaceblobstore v cestě /dataset/{run-id}/{output-name}, kde run-id je ID spuštění a název output-name je název výstupu z výše uvedeného parametru name . Cíl je řazená kolekce členů, kde první položka je úložiště dat a druhá položka je cesta v úložišti dat, do kterého se data zkopírují. Cesta v rámci úložiště dat může být cesta k šabloně. Cesta k šabloně je jenom běžná cesta, ale se zástupnými symboly uvnitř. Tyto zástupné symboly se pak v příslušnou dobu přeloží. Syntaxe zástupných symbolů je {placeholder}, například /path/with/{placeholder}. Aktuálně jsou podporovány pouze dva zástupné symboly: {run-id} a {output-name}. |
source
Vyžadováno
|
Cesta v rámci cílového výpočetního objektu, ze které se mají kopírovat data. Pokud je tato možnost nastavená na Žádné, nastavíme ji na adresář, který vytvoříme v dočasném adresáři operačního systému cílového výpočetního objektu. |
partition_format
Vyžadováno
|
Zadejte formát oddílu cesty. Výchozí hodnota je Žádná. Informace o oddílech každé cesty budou extrahovány do sloupců na základě zadaného formátu. Formátovací část {column_name} vytvoří sloupec řetězce a {column_name:yyyy/MM/dd/HH/mm/ss} vytvoří sloupec datetime, kde 'yyyy', 'MM', 'dd', 'HH', 'mm' a 'ss' se používají k extrakci roku, měsíce, dne, hodiny, minuty a sekundy pro typ datetime. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě '.. /Accounts/2019/01/01/data.parquet' kde je oddíl podle názvu a času oddělení, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet vytvoří sloupec řetězce Department s hodnotou Accounts a sloupec datetime PartitionDate s hodnotou 2019-01-01. |
name
Vyžadováno
|
Název výstupu specifického pro toto spuštění. Obvykle se používá pro účely rodokmenu. Pokud je nastavená hodnota Žádné, automaticky vygenerujeme název. Název se také stane proměnnou prostředí, která obsahuje místní cestu, kam můžete zapsat výstupní soubory a složky, které se nahrají do cíle. |
destination
Vyžadováno
|
Cíl, do který se má výstup zkopírovat. Pokud je nastavená hodnota Žádná, zkopírujeme výstup do úložiště dat workspaceblobstore v cestě /dataset/{run-id}/{output-name}, kde run-id je ID spuštění a název output-name je název výstupu z výše uvedeného parametru name . Cíl je řazená kolekce členů, kde první položka je úložiště dat a druhá položka je cesta v úložišti dat, do kterého se data zkopírují. Cesta v rámci úložiště dat může být cesta k šabloně. Cesta k šabloně je jenom běžná cesta, ale se zástupnými symboly uvnitř. Tyto zástupné symboly se pak v příslušnou dobu přeloží. Syntaxe zástupných symbolů je {placeholder}, například /path/with/{placeholder}. Aktuálně jsou podporovány pouze dva zástupné symboly: {run-id} a {output-name}. |
source
Vyžadováno
|
Cesta v rámci cílového výpočetního objektu, ze které se mají kopírovat data. Pokud je tato možnost nastavená na Žádné, nastavíme ji na adresář, který vytvoříme v dočasném adresáři operačního systému cílového výpočetního objektu. |
partition_format
Vyžadováno
|
Zadejte formát oddílu cesty. Výchozí hodnota je Žádná. Informace o oddílech každé cesty budou extrahovány do sloupců na základě zadaného formátu. Formátovací část {column_name} vytvoří sloupec řetězce a {column_name:yyyy/MM/dd/HH/mm/ss} vytvoří sloupec datetime, kde 'yyyy', 'MM', 'dd', 'HH', 'mm' a 'ss' se používají k extrakci roku, měsíce, dne, hodiny, minuty a sekundy pro typ datetime. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě '.. /Accounts/2019/01/01/data.parquet' kde je oddíl podle názvu a času oddělení, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet vytvoří sloupec řetězce Department s hodnotou Accounts a sloupec datetime PartitionDate s hodnotou 2019-01-01. |
Poznámky
Jako argument spuštění můžete předat OutputFileDatasetConfig, který se automaticky přeloží na místní cestu na výpočetním prostředí. Pokud je zadaný argument source, v opačném případě automaticky vygenerujeme adresář v dočasné složce operačního systému. Soubory a složky ve zdrojovém adresáři se pak zkopírují do cíle na základě konfigurace výstupu.
Ve výchozím nastavení se režim, ve kterém se výstup zkopíruje do cílového úložiště, nastaví na připojení. Další informace o režimu připojení najdete v dokumentaci k as_mount.
Metody
as_input |
V dalších krocích kanálu určete, jak se má výstup využívat jako vstup. |
as_mount |
Nastavte režim výstupu, který se má připojit. Pro režim připojení bude výstupním adresářem připojený adresář FUSE. Soubory zapsané do připojeného adresáře se nahrají při zavření souboru. |
as_upload |
Nastavte režim výstupu, který se má nahrát. V režimu nahrávání se soubory zapsané do výstupního adresáře nahrají na konci úlohy. Pokud úloha selže nebo se zruší, výstupní adresář se nenahraje. |
as_input
V dalších krocích kanálu určete, jak se má výstup využívat jako vstup.
as_input(name=None)
Parametry
Name | Description |
---|---|
name
Vyžadováno
|
Název vstupu specifického pro spuštění. |
Návraty
Typ | Description |
---|---|
Instance DatasetConsumptionConfig popisující způsob doručení vstupních dat. |
as_mount
Nastavte režim výstupu, který se má připojit.
Pro režim připojení bude výstupním adresářem připojený adresář FUSE. Soubory zapsané do připojeného adresáře se nahrají při zavření souboru.
as_mount(disable_metadata_cache=False)
Parametry
Name | Description |
---|---|
disable_metadata_cache
Vyžadováno
|
Jestli se mají metadata ukládat do mezipaměti v místním uzlu, pokud je zakázána, uzel neuvidí soubory vygenerované z jiných uzlů během běhu úlohy. |
Návraty
Typ | Description |
---|---|
Instance OutputFileDatasetConfig s režimem nastaveným na připojení. |
as_upload
Nastavte režim výstupu, který se má nahrát.
V režimu nahrávání se soubory zapsané do výstupního adresáře nahrají na konci úlohy. Pokud úloha selže nebo se zruší, výstupní adresář se nenahraje.
as_upload(overwrite=False, source_globs=None)
Parametry
Name | Description |
---|---|
overwrite
Vyžadováno
|
Určuje, jestli se mají přepsat soubory, které už v cíli existují. |
source_globs
Vyžadováno
|
Vzory globu používané k filtrování souborů, které se nahrají. |
Návraty
Typ | Description |
---|---|
Instance OutputFileDatasetConfig s režimem nastaveným na nahrávání. |