OutputFileDatasetConfig Třída
Představuje, jak zkopírovat výstup spuštění a být povýšen jako FileDataset.
OutputFileDatasetConfig umožňuje určit, jak má být konkrétní místní cesta v cílovém výpočetním objektu odeslána do zadaného cíle. Pokud konstruktoru nejsou předány žádné argumenty, automaticky vygenerujeme název, cíl a místní cestu.
Příklad nepředávky argumentů:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Příklad vytvoření výstupu a následného povýšení výstupu na tabulkovou datovou sadu a jeho registraci s názvem foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Inicializace OutputFileDatasetConfig.
OutputFileDatasetConfig umožňuje určit, jak se má konkrétní místní cesta v cílovém výpočetním objektu nahrávat do zadaného cíle. Pokud konstruktoru nejsou předány žádné argumenty, automaticky vygenerujeme název, cíl a místní cestu.
Příklad nepředávky argumentů:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Příklad vytvoření výstupu a následného zvýšení úrovně výstupu na tabulkovou datovou sadu a jeho registraci s názvem foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
- Dědičnost
-
OutputFileDatasetConfigOutputFileDatasetConfig
Konstruktor
OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)
Parametry
Name | Description |
---|---|
name
Vyžadováno
|
Název výstupu specifického pro toto spuštění. Obvykle se používá pro účely rodokmenu. Pokud je nastavená hodnota Žádné, automaticky vygenerujeme název. Název se také stane proměnnou prostředí, která obsahuje místní cestu, kam můžete zapisovat výstupní soubory a složky, které se nahrají do cíle. |
destination
Vyžadováno
|
Cíl, do který chcete výstup zkopírovat. Pokud je nastavená hodnota None,zkopírujeme výstup do úložiště dat workspaceblobstore v cestě /dataset/{run-id}/{output-name}, kde run-id je ID spuštění a název výstupu je název výstupu z výše uvedeného parametru name . Cílem je kolekce členů, kde první položkou je úložiště dat a druhá položka je cesta v úložišti dat, do které chcete data zkopírovat. Cesta v úložišti dat může být cesta šablony. Cesta k šabloně je pouze běžná cesta, ale se zástupnými symboly uvnitř. Tyto zástupné symboly pak budou vyřešeny v odpovídající čas. Syntaxe zástupných symbolů je {placeholder}, například /path/with/{placeholder}. V současné době jsou podporovány pouze dva zástupné symboly: {run-id} a {output-name}. |
source
Vyžadováno
|
Cesta v rámci cílového výpočetního objektu, ze které chcete data zkopírovat. Pokud je nastavená hodnota Žádný, nastavíme ho na adresář, který vytvoříme v dočasném adresáři operačního systému cílového výpočetního objektu. |
partition_format
Vyžadováno
|
Zadejte formát oddílu cesty. Výchozí hodnota je Žádná. Informace o oddílech každé cesty budou extrahovány do sloupců na základě zadaného formátu. Formátovací část {column_name} vytvoří sloupec řetězce a {column_name:yyyy/MM/dd/HH/mm/ss} vytvoří sloupec datetime, kde "yyyy", "MM", "dd", "HH", "mm" a "ss" se používají k extrakci roku, měsíce, dne, hodiny, minuty a sekundy pro typ datetime. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě '.. /Accounts/2019/01/01/data.parquet' kde je oddíl podle názvu a času oddělení, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet vytvoří sloupec řetězce "Department" s hodnotou Accounts a sloupec datetime PartitionDate s hodnotou 2019-01-01. |
name
Vyžadováno
|
Název výstupu specifického pro toto spuštění. Obvykle se používá pro účely rodokmenu. Pokud je nastavená hodnota Žádné, automaticky vygenerujeme název. Název se také stane proměnnou prostředí, která obsahuje místní cestu, kam můžete zapisovat výstupní soubory a složky, které se nahrají do cíle. |
destination
Vyžadováno
|
Cíl, do který chcete výstup zkopírovat. Pokud je nastavená hodnota None,zkopírujeme výstup do úložiště dat workspaceblobstore v cestě /dataset/{run-id}/{output-name}, kde run-id je ID spuštění a název výstupu je název výstupu z výše uvedeného parametru name . Cílem je kolekce členů, kde první položkou je úložiště dat a druhá položka je cesta v úložišti dat, do které chcete data zkopírovat. Cesta v úložišti dat může být cesta šablony. Cesta k šabloně je pouze běžná cesta, ale se zástupnými symboly uvnitř. Tyto zástupné symboly pak budou vyřešeny v odpovídající čas. Syntaxe zástupných symbolů je {placeholder}, například /path/with/{placeholder}. V současné době jsou podporovány pouze dva zástupné symboly: {run-id} a {output-name}. |
source
Vyžadováno
|
Cesta v rámci cílového výpočetního objektu, ze které chcete data zkopírovat. Pokud je nastavená hodnota Žádný, nastavíme ho na adresář, který vytvoříme v dočasném adresáři operačního systému cílového výpočetního objektu. |
partition_format
Vyžadováno
|
Zadejte formát oddílu cesty. Výchozí hodnota je Žádná. Informace o oddílech každé cesty budou extrahovány do sloupců na základě zadaného formátu. Formátovací část {column_name} vytvoří sloupec řetězce a {column_name:yyyy/MM/dd/HH/mm/ss} vytvoří sloupec datetime, kde "yyyy", "MM", "dd", "HH", "mm" a "ss" se používají k extrakci roku, měsíce, dne, hodiny, minuty a sekundy pro typ datetime. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě '.. /Accounts/2019/01/01/data.parquet' kde je oddíl podle názvu a času oddělení, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet vytvoří sloupec řetězce "Department" s hodnotou Accounts a sloupec datetime PartitionDate s hodnotou 2019-01-01. |
Poznámky
Jako argument do svého spuštění můžete předat OutputFileDatasetConfig, který se automaticky přeloží na místní cestu na výpočetním prostředí. Pokud je zadaný argument source, použijeme ho, jinak automaticky vygenerujeme adresář v dočasné složce operačního systému. Soubory a složky ve zdrojovém adresáři se pak zkopírují do cíle na základě konfigurace výstupu.
Ve výchozím nastavení bude režim, ve kterém se výstup zkopíruje do cílového úložiště, nastaven na připojení. Další informace o režimu připojení najdete v dokumentaci k as_mount.
Metody
as_input |
V dalších krocích kanálu určete, jak se má výstup využívat jako vstup. |
as_mount |
Nastavte režim výstupu na připojení. Pro režim připojení bude výstupním adresářem připojený adresář FUSE. Soubory zapsané do připojeného adresáře se nahrají při zavření souboru. |
as_upload |
Nastavte režim výstupu, který se má nahrát. V režimu nahrávání se soubory zapsané do výstupního adresáře nahrají na konci úlohy. Pokud úloha selže nebo se zruší, výstupní adresář se nenahraje. |
as_input
V dalších krocích kanálu určete, jak se má výstup využívat jako vstup.
as_input(name=None)
Parametry
Name | Description |
---|---|
name
Vyžadováno
|
Název vstupu specifického pro spuštění. |
Návraty
Typ | Description |
---|---|
Instance DatasetConsumptionConfig popisující způsob doručení vstupních dat |
as_mount
Nastavte režim výstupu na připojení.
Pro režim připojení bude výstupním adresářem připojený adresář FUSE. Soubory zapsané do připojeného adresáře se nahrají při zavření souboru.
as_mount(disable_metadata_cache=False)
Parametry
Name | Description |
---|---|
disable_metadata_cache
Vyžadováno
|
Jestli se mají metadata ukládat do mezipaměti v místním uzlu, pokud je tato možnost zakázaná, uzel nebude moct během spuštění úlohy zobrazit soubory generované z jiných uzlů. |
Návraty
Typ | Description |
---|---|
Instance OutputFileDatasetConfig s režimem nastaveným na připojení. |
as_upload
Nastavte režim výstupu, který se má nahrát.
V režimu nahrávání se soubory zapsané do výstupního adresáře nahrají na konci úlohy. Pokud úloha selže nebo se zruší, výstupní adresář se nenahraje.
as_upload(overwrite=False, source_globs=None)
Parametry
Name | Description |
---|---|
overwrite
Vyžadováno
|
Zda se mají přepsat soubory, které již v cíli existují. |
source_globs
Vyžadováno
|
Vzory globů používané k filtrování souborů, které se budou nahrávat. |
Návraty
Typ | Description |
---|---|
Instance OutputFileDatasetConfig s režimem nastaveným na nahrání |