Sdílet prostřednictvím


OutputFileDatasetConfig Třída

Představuje, jak kopírovat výstup spuštění a být povýšen jako FileDataset.

OutputFileDatasetConfig umožňuje určit, jak se má konkrétní místní cesta v cílovém výpočetním objektu nahrávat do zadaného cíle. Pokud konstruktoru nejsou předány žádné argumenty, automaticky vygenerujeme název, cíl a místní cestu.

Příklad nepředávky argumentů:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Příklad vytvoření výstupu a následného zvýšení úrovně výstupu na tabulkovou datovou sadu a jeho registraci s názvem foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Inicializace OutputFileDatasetConfig.

OutputFileDatasetConfig umožňuje určit, jak se má konkrétní místní cesta v cílovém výpočetním objektu nahrávat do zadaného cíle. Pokud konstruktoru nejsou předány žádné argumenty, automaticky vygenerujeme název, cíl a místní cestu.

Příklad nepředávky argumentů:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Příklad vytvoření výstupu a následného zvýšení úrovně výstupu na tabulkovou datovou sadu a jeho registraci s názvem foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
Dědičnost
OutputFileDatasetConfig
OutputFileDatasetConfig

Konstruktor

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

Parametry

Name Description
name
Vyžadováno
str

Název výstupu specifického pro toto spuštění. Obvykle se používá pro účely rodokmenu. Pokud je nastavená hodnota Žádné, automaticky vygenerujeme název. Název se také stane proměnnou prostředí, která obsahuje místní cestu, kam můžete zapsat výstupní soubory a složky, které se nahrají do cíle.

destination
Vyžadováno

Cíl, do který se má výstup zkopírovat. Pokud je nastavená hodnota Žádná, zkopírujeme výstup do úložiště dat workspaceblobstore v cestě /dataset/{run-id}/{output-name}, kde run-id je ID spuštění a název output-name je název výstupu z výše uvedeného parametru name . Cíl je řazená kolekce členů, kde první položka je úložiště dat a druhá položka je cesta v úložišti dat, do kterého se data zkopírují.

Cesta v rámci úložiště dat může být cesta k šabloně. Cesta k šabloně je jenom běžná cesta, ale se zástupnými symboly uvnitř. Tyto zástupné symboly se pak v příslušnou dobu přeloží. Syntaxe zástupných symbolů je {placeholder}, například /path/with/{placeholder}. Aktuálně jsou podporovány pouze dva zástupné symboly: {run-id} a {output-name}.

source
Vyžadováno
str

Cesta v rámci cílového výpočetního objektu, ze které se mají kopírovat data. Pokud je tato možnost nastavená na Žádné, nastavíme ji na adresář, který vytvoříme v dočasném adresáři operačního systému cílového výpočetního objektu.

partition_format
Vyžadováno
str

Zadejte formát oddílu cesty. Výchozí hodnota je Žádná. Informace o oddílech každé cesty budou extrahovány do sloupců na základě zadaného formátu. Formátovací část {column_name} vytvoří sloupec řetězce a {column_name:yyyy/MM/dd/HH/mm/ss} vytvoří sloupec datetime, kde 'yyyy', 'MM', 'dd', 'HH', 'mm' a 'ss' se používají k extrakci roku, měsíce, dne, hodiny, minuty a sekundy pro typ datetime. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě '.. /Accounts/2019/01/01/data.parquet' kde je oddíl podle názvu a času oddělení, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet vytvoří sloupec řetězce Department s hodnotou Accounts a sloupec datetime PartitionDate s hodnotou 2019-01-01.

name
Vyžadováno
str

Název výstupu specifického pro toto spuštění. Obvykle se používá pro účely rodokmenu. Pokud je nastavená hodnota Žádné, automaticky vygenerujeme název. Název se také stane proměnnou prostředí, která obsahuje místní cestu, kam můžete zapsat výstupní soubory a složky, které se nahrají do cíle.

destination
Vyžadováno

Cíl, do který se má výstup zkopírovat. Pokud je nastavená hodnota Žádná, zkopírujeme výstup do úložiště dat workspaceblobstore v cestě /dataset/{run-id}/{output-name}, kde run-id je ID spuštění a název output-name je název výstupu z výše uvedeného parametru name . Cíl je řazená kolekce členů, kde první položka je úložiště dat a druhá položka je cesta v úložišti dat, do kterého se data zkopírují.

Cesta v rámci úložiště dat může být cesta k šabloně. Cesta k šabloně je jenom běžná cesta, ale se zástupnými symboly uvnitř. Tyto zástupné symboly se pak v příslušnou dobu přeloží. Syntaxe zástupných symbolů je {placeholder}, například /path/with/{placeholder}. Aktuálně jsou podporovány pouze dva zástupné symboly: {run-id} a {output-name}.

source
Vyžadováno
str

Cesta v rámci cílového výpočetního objektu, ze které se mají kopírovat data. Pokud je tato možnost nastavená na Žádné, nastavíme ji na adresář, který vytvoříme v dočasném adresáři operačního systému cílového výpočetního objektu.

partition_format
Vyžadováno
str

Zadejte formát oddílu cesty. Výchozí hodnota je Žádná. Informace o oddílech každé cesty budou extrahovány do sloupců na základě zadaného formátu. Formátovací část {column_name} vytvoří sloupec řetězce a {column_name:yyyy/MM/dd/HH/mm/ss} vytvoří sloupec datetime, kde 'yyyy', 'MM', 'dd', 'HH', 'mm' a 'ss' se používají k extrakci roku, měsíce, dne, hodiny, minuty a sekundy pro typ datetime. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě '.. /Accounts/2019/01/01/data.parquet' kde je oddíl podle názvu a času oddělení, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet vytvoří sloupec řetězce Department s hodnotou Accounts a sloupec datetime PartitionDate s hodnotou 2019-01-01.

Poznámky

Jako argument spuštění můžete předat OutputFileDatasetConfig, který se automaticky přeloží na místní cestu na výpočetním prostředí. Pokud je zadaný argument source, v opačném případě automaticky vygenerujeme adresář v dočasné složce operačního systému. Soubory a složky ve zdrojovém adresáři se pak zkopírují do cíle na základě konfigurace výstupu.

Ve výchozím nastavení se režim, ve kterém se výstup zkopíruje do cílového úložiště, nastaví na připojení. Další informace o režimu připojení najdete v dokumentaci k as_mount.

Metody

as_input

V dalších krocích kanálu určete, jak se má výstup využívat jako vstup.

as_mount

Nastavte režim výstupu, který se má připojit.

Pro režim připojení bude výstupním adresářem připojený adresář FUSE. Soubory zapsané do připojeného adresáře se nahrají při zavření souboru.

as_upload

Nastavte režim výstupu, který se má nahrát.

V režimu nahrávání se soubory zapsané do výstupního adresáře nahrají na konci úlohy. Pokud úloha selže nebo se zruší, výstupní adresář se nenahraje.

as_input

V dalších krocích kanálu určete, jak se má výstup využívat jako vstup.

as_input(name=None)

Parametry

Name Description
name
Vyžadováno
str

Název vstupu specifického pro spuštění.

Návraty

Typ Description

Instance DatasetConsumptionConfig popisující způsob doručení vstupních dat.

as_mount

Nastavte režim výstupu, který se má připojit.

Pro režim připojení bude výstupním adresářem připojený adresář FUSE. Soubory zapsané do připojeného adresáře se nahrají při zavření souboru.

as_mount(disable_metadata_cache=False)

Parametry

Name Description
disable_metadata_cache
Vyžadováno

Jestli se mají metadata ukládat do mezipaměti v místním uzlu, pokud je zakázána, uzel neuvidí soubory vygenerované z jiných uzlů během běhu úlohy.

Návraty

Typ Description

Instance OutputFileDatasetConfig s režimem nastaveným na připojení.

as_upload

Nastavte režim výstupu, který se má nahrát.

V režimu nahrávání se soubory zapsané do výstupního adresáře nahrají na konci úlohy. Pokud úloha selže nebo se zruší, výstupní adresář se nenahraje.

as_upload(overwrite=False, source_globs=None)

Parametry

Name Description
overwrite
Vyžadováno

Určuje, jestli se mají přepsat soubory, které už v cíli existují.

source_globs
Vyžadováno

Vzory globu používané k filtrování souborů, které se nahrají.

Návraty

Typ Description

Instance OutputFileDatasetConfig s režimem nastaveným na nahrávání.