OutputFileDatasetConfig Classe
Representa como copiar a saída de uma execução e depois promovê-la como um FileDataset.
O OutputFileDatasetConfig permite que você especifique como deseja que um determinado caminho local no destino de computação seja carregado para o destino especificado. Se nenhum argumento for passado para o construtor, geraremos automaticamente um nome, um destino e um caminho local.
Um exemplo em que nenhum argumento é passado:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Um exemplo de criação de uma saída, em que depois a saída é promovida para um conjunto de dados tabular que é registrado com o nome foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Inicialize um OutputFileDatasetConfig.
O OutputFileDatasetConfig permite que você especifique como deseja que um determinado caminho local no destino de computação seja carregado para o destino especificado. Se nenhum argumento for passado para o construtor, geraremos automaticamente um nome, um destino e um caminho local.
Um exemplo em que nenhum argumento é passado:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Um exemplo de criação de uma saída, em que depois a saída é promovida para um conjunto de dados tabular que é registrado com o nome foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
- Herança
-
OutputFileDatasetConfigOutputFileDatasetConfig
Construtor
OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)
Parâmetros
Nome | Description |
---|---|
name
Obrigatório
|
O nome da saída específica a esta execução. Isso geralmente é usado para fins de linhagem. Se for definido como Nenhum, geraremos um nome automaticamente. O nome também se tornará uma variável de ambiente que contém o caminho local de onde você pode gravar seus arquivos de saída e as pastas que serão carregadas no destino. |
destination
Obrigatório
|
O destino para o qual copiar a saída. Se definido como nenhum, copiaremos a saída para o repositório de armazenamento workspaceblobstore, no caminho /dataset/{run-id}/{output-name}, em que run-id é a ID da execução e output-name é o nome da saída do parâmetro name acima. O destino é uma tupla em que o primeiro item é o armazenamento de dados e o segundo é o caminho dentro do armazenamento de dados para o qual copiar os dados. O caminho no armazenamento de dados pode ser um caminho de modelo. Um caminho de modelo é apenas um caminho regular, mas com espaços reservados dentro. Esses espaços reservados serão então resolvidos no momento apropriado. A sintaxe para espaços reservados é {espaço_reservado}, por exemplo, /path/with/{espaço_reservado}. Atualmente, apenas dois espaços reservados têm suporte, {run-id} e {output-name}. |
source
Obrigatório
|
O caminho dentro do destino de computação do qual copiar os dados. Se for definido como Nenhum, definiremos isso como um diretório que criamos dentro do diretório temporário do sistema operacional do destino de computação. |
partition_format
Obrigatório
|
Especifique o formato de partição do caminho. Assume o valor padrão de Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. A parte do formato '{column_name}' cria uma coluna de cadeia de caracteres e '{column_name:yyyy/MM/dd/HH/mm/ss}' cria a coluna datetime, na qual 'yyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundos para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, considerando o caminho '../Accounts/2019/01/01/data.parquet' em que a partição é por hora e nome do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cadeia de caracteres 'Department' com o valor 'Accounts' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'. |
name
Obrigatório
|
O nome da saída específica a esta execução. Isso geralmente é usado para fins de linhagem. Se for definido como Nenhum, geraremos um nome automaticamente. O nome também se tornará uma variável de ambiente que contém o caminho local de onde você pode gravar seus arquivos de saída e as pastas que serão carregadas no destino. |
destination
Obrigatório
|
O destino para o qual copiar a saída. Se definido como nenhum, copiaremos a saída para o repositório de armazenamento workspaceblobstore, no caminho /dataset/{run-id}/{output-name}, em que run-id é a ID da execução e output-name é o nome da saída do parâmetro name acima. O destino é uma tupla em que o primeiro item é o armazenamento de dados e o segundo é o caminho dentro do armazenamento de dados para o qual copiar os dados. O caminho no armazenamento de dados pode ser um caminho de modelo. Um caminho de modelo é apenas um caminho regular, mas com espaços reservados dentro. Esses espaços reservados serão então resolvidos no momento apropriado. A sintaxe para espaços reservados é {espaço_reservado}, por exemplo, /path/with/{espaço_reservado}. Atualmente, apenas dois espaços reservados têm suporte, {run-id} e {output-name}. |
source
Obrigatório
|
O caminho dentro do destino de computação do qual copiar os dados. Se for definido como Nenhum, definiremos isso como um diretório que criamos dentro do diretório temporário do sistema operacional do destino de computação. |
partition_format
Obrigatório
|
Especifique o formato de partição do caminho. Assume o valor padrão de Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. A parte do formato '{column_name}' cria uma coluna de cadeia de caracteres e '{column_name:yyyy/MM/dd/HH/mm/ss}' cria a coluna datetime, na qual 'yyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundos para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, considerando o caminho '../Accounts/2019/01/01/data.parquet' em que a partição é por hora e nome do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cadeia de caracteres 'Department' com o valor 'Accounts' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'. |
Comentários
Você pode passar o OutputFileDatasetConfig como um argumento para sua execução, e ele será automaticamente convertido em caminho local na computação. O argumento de origem será usado se um for especificado, caso contrário, geraremos automaticamente um diretório na pasta temp do sistema operacional. Os arquivos e pastas dentro do diretório de origem serão então copiados para o destino com base na configuração de saída.
Por padrão, o modo pelo qual a saída será copiada no armazenamento de destino será definido como montagem. Para obter mais informações sobre o modo de montagem, confira a documentação para as_mount.
Métodos
as_input |
Especifica como consumir a saída como uma entrada nas etapas de pipeline subsequentes. |
as_mount |
Defina o modo da saída como montagem. No modo de montagem, o diretório de saída será um diretório FUSE montado. Os arquivos gravados no diretório montado serão carregados quando o arquivo for fechado. |
as_upload |
Defina o modo da saída como upload. No modo de upload, os arquivos gravados no diretório de saída serão carregados ao término do trabalho. Se o trabalho falhar ou for cancelado, o diretório de saída não será carregado. |
as_input
Especifica como consumir a saída como uma entrada nas etapas de pipeline subsequentes.
as_input(name=None)
Parâmetros
Nome | Description |
---|---|
name
Obrigatório
|
O nome da entrada específica para a ser executada. |
Retornos
Tipo | Description |
---|---|
Uma instância DatasetConsumptionConfig que descreve como entregar os dados de entrada. |
as_mount
Defina o modo da saída como montagem.
No modo de montagem, o diretório de saída será um diretório FUSE montado. Os arquivos gravados no diretório montado serão carregados quando o arquivo for fechado.
as_mount(disable_metadata_cache=False)
Parâmetros
Nome | Description |
---|---|
disable_metadata_cache
Obrigatório
|
Se os metadados devem ou não ser armazenados em cache local. Se desabilitado, um nó não poderá ver os arquivos gerados de outros nós durante a execução do trabalho. |
Retornos
Tipo | Description |
---|---|
Uma instância de OutputFileDatasetConfig com o modo definido como montagem. |
as_upload
Defina o modo da saída como upload.
No modo de upload, os arquivos gravados no diretório de saída serão carregados ao término do trabalho. Se o trabalho falhar ou for cancelado, o diretório de saída não será carregado.
as_upload(overwrite=False, source_globs=None)
Parâmetros
Nome | Description |
---|---|
overwrite
Obrigatório
|
Se os arquivos que já existem no destino devem ou não ser substituídos. |
source_globs
Obrigatório
|
Padrões glob usados para filtrar arquivos que serão carregados. |
Retornos
Tipo | Description |
---|---|
Uma instância de OutputFileDatasetConfig com o modo definido como upload. |