Compartir a través de


OutputFileDatasetConfig Clase

Representa cómo copiar la salida de una ejecución y promoverla como un objeto FileDataset.

OutputFileDatasetConfig permite especificar cómo desea que una ruta de acceso local determinada en el destino de proceso se cargue en el destino especificado. Si no se pasa ningún argumento al constructor, se generará automáticamente un nombre, un destino y una ruta de acceso local.

Un ejemplo de no pasar ningún argumento:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Un ejemplo de creación de una salida y, a continuación, promoción de la salida a un conjunto de datos tabular y su registro con el nombre foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Inicialice outputFileDatasetConfig.

OutputFileDatasetConfig permite especificar cómo desea que una ruta de acceso local determinada en el destino de proceso se cargue en el destino especificado. Si no se pasa ningún argumento al constructor, se generará automáticamente un nombre, un destino y una ruta de acceso local.

Un ejemplo de no pasar ningún argumento:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Un ejemplo de creación de una salida y, a continuación, promoción de la salida a un conjunto de datos tabular y su registro con el nombre foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
Herencia
OutputFileDatasetConfig
OutputFileDatasetConfig

Constructor

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

Parámetros

Nombre Description
name
Requerido
str

Nombre de la salida específica para esta ejecución. Por lo general, se usa con fines de linaje. Si se establece en None, se generará automáticamente un nombre. El nombre también se convertirá en una variable de entorno que contiene la ruta de acceso local de donde puede escribir los archivos y carpetas de salida en que se cargarán en el destino.

destination
Requerido

Destino en el que se copia la salida. Si se establece en None, se copiará la salida en el almacén de datos workspaceblobstore, en la ruta de acceso /dataset/{run-id}/{output-name}, donde run-id es el identificador de ejecución y output-name es el nombre de salida del parámetro name anterior. El destino es una tupla donde el primer elemento es el almacén de datos y el segundo elemento es la ruta de acceso dentro del almacén de datos en el que se copian los datos.

La ruta de acceso dentro del almacén de datos puede ser una ruta de acceso de plantilla. Una ruta de acceso de plantilla es simplemente una ruta de acceso normal, pero con marcadores de posición dentro. Estos marcadores de posición se resolverán en el momento adecuado. La sintaxis de los marcadores de posición es {placeholder}, por ejemplo, /path/with/{placeholder}. Actualmente solo se admiten dos marcadores de posición, {run-id} y {output-name}.

source
Requerido
str

Ruta de acceso dentro del destino de proceso desde el que se copian los datos. Si se establece en None, se establecerá en un directorio que se crea dentro del directorio temporal del sistema operativo del destino de proceso.

partition_format
Requerido
str

Especifica el formato de partición de la ruta de acceso. El valor predeterminado es None. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato "{column_name}" crea una columna de cadena y "{column_name:yyyy/MM/dd/HH/mm/ss}" crea la columna datetime, donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extraer el año, mes, día, hora, minutos y segundos para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso "../Accounts/2019/01/01/data.parquet" donde la partición es por nombre de departamento y hora, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una columna de cadena "Department" con el valor "Accounts" y una columna datetime "PartitionDate" con el valor "2019-01-01".

name
Requerido
str

Nombre de la salida específica para esta ejecución. Por lo general, se usa con fines de linaje. Si se establece en None, se generará automáticamente un nombre. El nombre también se convertirá en una variable de entorno que contiene la ruta de acceso local de donde puede escribir los archivos y carpetas de salida en que se cargarán en el destino.

destination
Requerido

Destino en el que se copia la salida. Si se establece en None, se copiará la salida en el almacén de datos workspaceblobstore, en la ruta de acceso /dataset/{run-id}/{output-name}, donde run-id es el identificador de ejecución y output-name es el nombre de salida del parámetro name anterior. El destino es una tupla donde el primer elemento es el almacén de datos y el segundo elemento es la ruta de acceso dentro del almacén de datos en el que se copian los datos.

La ruta de acceso dentro del almacén de datos puede ser una ruta de acceso de plantilla. Una ruta de acceso de plantilla es simplemente una ruta de acceso normal, pero con marcadores de posición dentro. Estos marcadores de posición se resolverán en el momento adecuado. La sintaxis de los marcadores de posición es {placeholder}, por ejemplo, /path/with/{placeholder}. Actualmente solo se admiten dos marcadores de posición, {run-id} y {output-name}.

source
Requerido
str

Ruta de acceso dentro del destino de proceso desde el que se copian los datos. Si se establece en None, se establecerá en un directorio que se crea dentro del directorio temporal del sistema operativo del destino de proceso.

partition_format
Requerido
str

Especifica el formato de partición de la ruta de acceso. El valor predeterminado es None. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato "{column_name}" crea una columna de cadena y "{column_name:yyyy/MM/dd/HH/mm/ss}" crea la columna datetime, donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extraer el año, mes, día, hora, minutos y segundos para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso ".. /Accounts/2019/01/01/data.parquet" donde la partición es por nombre de departamento y hora, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una columna de cadena "Department" con el valor "Accounts" y una columna datetime "PartitionDate" con el valor "2019-01-01".

Comentarios

Puede pasar OutputFileDatasetConfig como argumento a la ejecución y se traducirá automáticamente en la ruta de acceso local en el proceso. El argumento de origen se usará si se especifica uno; de lo contrario, se generará automáticamente un directorio en la carpeta temporal del sistema operativo. Los archivos y carpetas dentro del directorio de origen se copiarán en el destino en función de la configuración de salida.

De manera predeterminada, el modo en el que se copiará la salida en el almacenamiento de destino se establecerá como montaje. Para más información sobre el modo de montaje, consulte la documentación de as_mount.

Métodos

as_input

Especifica cómo consumir la salida como entrada en los pasos de canalización posteriores.

as_mount

Establece el modo de la salida que se montará.

Para el modo de montaje, el directorio de salida será un directorio montado FUSE. Los archivos escritos en el directorio montado se cargarán cuando se cierre el archivo.

as_upload

Establece el modo de la salida que se cargará.

En el modo de carga, los archivos escritos en el directorio de salida se cargarán al final del trabajo. Si se produce un error en el trabajo o se cancela, el directorio de salida no se cargará.

as_input

Especifica cómo consumir la salida como entrada en los pasos de canalización posteriores.

as_input(name=None)

Parámetros

Nombre Description
name
Requerido
str

Nombre de la entrada específica de la ejecución.

Devoluciones

Tipo Description

Instancia DatasetConsumptionConfig de que describe cómo entregar los datos de entrada.

as_mount

Establece el modo de la salida que se montará.

Para el modo de montaje, el directorio de salida será un directorio montado FUSE. Los archivos escritos en el directorio montado se cargarán cuando se cierre el archivo.

as_mount(disable_metadata_cache=False)

Parámetros

Nombre Description
disable_metadata_cache
Requerido

Si se van a almacenar en caché los metadatos en el nodo local, si está deshabilitado, un nodo no podrá ver los archivos generados desde otros nodos durante la ejecución del trabajo.

Devoluciones

Tipo Description

Instancia OutputFileDatasetConfig con el modo establecido para montar.

as_upload

Establece el modo de la salida que se cargará.

En el modo de carga, los archivos escritos en el directorio de salida se cargarán al final del trabajo. Si se produce un error en el trabajo o se cancela, el directorio de salida no se cargará.

as_upload(overwrite=False, source_globs=None)

Parámetros

Nombre Description
overwrite
Requerido

Si se sobrescriben los archivos que ya existen en el destino.

source_globs
Requerido

Patrones globales que se usan para filtrar los archivos que se cargarán.

Devoluciones

Tipo Description

Instancia OutputFileDatasetConfig con el modo establecido para cargar.