OutputFileDatasetConfig Clase
Representa cómo copiar la salida de una ejecución y promoverla como un objeto FileDataset.
OutputFileDatasetConfig permite especificar cómo desea que una ruta de acceso local determinada en el destino de proceso se cargue en el destino especificado. Si no se pasa ningún argumento al constructor, se generará automáticamente un nombre, un destino y una ruta de acceso local.
Un ejemplo de no pasar ningún argumento:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Un ejemplo de creación de una salida y, a continuación, promoción de la salida a un conjunto de datos tabular y su registro con el nombre foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Inicialice outputFileDatasetConfig.
OutputFileDatasetConfig permite especificar cómo desea que una ruta de acceso local determinada en el destino de proceso se cargue en el destino especificado. Si no se pasa ningún argumento al constructor, se generará automáticamente un nombre, un destino y una ruta de acceso local.
Un ejemplo de no pasar ningún argumento:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Un ejemplo de creación de una salida y, a continuación, promoción de la salida a un conjunto de datos tabular y su registro con el nombre foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
- Herencia
-
OutputFileDatasetConfigOutputFileDatasetConfig
Constructor
OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)
Parámetros
Nombre | Description |
---|---|
name
Requerido
|
Nombre de la salida específica para esta ejecución. Por lo general, se usa con fines de linaje. Si se establece en None, se generará automáticamente un nombre. El nombre también se convertirá en una variable de entorno que contiene la ruta de acceso local de donde puede escribir los archivos y carpetas de salida en que se cargarán en el destino. |
destination
Requerido
|
Destino en el que se copia la salida. Si se establece en None, se copiará la salida en el almacén de datos workspaceblobstore, en la ruta de acceso /dataset/{run-id}/{output-name}, donde run-id es el identificador de ejecución y output-name es el nombre de salida del parámetro name anterior. El destino es una tupla donde el primer elemento es el almacén de datos y el segundo elemento es la ruta de acceso dentro del almacén de datos en el que se copian los datos. La ruta de acceso dentro del almacén de datos puede ser una ruta de acceso de plantilla. Una ruta de acceso de plantilla es simplemente una ruta de acceso normal, pero con marcadores de posición dentro. Estos marcadores de posición se resolverán en el momento adecuado. La sintaxis de los marcadores de posición es {placeholder}, por ejemplo, /path/with/{placeholder}. Actualmente solo se admiten dos marcadores de posición, {run-id} y {output-name}. |
source
Requerido
|
Ruta de acceso dentro del destino de proceso desde el que se copian los datos. Si se establece en None, se establecerá en un directorio que se crea dentro del directorio temporal del sistema operativo del destino de proceso. |
partition_format
Requerido
|
Especifica el formato de partición de la ruta de acceso. El valor predeterminado es None. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato "{column_name}" crea una columna de cadena y "{column_name:yyyy/MM/dd/HH/mm/ss}" crea la columna datetime, donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extraer el año, mes, día, hora, minutos y segundos para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso "../Accounts/2019/01/01/data.parquet" donde la partición es por nombre de departamento y hora, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una columna de cadena "Department" con el valor "Accounts" y una columna datetime "PartitionDate" con el valor "2019-01-01". |
name
Requerido
|
Nombre de la salida específica para esta ejecución. Por lo general, se usa con fines de linaje. Si se establece en None, se generará automáticamente un nombre. El nombre también se convertirá en una variable de entorno que contiene la ruta de acceso local de donde puede escribir los archivos y carpetas de salida en que se cargarán en el destino. |
destination
Requerido
|
Destino en el que se copia la salida. Si se establece en None, se copiará la salida en el almacén de datos workspaceblobstore, en la ruta de acceso /dataset/{run-id}/{output-name}, donde run-id es el identificador de ejecución y output-name es el nombre de salida del parámetro name anterior. El destino es una tupla donde el primer elemento es el almacén de datos y el segundo elemento es la ruta de acceso dentro del almacén de datos en el que se copian los datos. La ruta de acceso dentro del almacén de datos puede ser una ruta de acceso de plantilla. Una ruta de acceso de plantilla es simplemente una ruta de acceso normal, pero con marcadores de posición dentro. Estos marcadores de posición se resolverán en el momento adecuado. La sintaxis de los marcadores de posición es {placeholder}, por ejemplo, /path/with/{placeholder}. Actualmente solo se admiten dos marcadores de posición, {run-id} y {output-name}. |
source
Requerido
|
Ruta de acceso dentro del destino de proceso desde el que se copian los datos. Si se establece en None, se establecerá en un directorio que se crea dentro del directorio temporal del sistema operativo del destino de proceso. |
partition_format
Requerido
|
Especifica el formato de partición de la ruta de acceso. El valor predeterminado es None. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato "{column_name}" crea una columna de cadena y "{column_name:yyyy/MM/dd/HH/mm/ss}" crea la columna datetime, donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extraer el año, mes, día, hora, minutos y segundos para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso ".. /Accounts/2019/01/01/data.parquet" donde la partición es por nombre de departamento y hora, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una columna de cadena "Department" con el valor "Accounts" y una columna datetime "PartitionDate" con el valor "2019-01-01". |
Comentarios
Puede pasar OutputFileDatasetConfig como argumento a la ejecución y se traducirá automáticamente en la ruta de acceso local en el proceso. El argumento de origen se usará si se especifica uno; de lo contrario, se generará automáticamente un directorio en la carpeta temporal del sistema operativo. Los archivos y carpetas dentro del directorio de origen se copiarán en el destino en función de la configuración de salida.
De manera predeterminada, el modo en el que se copiará la salida en el almacenamiento de destino se establecerá como montaje. Para más información sobre el modo de montaje, consulte la documentación de as_mount.
Métodos
as_input |
Especifica cómo consumir la salida como entrada en los pasos de canalización posteriores. |
as_mount |
Establece el modo de la salida que se montará. Para el modo de montaje, el directorio de salida será un directorio montado FUSE. Los archivos escritos en el directorio montado se cargarán cuando se cierre el archivo. |
as_upload |
Establece el modo de la salida que se cargará. En el modo de carga, los archivos escritos en el directorio de salida se cargarán al final del trabajo. Si se produce un error en el trabajo o se cancela, el directorio de salida no se cargará. |
as_input
Especifica cómo consumir la salida como entrada en los pasos de canalización posteriores.
as_input(name=None)
Parámetros
Nombre | Description |
---|---|
name
Requerido
|
Nombre de la entrada específica de la ejecución. |
Devoluciones
Tipo | Description |
---|---|
Instancia DatasetConsumptionConfig de que describe cómo entregar los datos de entrada. |
as_mount
Establece el modo de la salida que se montará.
Para el modo de montaje, el directorio de salida será un directorio montado FUSE. Los archivos escritos en el directorio montado se cargarán cuando se cierre el archivo.
as_mount(disable_metadata_cache=False)
Parámetros
Nombre | Description |
---|---|
disable_metadata_cache
Requerido
|
Si se van a almacenar en caché los metadatos en el nodo local, si está deshabilitado, un nodo no podrá ver los archivos generados desde otros nodos durante la ejecución del trabajo. |
Devoluciones
Tipo | Description |
---|---|
Instancia OutputFileDatasetConfig con el modo establecido para montar. |
as_upload
Establece el modo de la salida que se cargará.
En el modo de carga, los archivos escritos en el directorio de salida se cargarán al final del trabajo. Si se produce un error en el trabajo o se cancela, el directorio de salida no se cargará.
as_upload(overwrite=False, source_globs=None)
Parámetros
Nombre | Description |
---|---|
overwrite
Requerido
|
Si se sobrescriben los archivos que ya existen en el destino. |
source_globs
Requerido
|
Patrones globales que se usan para filtrar los archivos que se cargarán. |
Devoluciones
Tipo | Description |
---|---|
Instancia OutputFileDatasetConfig con el modo establecido para cargar. |