Compartir a través de


FileDatasetFactory Clase

Contiene métodos para crear un conjunto de datos de archivos para Azure Machine Learning.

FileDataset se crea a partir del método from_files definido en esta clase.

Para más información sobre cómo trabajar con conjuntos de datos de archivos, consulte el cuaderno https://aka.ms/filedataset-samplenotebook.

Herencia
builtins.object
FileDatasetFactory

Constructor

FileDatasetFactory()

Métodos

from_files

Cree un objeto FileDataset para representar secuencias de archivos.

upload_directory

Crea un conjunto de datos a partir del directorio de origen.

from_files

Cree un objeto FileDataset para representar secuencias de archivos.

static from_files(path, validate=True, partition_format=None, is_file=False)

Parámetros

Nombre Description
path
Requerido

Ruta de acceso a los archivos de origen, que pueden ser un solo valor o lista de cadenas url (http[s]|abfs[s]|wasb[s]), DataPath objeto o tupla de y ruta de Datastore acceso relativa. Tenga en cuenta que la lista de rutas de acceso no puede incluir direcciones URL y almacenes de datos juntos.

validate
Requerido

Indica si se va a validar si se pueden cargar datos desde el conjunto de datos devuelto. El valor predeterminado es True. La validación requiere que el origen de datos sea accesible desde el recurso de proceso actual.

partition_format
Requerido
str

Especifica el formato de partición de la ruta de acceso. El valor predeterminado es None. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato "{column_name}" crea una columna de cadena y "{column_name:yyyy/MM/dd/HH/mm/ss}" crea la columna datetime, donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extraer el año, mes, día, hora, minutos y segundos para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso ".. /Accounts/2019/01/01/data.jsonl" donde la partición es por nombre de departamento y hora, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' crea una columna de cadena "Department" con el valor "Accounts" y una columna datetime "PartitionDate" con el valor "2019-01-01".

is_file
Requerido

Indica si todas las rutas de acceso de entrada apuntan a archivos. De manera predeterminada, el motor de conjunto de datos intenta comprobar si las rutas de acceso de entrada apuntan a archivos. Establezca esta marca en True cuando todas las rutas de acceso de entrada sean Archivo para acelerar la creación del conjunto de datos.

Devoluciones

Tipo Description

Un objeto FileDataset.

Comentarios

from_files crea un objeto de clase FileDataset, que define las operaciones para cargar secuencias de archivo desde la ruta de acceso proporcionada.

Para que Azure Machine Learning pueda acceder a los datos, los archivos especificados por path deben estar ubicados en o Datastore ser accesibles con direcciones URL web públicas o url de Blob, ADLS Gen1 y ADLS Gen2.

El token de AAD de los usuarios se usará en el cuaderno o en el programa de Python local si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación de acceso a datos. Más información: https://aka.ms/data-access


   from azureml.core import Dataset, Datastore

   # create file dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))

   # create file dataset from a single directory in datastore
   file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))

   # create file dataset from all jpeg files in the directory
   file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))

   # create filedataset from multiple paths
   data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
   file_dataset_4 = Dataset.File.from_files(path=data_paths)

   # create file dataset from url
   file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')

upload_directory

Crea un conjunto de datos a partir del directorio de origen.

static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)

Parámetros

Nombre Description
src_dir
Requerido
str

Directorio local que se cargará.

target
Requerido

Obligatorio, la ruta de acceso del almacén de datos en la que se cargarán los archivos.

pattern
Requerido
str

Opcional, si se proporciona, filtrará todos los nombres de ruta de acceso que coincidan con el patrón especificado, de forma similar al paquete glob de Python, que admite "*", "?" e intervalos de caracteres expresados con [].

show_progress
Requerido

Opcional, indica si se debe mostrar el progreso de la carga en la consola. El valor predeterminado es True.

Devoluciones

Tipo Description

El conjunto de datos registrado.