FileDatasetFactory Clase
Contiene métodos para crear un conjunto de datos de archivos para Azure Machine Learning.
FileDataset se crea a partir del método from_files definido en esta clase.
Para más información sobre cómo trabajar con conjuntos de datos de archivos, consulte el cuaderno https://aka.ms/filedataset-samplenotebook.
- Herencia
-
builtins.objectFileDatasetFactory
Constructor
FileDatasetFactory()
Métodos
from_files |
Cree un objeto FileDataset para representar secuencias de archivos. |
upload_directory |
Crea un conjunto de datos a partir del directorio de origen. |
from_files
Cree un objeto FileDataset para representar secuencias de archivos.
static from_files(path, validate=True, partition_format=None, is_file=False)
Parámetros
Nombre | Description |
---|---|
path
Requerido
|
|
validate
Requerido
|
Indica si se va a validar si se pueden cargar datos desde el conjunto de datos devuelto. El valor predeterminado es True. La validación requiere que el origen de datos sea accesible desde el recurso de proceso actual. |
partition_format
Requerido
|
Especifica el formato de partición de la ruta de acceso. El valor predeterminado es None. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato "{column_name}" crea una columna de cadena y "{column_name:yyyy/MM/dd/HH/mm/ss}" crea la columna datetime, donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extraer el año, mes, día, hora, minutos y segundos para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso ".. /Accounts/2019/01/01/data.jsonl" donde la partición es por nombre de departamento y hora, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' crea una columna de cadena "Department" con el valor "Accounts" y una columna datetime "PartitionDate" con el valor "2019-01-01". |
is_file
Requerido
|
Indica si todas las rutas de acceso de entrada apuntan a archivos. De manera predeterminada, el motor de conjunto de datos intenta comprobar si las rutas de acceso de entrada apuntan a archivos. Establezca esta marca en True cuando todas las rutas de acceso de entrada sean Archivo para acelerar la creación del conjunto de datos. |
Devoluciones
Tipo | Description |
---|---|
Un objeto FileDataset. |
Comentarios
from_files crea un objeto de clase FileDataset, que define las operaciones para cargar secuencias de archivo desde la ruta de acceso proporcionada.
Para que Azure Machine Learning pueda acceder a los datos, los archivos especificados por path
deben estar ubicados en o Datastore ser accesibles con direcciones URL web públicas o url de Blob, ADLS Gen1 y ADLS Gen2.
El token de AAD de los usuarios se usará en el cuaderno o en el programa de Python local si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación de acceso a datos. Más información: https://aka.ms/data-access
from azureml.core import Dataset, Datastore
# create file dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))
# create file dataset from a single directory in datastore
file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))
# create file dataset from all jpeg files in the directory
file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))
# create filedataset from multiple paths
data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
file_dataset_4 = Dataset.File.from_files(path=data_paths)
# create file dataset from url
file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')
upload_directory
Crea un conjunto de datos a partir del directorio de origen.
static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)
Parámetros
Nombre | Description |
---|---|
src_dir
Requerido
|
Directorio local que se cargará. |
target
Requerido
|
Obligatorio, la ruta de acceso del almacén de datos en la que se cargarán los archivos. |
pattern
Requerido
|
Opcional, si se proporciona, filtrará todos los nombres de ruta de acceso que coincidan con el patrón especificado, de forma similar al paquete glob de Python, que admite "*", "?" e intervalos de caracteres expresados con []. |
show_progress
Requerido
|
Opcional, indica si se debe mostrar el progreso de la carga en la consola. El valor predeterminado es True. |
Devoluciones
Tipo | Description |
---|---|
El conjunto de datos registrado. |