Dela via


FileDatasetFactory Klass

Innehåller metoder för att skapa en fildatauppsättning för Azure Machine Learning.

En FileDataset skapas från metoden som from_files definierats i den här klassen.

Mer information om hur du arbetar med fildatauppsättningar finns i notebook-filen https://aka.ms/filedataset-samplenotebook.

Arv
builtins.object
FileDatasetFactory

Konstruktor

FileDatasetFactory()

Metoder

from_files

Skapa en FileDataset som representerar filströmmar.

upload_directory

Skapa en datauppsättning från källkatalogen.

from_files

Skapa en FileDataset som representerar filströmmar.

static from_files(path, validate=True, partition_format=None, is_file=False)

Parametrar

Name Description
path
Obligatorisk

Sökvägen till källfilerna, som kan vara ett enskilt värde eller en lista med URL-sträng (http[s]|abfs[s]|wasb[s]), DataPath objekt eller tuppel för Datastore och relativ sökväg. Observera att listan över sökvägar inte kan inkludera både URL:er och datalager tillsammans.

validate
Obligatorisk

Anger om du vill verifiera om data kan läsas in från den returnerade datauppsättningen. Standardvärdet är True. Verifieringen kräver att datakällan är tillgänglig från den aktuella beräkningen.

partition_format
Obligatorisk
str

Ange partitionsformatet för sökvägen. Standardvärdet är Ingen. Partitionsinformationen för varje sökväg extraheras till kolumner baserat på det angivna formatet. Formatdelen {column_name} skapar strängkolumnen och {column_name:åååå/MM/dd/HH/mm/ss} skapar datetime-kolumnen, där "åå", "MM", "dd", "HH", "mm" och "ss" används för att extrahera år, månad, dag, timme, minut och sekund för datetime-typen. Formatet bör börja från positionen för den första partitionsnyckeln till slutet av filsökvägen. Till exempel med tanke på sökvägen .. /Accounts/2019/01/01/data.jsonl' där partitionen är efter avdelningsnamn och tid, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' skapar en strängkolumn 'Avdelning' med värdet 'Konton' och en datetime-kolumn 'PartitionDate' med värdet '2019-01-01'.

is_file
Obligatorisk

Anger om alla indatasökvägar pekar på filer. Datauppsättningsmotorn försöker som standard kontrollera om indatasökvägar pekar på filer. Ställ in den här flaggan på Sant när alla indatasökvägar är Fil för att påskynda skapandet av datauppsättningen.

Returer

Typ Description

Ett FileDataset -objekt.

Kommentarer

from_files skapar ett objekt av FileDataset klassen som definierar åtgärderna för att läsa in filströmmar från den angivna sökvägen.

För att data ska kunna nås av Azure Machine Learning måste filerna som anges av path finnas i en Datastore eller vara tillgängliga med offentliga webb-URL:er eller URL:en för Blob, ADLS Gen1 och ADLS Gen2.

användarnas AAD-token används i notebook-filer eller lokala Python-program om den anropar någon av följande funktioner direkt: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files beräkningsmålets identitet används i jobb som skickas av Experiment.submit för autentisering av dataåtkomst. Lära sig mer: https://aka.ms/data-access


   from azureml.core import Dataset, Datastore

   # create file dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))

   # create file dataset from a single directory in datastore
   file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))

   # create file dataset from all jpeg files in the directory
   file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))

   # create filedataset from multiple paths
   data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
   file_dataset_4 = Dataset.File.from_files(path=data_paths)

   # create file dataset from url
   file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')

upload_directory

Skapa en datauppsättning från källkatalogen.

static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)

Parametrar

Name Description
src_dir
Obligatorisk
str

Den lokala katalog som ska laddas upp.

target
Obligatorisk

Obligatoriskt, datalagringssökvägen där filerna ska laddas upp.

pattern
Obligatorisk
str

Valfritt, Om det tillhandahålls, filtreras alla sökvägsnamn som matchar det angivna mönstret, ungefär som Python-globpaket, med stöd för "*", "?", och teckenintervall uttryckta med [].

show_progress
Obligatorisk

Valfritt anger om du vill visa förloppet för uppladdningen i -konsolen. Standardvärdet är True.

Returer

Typ Description

Den registrerade datauppsättningen.