FileDatasetFactory Klasse

Referenz

Enthält Methoden zum Erstellen eines Dateidatasets für Azure Machine Learning.

Ein FileDataset wird mit der in dieser Klasse definierten from_files-Methode erstellt.

Weitere Informationen zum Arbeiten mit Dateidatasets finden Sie im Notebook https://aka.ms/filedataset-samplenotebook.

Vererbung: builtins.object

FileDatasetFactory

Konstruktor

FileDatasetFactory()

Methoden

from_files	Erstellen eines FileDataset zum Darstellen von Dateistreams.
upload_directory	Erstellen eines Datasets aus dem Quellverzeichnis.

from_files

Erstellen eines FileDataset zum Darstellen von Dateistreams.

static from_files(path, validate=True, partition_format=None, is_file=False)

Parameter

Name	Beschreibung
path Erforderlich	Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]] Der Pfad zu den Quelldateien, die ein einzelner Wert oder eine Liste von URL-Zeichenfolgen (http[s]\|abfs[s]\|wasb[s]), DataPath Objekt oder Tupel von Datastore und relativer Pfad sein können. Die Liste der Pfade kann nicht sowohl URLs als auch Datenspeicher enthalten.
validate Erforderlich	bool Gibt an, ob überprüft werden soll, ob Daten aus dem zurückgegebenen Dataset geladen werden können. Der Standardwert ist „True“. Die Überprüfung erfordert, dass über die aktuelle Computeressource auf die Datenquelle zugegriffen werden kann.
partition_format Erforderlich	str Angeben des Partitionsformats des Pfads. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad „../Accounts/2019/01/01/data.jsonl“ an. Die Partition erfolgt dabei nach Abteilungsname und Uhrzeit. „partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl“ erstellt eine Zeichenfolgenspalte namens „Department“ (Abteilung) mit dem Wert „Accounts“ (Konten) und eine datetime-Spalte namens „PartitionDate“ (Partitionsdatum) mit dem Wert „2019-01-01“.
is_file Erforderlich	bool Gibt an, ob alle Eingabepfade auf Dateien verweisen. Das Datasetmodul versucht standardmäßig, zu überprüfen, ob Eingabepfade auf Dateien verweisen. Legen Sie dieses Flag auf „True“ fest, wenn es sich bei allen Eingabepfaden um Dateien handelt, um die Dataseterstellung zu beschleunigen.

Gibt zurück

Typ	Beschreibung
FileDataset	Ein FileDataset-Objekt.

Hinweise

from_files erstellt ein Objekt der FileDataset-Klasse, das die Vorgänge zum Laden von Dateistreams aus dem angegebenen Pfad definiert.

Damit Azure Machine Learning auf die Daten zugreifen kann, müssen sich die von path angegebenen Dateien in einem Datastore befinden oder mit öffentlichen Web-URLs oder der URL von Blob, ADLS Gen1 und ADLS Gen2 zugänglich sein.

Das AAD-Token des Benutzers wird im Notebook oder im lokalen Python-Programm verwendet, wenn es direkt eine der folgenden Funktionen aufruft: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files die Identität des Computeziels wird in Aufträgen verwendet, die von Experiment.submit für die Datenzugriffsauthentifizierung übermittelt werden. Weitere Informationen: https://aka.ms/data-access


   from azureml.core import Dataset, Datastore

   # create file dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))

   # create file dataset from a single directory in datastore
   file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))

   # create file dataset from all jpeg files in the directory
   file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))

   # create filedataset from multiple paths
   data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
   file_dataset_4 = Dataset.File.from_files(path=data_paths)

   # create file dataset from url
   file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')

upload_directory

Erstellen eines Datasets aus dem Quellverzeichnis.

static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)

Parameter

Name	Beschreibung
src_dir Erforderlich	str Das lokale Verzeichnis, das hochgeladen werden soll.
target Erforderlich	Union[DataPath, Datastore, tuple(Datastore, str)] Erforderlich. Der Datenspeicherpfad, in den die Dateien hochgeladen werden.
pattern Erforderlich	str Optional. Wenn angegeben, werden ähnlich wie beim Python-Globpaket alle Pfadnamen gefiltert, die dem angegebenen Muster entsprechen. Unterstützt werden Sternchen (*), Fragezeichen (?) und mit [] ausgedrückte Zeichenbereiche.
show_progress Erforderlich	bool Optional. Gibt an, ob der Fortschritt des Uploads in der Konsole angezeigt werden soll. Der Standardwert ist „True“.

Gibt zurück

Typ	Beschreibung
FileDataset	Das registrierte Dataset.

Freigeben über

FileDatasetFactory Klasse

Konstruktor

Methoden

from_files

Parameter

Gibt zurück

Hinweise

upload_directory

Parameter

Gibt zurück

Feedback

Zusätzliche Ressourcen