FileDatasetFactory Klasse
Enthält Methoden zum Erstellen eines Dateidatasets für Azure Machine Learning.
Ein FileDataset wird mit der in dieser Klasse definierten from_files-Methode erstellt.
Weitere Informationen zum Arbeiten mit Dateidatasets finden Sie im Notebook https://aka.ms/filedataset-samplenotebook.
- Vererbung
-
builtins.objectFileDatasetFactory
Konstruktor
FileDatasetFactory()
Methoden
from_files |
Erstellen eines FileDataset zum Darstellen von Dateistreams. |
upload_directory |
Erstellen eines Datasets aus dem Quellverzeichnis. |
from_files
Erstellen eines FileDataset zum Darstellen von Dateistreams.
static from_files(path, validate=True, partition_format=None, is_file=False)
Parameter
Name | Beschreibung |
---|---|
path
Erforderlich
|
|
validate
Erforderlich
|
Gibt an, ob überprüft werden soll, ob Daten aus dem zurückgegebenen Dataset geladen werden können. Der Standardwert ist „True“. Die Überprüfung erfordert, dass über die aktuelle Computeressource auf die Datenquelle zugegriffen werden kann. |
partition_format
Erforderlich
|
Angeben des Partitionsformats des Pfads. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad „../Accounts/2019/01/01/data.jsonl“ an. Die Partition erfolgt dabei nach Abteilungsname und Uhrzeit. „partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl“ erstellt eine Zeichenfolgenspalte namens „Department“ (Abteilung) mit dem Wert „Accounts“ (Konten) und eine datetime-Spalte namens „PartitionDate“ (Partitionsdatum) mit dem Wert „2019-01-01“. |
is_file
Erforderlich
|
Gibt an, ob alle Eingabepfade auf Dateien verweisen. Das Datasetmodul versucht standardmäßig, zu überprüfen, ob Eingabepfade auf Dateien verweisen. Legen Sie dieses Flag auf „True“ fest, wenn es sich bei allen Eingabepfaden um Dateien handelt, um die Dataseterstellung zu beschleunigen. |
Gibt zurück
Typ | Beschreibung |
---|---|
Ein FileDataset-Objekt. |
Hinweise
from_files erstellt ein Objekt der FileDataset-Klasse, das die Vorgänge zum Laden von Dateistreams aus dem angegebenen Pfad definiert.
Damit Azure Machine Learning auf die Daten zugreifen kann, müssen sich die von path
angegebenen Dateien in einem Datastore befinden oder mit öffentlichen Web-URLs oder der URL von Blob, ADLS Gen1 und ADLS Gen2 zugänglich sein.
Das AAD-Token des Benutzers wird im Notebook oder im lokalen Python-Programm verwendet, wenn es direkt eine der folgenden Funktionen aufruft: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files die Identität des Computeziels wird in Aufträgen verwendet, die von Experiment.submit für die Datenzugriffsauthentifizierung übermittelt werden. Weitere Informationen: https://aka.ms/data-access
from azureml.core import Dataset, Datastore
# create file dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))
# create file dataset from a single directory in datastore
file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))
# create file dataset from all jpeg files in the directory
file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))
# create filedataset from multiple paths
data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
file_dataset_4 = Dataset.File.from_files(path=data_paths)
# create file dataset from url
file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')
upload_directory
Erstellen eines Datasets aus dem Quellverzeichnis.
static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)
Parameter
Name | Beschreibung |
---|---|
src_dir
Erforderlich
|
Das lokale Verzeichnis, das hochgeladen werden soll. |
target
Erforderlich
|
Erforderlich. Der Datenspeicherpfad, in den die Dateien hochgeladen werden. |
pattern
Erforderlich
|
Optional. Wenn angegeben, werden ähnlich wie beim Python-Globpaket alle Pfadnamen gefiltert, die dem angegebenen Muster entsprechen. Unterstützt werden Sternchen (*), Fragezeichen (?) und mit [] ausgedrückte Zeichenbereiche. |
show_progress
Erforderlich
|
Optional. Gibt an, ob der Fortschritt des Uploads in der Konsole angezeigt werden soll. Der Standardwert ist „True“. |
Gibt zurück
Typ | Beschreibung |
---|---|
Das registrierte Dataset. |