Freigeben über


Dataset Klasse

Stellt eine Ressource für das Untersuchen, Transformieren und Verwalten von Daten in Azure Machine Learning dar

Ein Dataset ist ein Verweis auf Daten in einem Datastore oder hinter öffentlichen Web-URLs.

Für die veralteten Methoden in dieser Klasse finden Sie verbesserte APIs in der AbstractDataset-Klasse.

Die folgenden Datasettypen werden unterstützt:

  • TabularDataset stellt Daten in einem tabellarischen Format bereit, das durch Analysieren der bereitgestellten Datei oder Liste von Dateien erstellt wird.

  • FileDataset verweist auf Dateien in Datenspeichern oder unter öffentlichen URLs.

Informationen zu den ersten Schritten mit Datasets finden Sie im Artikel Hinzufügen & Registrieren von Datasets oder in den Notebooks https://aka.ms/tabulardataset-samplenotebook und https://aka.ms/filedataset-samplenotebook.

Initialisieren Sie das Dataset-Objekt.

Verwenden Sie die get-Methode, um ein Dataset abzurufen, das bereits im Arbeitsbereich registriert wurde.

Vererbung
builtins.object
Dataset

Konstruktor

Dataset(definition, workspace=None, name=None, id=None)

Parameter

Name Beschreibung
definition
Erforderlich
<xref:azureml.data.DatasetDefinition>

Die Datasetdefinition.

workspace
Erforderlich

Der Arbeitsbereich, in dem sich das Dataset befindet.

name
Erforderlich
str

Der Name des Datasets.

id
Erforderlich
str

Der eindeutige Bezeichner des Datasets.

Hinweise

Die Dataset-Klasse macht zwei praktische Klassenattribute (File und Tabular) verfügbar, die Sie zum Erstellen eines Datasets ohne die entsprechenden Factorymethoden verwenden können. So erstellen Sie beispielsweise ein Dataset mit diesen Attributen

  • Dataset.Tabular.from_delimited_files()

  • Dataset.File.from_files()

Sie können auch ein neues TabularDataset oder FileDataset erstellen, indem Sie die entsprechenden Factorymethoden der in TabularDatasetFactory und FileDatasetFactory definierten Klasse direkt aufrufen.

Im folgenden Beispiel wird gezeigt, wie ein TabularDataset erstellt wird, das auf einen einzelnen Pfad in einem Datenspeicher verweist.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

Das vollständige Beispiel finden Sie unter https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb.

Variablen

Name Beschreibung
azureml.core.Dataset.File

Ein Klassenattribut, das den Zugriff auf die FileDatasetFactory-Methoden zum Erstellen neuer FileDataset-Objekte ermöglicht. Verwendung: Dataset.File.from_files().

azureml.core.Dataset.Tabular

Ein Klassenattribut, das den Zugriff auf die TabularDatasetFactory-Methoden zum Erstellen neuer TabularDataset-Objekte ermöglicht. Verwendung: Dataset.Tabular.from_delimited_files().

Methoden

archive

Archiviert ein aktives oder veraltetes Dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

auto_read_files

Analysiert die Dateien unter dem angegebenen Pfad und gibt ein neues Dataset zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, Dateien mit den Methoden „Dataset.Tabular.from_*“ zu lesen. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

compare_profiles

Vergleicht das Profil des aktuellen Datasets mit einem anderen Datasetprofil.

Die Unterschiede werden in der Zusammenfassungsstatistik der beiden Datasets angezeigt. Der Parameter „rhs_dataset“ steht für die rechte Seite (right-hand side) und ist einfach das zweite Dataset. Das erste Dataset (das aktuelle Datasetobjekt) wird entsprechend als „linke Seite“ betrachtet.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

create_snapshot

Erstellt eine Momentaufnahme des registrierten Datasets.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

delete_snapshot

Löscht die Momentaufnahme des Datasets anhand ihres Namens.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

deprecate

Kennzeichnet ein aktives Dataset in einem Arbeitsbereich als veraltet und ersetzt es durch ein anderes Dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

diff

Vergleicht das aktuelle Dataset mit rhs_dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

from_binary_files

Erstellt ein nicht registriertes In-Memory-Dataset aus Binärdateien.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.File.from_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

from_delimited_files

Erstellt ein nicht registriertes In-Memory-Dataset aus Dateien mit Trennzeichen.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.from_delimited_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
from_excel_files

Erstellt ein nicht registriertes In-Memory-Dataset aus Excel-Dateien.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

from_json_files

Erstellt ein nicht registriertes In-Memory-Dataset aus JSON-Dateien.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.from_json_lines_files zum Lesen aus der JSON-Zeilendateien zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

from_pandas_dataframe

Erstellt ein nicht registriertes In-Memory-Dataset aus einem Pandas-Datenrahmen.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.register_pandas_dataframe zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

from_parquet_files

Erstellt ein nicht registriertes In-Memory-Dataset aus Parquet-Dateien.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.from_parquet_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

from_sql_query

Erstellt ein nicht registriertes In-Memory-Dataset aus einer SQL-Abfrage.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.from_sql_query zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

generate_profile

Generiert ein neues Profil für das Dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get

Sie rufen ein Dataset ab, das bereits im Arbeitsbereich vorhanden ist, indem Sie entweder seinen Namen oder seine ID angeben.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen get_by_name und get_by_id zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_all

Ruft alle registrierten Datasets im Arbeitsbereich ab.

get_all_snapshots

Ruft alle Momentaufnahmen des Datasets ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_by_id

Ruft ein Dataset ab, das im Arbeitsbereich gespeichert wird.

get_by_name

Ruft ein registriertes Dataset über den Registrierungsnamen aus dem Arbeitsbereich ab.

get_definition

Ruft eine bestimmte Definition des Datasets ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_definitions

Ruft alle Definitionen des Datasets ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_profile

Ruft Zusammenfassungsstatistiken für das zuvor berechnete Dataset ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_snapshot

Ruft die Momentaufnahme des Datasets anhand ihres Namens ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

head

Pullt die angegebene Anzahl von Datensätzen aus diesem Dataset und gibt sie als Datenrahmen zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

list

Listet alle Datasets im Arbeitsbereich auf, einschließlich der Datasets, deren is_visible-Eigenschaft „False“ ist.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen get_all zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

reactivate

Reaktiviert ein archiviertes oder als veraltet gekennzeichnetes Dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

register

Registriert das Dataset im Arbeitsbereich und macht es für andere Benutzer*innen des Arbeitsbereichs verfügbar.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen register zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

sample

Generiert eine neue Stichprobe aus dem Quelldataset durch Anwenden der bereitgestellten Samplingstrategie und der angegebenen Parameter.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die take_sample-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

to_pandas_dataframe

Erstellt einen Pandas-Datenrahmen durch Ausführen der Transformationspipeline, die durch diese Datasetdefinition festgelegt wird.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die to_pandas_dataframe-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

to_spark_dataframe

Erstellt einen Spark-Datenrahmen, der die durch diese Datasetdefinition festgelegte Transformationspipeline ausführen kann.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die to_spark_dataframe-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

update

Aktualisiert die änderbaren Datasetattribute im Arbeitsbereich und gibt das aktualisierte Dataset aus dem Arbeitsbereich zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

update_definition

Aktualisiert die Datasetdefinition.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

archive

Archiviert ein aktives oder veraltetes Dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

archive()

Gibt zurück

Typ Beschreibung

Keine.

Hinweise

Nach der Archivierung führt jeder Versuch, das Dataset zu verwenden, zu einem Fehler. Bei einer zufälligen Archivierung kann es durch eine erneute Aktivierung wieder verwendet werden.

auto_read_files

Analysiert die Dateien unter dem angegebenen Pfad und gibt ein neues Dataset zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, Dateien mit den Methoden „Dataset.Tabular.from_*“ zu lesen. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static auto_read_files(path, include_path=False, partition_format=None)

Parameter

Name Beschreibung
path
Erforderlich

Ein Datenpfad in einem registrierten Datenspeicher, ein lokaler Pfad oder eine HTTP-URL (CSV/TSV).

include_path
Erforderlich

Gibt an, ob eine Spalte mit dem Pfad der Datei, aus der die Daten gelesen wurden, enthalten sein soll. Ist beim Lesen mehrerer Dateien hilfreich, wenn Sie wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt. Auch nützlich, wenn Informationen im Dateipfad oder Namen enthalten sind, die Sie in einer Spalte verwenden möchten.

partition_format
Erforderlich
str

Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.csv“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen.

Gibt zurück

Typ Beschreibung

Datasetobjekt.

Hinweise

Verwenden Sie diese Methode, wenn Dateiformate und Trennzeichen automatisch erkannt werden sollen.

Nach dem Erstellen eines Datasets sollten Sie get_profile verwenden, um erkannte Spaltentypen und Zusammenfassungsstatistiken für jede Spalte aufzulisten.

Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.

compare_profiles

Vergleicht das Profil des aktuellen Datasets mit einem anderen Datasetprofil.

Die Unterschiede werden in der Zusammenfassungsstatistik der beiden Datasets angezeigt. Der Parameter „rhs_dataset“ steht für die rechte Seite (right-hand side) und ist einfach das zweite Dataset. Das erste Dataset (das aktuelle Datasetobjekt) wird entsprechend als „linke Seite“ betrachtet.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parameter

Name Beschreibung
rhs_dataset
Erforderlich

Ein zweites Dataset, das auch als „rechtes“ Dataset für Vergleiche bezeichnet wird.

profile_arguments
Erforderlich

Argumente zum Abrufen eines bestimmten Profils.

include_columns
Erforderlich

Liste der Spaltennamen, die in den Vergleich eingeschlossen werden sollen.

exclude_columns
Erforderlich

Liste der Spaltennamen, die aus dem Vergleich ausgeschlossen werden sollen.

histogram_compare_method
Erforderlich

Enumeration zur Beschreibung der Vergleichsmethode, z. B.: Wasserstein oder Energy.

Gibt zurück

Typ Beschreibung
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Unterschied zwischen den beiden Datasetprofilen.

Hinweise

Gilt nur für registrierte Datasets. Löst eine Ausnahme aus, wenn das Profil des aktuellen Datasets nicht vorhanden ist. Verwenden Sie für nicht registrierte Datasets die profile.compare-Methode.

create_snapshot

Erstellt eine Momentaufnahme des registrierten Datasets.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parameter

Name Beschreibung
snapshot_name
Erforderlich
str

Der Name der Momentaufnahme. Momentaufnahmenamen sollten innerhalb eines Datasets eindeutig sein.

compute_target
Erforderlich

Optionales Computeziel zum Erstellen des Momentaufnahmeprofils. Wenn keine Angabe erfolgt, wird das lokale Computeziel verwendet.

create_data_snapshot
Erforderlich

TRUE gibt an, dass eine materialisierte Kopie der Daten erstellt wird.

target_datastore
Erforderlich

Zieldatenspeicher zum Speichern der Momentaufnahme. Wenn keine Angabe erfolgt, wird die Momentaufnahme im Standardspeicher des Arbeitsbereichs erstellt.

Gibt zurück

Typ Beschreibung

Datasetmomentaufnahme-Objekt.

Hinweise

Momentaufnahmen erfassen zusammenfassende Statistiken der zugrunde liegenden Daten zu einem bestimmten Zeitpunkt und eine optionale Kopie der Daten selbst. Weitere Informationen zum Erstellen von Momentaufnahmen finden Sie unter https://aka.ms/azureml/howto/createsnapshots.

delete_snapshot

Löscht die Momentaufnahme des Datasets anhand ihres Namens.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Parameter

Name Beschreibung
snapshot_name
Erforderlich
str

Der Name der Momentaufnahme.

Gibt zurück

Typ Beschreibung

Keine.

Hinweise

Damit können Sie Speicher freigeben, der von Daten in Momentaufnahmen verwendet wird, die Sie nicht mehr benötigen.

deprecate

Kennzeichnet ein aktives Dataset in einem Arbeitsbereich als veraltet und ersetzt es durch ein anderes Dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Parameter

Name Beschreibung
deprecate_by_dataset_id
Erforderlich
str

Die Dataset-ID, die als Ersatz für dieses Dataset vorgesehen ist.

Gibt zurück

Typ Beschreibung

Keine.

Hinweise

Veraltete Datasets führen zu Protokollwarnungen, wenn sie verwendet werden. Durch das Kennzeichnen eines Datasets als veraltet werden alle enthaltenen Definitionen als veraltet gekennzeichnet.

Veraltete Datasets können weiterhin verwendet werden. Wenn Sie ein Dataset vollständig von der Verwendung ausschließen möchten, archivieren Sie es.

Bei einer zufälligen Kennzeichnung als veraltet kann es durch eine erneute Aktivierung wieder verwendet werden.

diff

Vergleicht das aktuelle Dataset mit rhs_dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Parameter

Name Beschreibung
rhs_dataset
Erforderlich

Ein anderes Dataset, das auch als „rechtes“ Dataset für Vergleiche bezeichnet wird.

compute_target
Erforderlich

Computeziel für den Vergleich. Wenn keine Angabe erfolgt, wird das lokale Computeziel verwendet.

columns
Erforderlich

Liste der Spaltennamen, die in den Vergleich eingeschlossen werden sollen.

Gibt zurück

Typ Beschreibung

Ausführungsobjekt für eine Datasetaktion.

from_binary_files

Erstellt ein nicht registriertes In-Memory-Dataset aus Binärdateien.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.File.from_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static from_binary_files(path)

Parameter

Name Beschreibung
path
Erforderlich

Ein Datenpfad in einem registrierten Datenspeicher oder ein lokaler Pfad.

Gibt zurück

Typ Beschreibung

Das Datasetobjekt.

Hinweise

Verwenden Sie diese Methode, um Dateien als Datenströme von Binärdaten zu lesen. Gibt ein Dateidatenstrom-Objekt pro gelesener Datei zurück. Verwenden Sie diese Methode, wenn Sie Bilder, Videos, Audiodaten oder andere Binärdaten lesen.

get_profile und create_snapshot funktionieren nicht wie erwartet für ein Dataset, das mit dieser Methode erstellt wurde.

Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.

from_delimited_files

Erstellt ein nicht registriertes In-Memory-Dataset aus Dateien mit Trennzeichen.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.from_delimited_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

Parameter

Name Beschreibung
path
Erforderlich

Ein Datenpfad in einem registrierten Datenspeicher, ein lokaler Pfad oder eine HTTP-URL.

separator
Erforderlich
str

Das Trennzeichen für das Aufteilen von Spalten.

header
Erforderlich

Steuert, wie Spaltenüberschriften beim Lesen aus Dateien heraufgestuft werden.

encoding
Erforderlich

Die Codierung der zu lesenden Dateien.

quoting
Erforderlich

Gibt an, wie Neue-Zeile-Zeichen in Anführungszeichen behandelt werden. Beim Standardwert (False) werden Neue-Zeile-Zeichen als Start neuer Zeilen interpretiert, unabhängig davon, ob die Neue-Zeile-Zeichen in Anführungszeichen stehen. Bei einer Festlegung auf „True“ führen Neue-Zeile-Zeichen in Anführungszeichen nicht zu neuen Zeilen, und die Lesegeschwindigkeit von Dateien verlangsamt sich.

infer_column_types
Erforderlich

Gibt an, ob Spaltendatentypen abgeleitet werden.

skip_rows
Erforderlich
int

Gibt an, wie viele Zeilen in den zu lesenden Dateien übersprungen werden sollen.

skip_mode
Erforderlich

Steuert, wie Zeilen beim Lesen aus Dateien übersprungen werden.

comment
Erforderlich
str

Zeichen, das verwendet wird, um Kommentarzeilen in den zu lesenden Dateien anzugeben. Zeilen, die mit dieser Zeichenfolge beginnen, werden übersprungen.

include_path
Erforderlich

Gibt an, ob eine Spalte mit dem Pfad der Datei, aus der die Daten gelesen wurden, enthalten sein soll. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt, oder um nützliche Informationen im Dateipfad beizubehalten.

archive_options
Erforderlich
<xref:azureml.dataprep.ArchiveOptions>

Optionen für Archivdateien, einschließlich Archivtyp und Eintragsglobmuster. Derzeit wird nur ZIP als Archivtyp unterstützt. Bei der Angabe von


   archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')

werden z. B. alle Dateien im ZIP-Archiv gelesen, deren Name auf „10-20.csv“ endet.

partition_format
Erforderlich
str

Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.csv“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen.

Gibt zurück

Typ Beschreibung

Datasetobjekt.

Hinweise

Verwenden Sie diese Methode, um durch Trennzeichen getrennte Textdateien zu lesen, wenn Sie die verwendeten Optionen steuern möchten.

Nach dem Erstellen eines Datasets sollten Sie get_profile verwenden, um erkannte Spaltentypen und Zusammenfassungsstatistiken für jede Spalte aufzulisten.

Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.

from_excel_files

Erstellt ein nicht registriertes In-Memory-Dataset aus Excel-Dateien.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Parameter

Name Beschreibung
path
Erforderlich

Ein Datenpfad in einem registrierten Datenspeicher oder ein lokaler Pfad.

sheet_name
Erforderlich
str

Der Name der zu ladenden Excel-Tabelle. Standardmäßig wird das erste Tabellenblatt aus jeder Excel-Datei gelesen.

use_column_headers
Erforderlich

Legt fest, ob die erste Zeile für die Spaltenheader verwendet werden soll.

skip_rows
Erforderlich
int

Gibt an, wie viele Zeilen in den zu lesenden Dateien übersprungen werden sollen.

include_path
Erforderlich

Gibt an, ob eine Spalte mit dem Pfad der Datei, aus der die Daten gelesen wurden, enthalten sein soll. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt, oder um nützliche Informationen im Dateipfad beizubehalten.

infer_column_types
Erforderlich

„True“ gibt an, dass Spaltendatentypen abgeleitet werden.

partition_format
Erforderlich
str

Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.xlsx“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen.

Gibt zurück

Typ Beschreibung

Datasetobjekt.

Hinweise

Verwenden Sie diese Methode, um Excel-Dateien im XLSX-Format zu lesen. Daten können aus einem Tabellenblatt in jeder Excel-Datei gelesen werden. Nach dem Erstellen eines Datasets sollten Sie get_profile verwenden, um erkannte Spaltentypen und Zusammenfassungsstatistiken für jede Spalte aufzulisten. Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.

from_json_files

Erstellt ein nicht registriertes In-Memory-Dataset aus JSON-Dateien.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.from_json_lines_files zum Lesen aus der JSON-Zeilendateien zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

Parameter

Name Beschreibung
path
Erforderlich

Der Pfad zu den Dateien oder Ordnern, die Sie laden und analysieren möchten. Dabei kann es sich entweder um einen lokalen Pfad oder um eine Azure-Blob-URL handeln. Die Verwendung von Platzhaltern wird unterstützt. Sie können beispielsweise path = „./data*“ verwenden, um alle Dateien mit einem Namen zu lesen, der mit „data“ beginnt.

encoding
Erforderlich

Die Codierung der zu lesenden Dateien.

flatten_nested_arrays
Erforderlich

Eigenschaft, die die Verarbeitung geschachtelter Arrays durch das Programm steuert. Wenn Sie geschachtelte JSON-Arrays vereinfachen möchten, kann dies zu einer erheblich größeren Anzahl von Zeilen führen.

include_path
Erforderlich

Gibt an, ob eine Spalte mit dem Pfad, aus dem die Daten gelesen wurden, enthalten sein soll. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt, oder um nützliche Informationen im Dateipfad beizubehalten.

partition_format
Erforderlich
str

Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.json“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.json“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen.

Gibt zurück

Typ Beschreibung

Das lokale Datasetobjekt.

from_pandas_dataframe

Erstellt ein nicht registriertes In-Memory-Dataset aus einem Pandas-Datenrahmen.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.register_pandas_dataframe zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

Parameter

Name Beschreibung
dataframe
Erforderlich

Der Pandas-Datenrahmen.

path
Erforderlich

Ein Datenpfad im registrierten Datenspeicher oder ein lokaler Ordnerpfad.

in_memory
Erforderlich

Gibt an, ob der Datenrahmen aus dem Arbeitsspeicher gelesen werden soll, anstatt auf dem Datenträger persistent gespeichert zu werden.

Gibt zurück

Typ Beschreibung

Ein Datasetobjekt.

Hinweise

Verwenden Sie diese Methode, um einen Pandas-Datenrahmen in ein Datasetobjekt zu konvertieren. Ein mit dieser Methode erstelltes Dataset kann nicht registriert werden, da die Daten aus dem Arbeitsspeicher stammen.

Wenn in_memory „False“ ist, wird der Pandas-Datenrahmen lokal in eine CSV-Datei konvertiert. Wenn pat vom Typ DataReference ist, wird der Pandas-Rahmen in den Datenspeicher hochgeladen, und das Dataset basiert auf DataReference. Wenn „path“ ein lokaler Ordner ist, wird das Dataset aus der lokalen Datei erstellt, die nicht gelöscht werden kann.

Löst eine Ausnahme aus, wenn der aktuelle DataReference kein Ordnerpfad ist.

from_parquet_files

Erstellt ein nicht registriertes In-Memory-Dataset aus Parquet-Dateien.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.from_parquet_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static from_parquet_files(path, include_path=False, partition_format=None)

Parameter

Name Beschreibung
path
Erforderlich

Ein Datenpfad in einem registrierten Datenspeicher oder ein lokaler Pfad.

include_path
Erforderlich

Gibt an, ob eine Spalte mit dem Pfad der Datei, aus der die Daten gelesen wurden, enthalten sein soll. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt, oder um nützliche Informationen im Dateipfad beizubehalten.

partition_format
Erforderlich
str

Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.parquet“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen.

Gibt zurück

Typ Beschreibung

Datasetobjekt.

Hinweise

Verwenden Sie diese Methode, um Parquet-Dateien zu lesen.

Nach dem Erstellen eines Datasets sollten Sie get_profile verwenden, um erkannte Spaltentypen und Zusammenfassungsstatistiken für jede Spalte aufzulisten.

Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.

from_sql_query

Erstellt ein nicht registriertes In-Memory-Dataset aus einer SQL-Abfrage.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.from_sql_query zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static from_sql_query(data_source, query)

Parameter

Name Beschreibung
data_source
Erforderlich

Die Details des Azure SQL-Datenspeichers.

query
Erforderlich
str

Die Abfrage, die zum Lesen von Daten ausgeführt werden soll.

Gibt zurück

Typ Beschreibung

Das lokale Datasetobjekt.

generate_profile

Generiert ein neues Profil für das Dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Parameter

Name Beschreibung
compute_target
Erforderlich

Ein optionales Computeziel zum Erstellen des Momentaufnahmeprofils. Wenn keine Angabe erfolgt, wird das lokale Computeziel verwendet.

workspace
Erforderlich

Arbeitsbereich, erforderlich für vorübergehende (nicht registrierte) Datasets.

arguments
Erforderlich

Profilargumente. Gültige Argumente sind:

  • „include_stype_counts“ vom Typ bool. Überprüfen Sie, ob die Werte wie einige bekannte semantische Typen aussehen, z. B. E-Mail-Adresse, IP-Adresse (V4/V6), US-Telefonnummer, US-Postleitzahl, Breiten- und Längengrad. Die Aktivierung wirkt sich auf die Leistung aus.

  • „number_of_histogram_bins“ vom Typ int. Stellt die Anzahl der Histogrammintervalle dar, die für numerische Daten verwendet werden. Der Standardwert ist 10.

Gibt zurück

Typ Beschreibung

Ausführungsobjekt für eine Datasetaktion.

Hinweise

Synchroner Aufruf. Wird bis zu seinem Abschluss blockiert. Rufen Sie get_result auf, um das Ergebnis der Aktion abzurufen.

get

Sie rufen ein Dataset ab, das bereits im Arbeitsbereich vorhanden ist, indem Sie entweder seinen Namen oder seine ID angeben.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen get_by_name und get_by_id zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static get(workspace, name=None, id=None)

Parameter

Name Beschreibung
workspace
Erforderlich

Der vorhandene AzureML-Arbeitsbereich, in dem das Dataset erstellt wurde.

name
Erforderlich
str

Der Name des abzurufenden Datasets.

id
Erforderlich
str

Ein eindeutiger Bezeichner des Datasets im Arbeitsbereich.

Gibt zurück

Typ Beschreibung

Das Dataset mit dem angegebenen Namen oder der angegebenen ID.

Hinweise

Sie können entweder name oder id angeben. In folgenden Fällen wird eine Ausnahme ausgelöst:

  • Sowohl name als auch id wurden angegeben, stimmen aber nicht überein.

  • Das Dataset mit dem angegebenen name oder der angegebenen id kann nicht im Arbeitsbereich gefunden werden.

get_all

Ruft alle registrierten Datasets im Arbeitsbereich ab.

get_all()

Parameter

Name Beschreibung
workspace
Erforderlich

Der vorhandene AzureML-Arbeitsbereich, in dem die Datasets registriert wurden.

Gibt zurück

Typ Beschreibung

Ein Wörterbuch von TabularDataset- und FileDataset-Objekten. Als Schlüssel wird ihr Registrierungsname verwendet.

get_all_snapshots

Ruft alle Momentaufnahmen des Datasets ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_all_snapshots()

Gibt zurück

Typ Beschreibung

Liste von Datasetmomentaufnahmen.

get_by_id

Ruft ein Dataset ab, das im Arbeitsbereich gespeichert wird.

get_by_id(id, **kwargs)

Parameter

Name Beschreibung
workspace
Erforderlich

Der vorhandene AzureML-Arbeitsbereich, in dem das Dataset gespeichert wurde.

id
Erforderlich
str

Die ID des Datasets.

Gibt zurück

Typ Beschreibung

Das Datasetobjekt. Wenn das Dataset registriert wurde, werden auch der Registrierungsname und die Version zurückgegeben.

get_by_name

Ruft ein registriertes Dataset über den Registrierungsnamen aus dem Arbeitsbereich ab.

get_by_name(name, version='latest', **kwargs)

Parameter

Name Beschreibung
workspace
Erforderlich

Der vorhandene AzureML-Arbeitsbereich, in dem das Dataset registriert wurde.

name
Erforderlich
str

Der Registrierungsname.

version
Erforderlich
int

Die Registrierungsversion. Der Standardwert ist „latest“.

Gibt zurück

Typ Beschreibung

Das registrierte Datasetobjekt.

get_definition

Ruft eine bestimmte Definition des Datasets ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Parameter

Name Beschreibung
version_id
Erforderlich
str

Die Versions-ID der Datasetdefinition.

Gibt zurück

Typ Beschreibung

Die Datasetdefinition.

Hinweise

Wenn version_id angegeben wird, versucht Azure Machine Learning, die Definition abzurufen, die dieser Version entspricht. Wenn diese Version nicht vorhanden ist, wird eine Ausnahme ausgelöst. Wenn version_id ausgelassen wird, wird die neueste Version abgerufen.

get_definitions

Ruft alle Definitionen des Datasets ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_definitions()

Gibt zurück

Typ Beschreibung

Ein Wörterbuch mit Datasetdefinitionen.

Hinweise

Ein in einem AzureML-Arbeitsbereich registriertes Dataset kann über mehrere Definitionen verfügen, die jeweils durch Aufrufen von update_definition erstellt werden. Jede Definition besitzt einen eindeutigen Bezeichner. Die aktuelle Definition ist die zuletzt erstellte.

Für nicht registrierte Datasets gibt es nur eine Definition.

get_profile

Ruft Zusammenfassungsstatistiken für das zuvor berechnete Dataset ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Parameter

Name Beschreibung
arguments
Erforderlich

Profilargumente.

generate_if_not_exist
Erforderlich

Gibt an, ob ein Profil generiert werden soll, wenn keines vorhanden ist.

workspace
Erforderlich

Arbeitsbereich, erforderlich für vorübergehende (nicht registrierte) Datasets.

compute_target
Erforderlich

Ein Computeziel zum Ausführen der Profilaktion.

Gibt zurück

Typ Beschreibung
<xref:azureml.dataprep.DataProfile>

DataProfile des Datasets.

Hinweise

Für ein Dataset, das in einem Azure Machine Learning-Arbeitsbereich registriert ist, ruft diese Methode ein vorhandenes Profil ab, das zuvor erstellt wurde, indem get_profile aufgerufen wird, wenn es noch gültig ist. Profile werden ungültig, wenn geänderte Daten im Dataset gefunden werden oder die Argumente für get_profile sich von den Argumenten unterscheiden, die beim Generieren des Profils verwendet wurden. Wenn das Profil nicht vorhanden oder ungültig ist, bestimmt generate_if_not_exist, ob ein neues Profil generiert wird.

Für ein Dataset, das nicht in einem Azure Machine Learning-Arbeitsbereich registriert ist, führt diese Methode immer generate_profile aus und gibt das Ergebnis zurück.

get_snapshot

Ruft die Momentaufnahme des Datasets anhand ihres Namens ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Parameter

Name Beschreibung
snapshot_name
Erforderlich
str

Der Name der Momentaufnahme.

Gibt zurück

Typ Beschreibung

Datasetmomentaufnahme-Objekt.

head

Pullt die angegebene Anzahl von Datensätzen aus diesem Dataset und gibt sie als Datenrahmen zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

head(count)

Parameter

Name Beschreibung
count
Erforderlich
int

Die Anzahl der abzurufenden Datensätze.

Gibt zurück

Typ Beschreibung

Ein Pandas-Datenrahmen.

list

Listet alle Datasets im Arbeitsbereich auf, einschließlich der Datasets, deren is_visible-Eigenschaft „False“ ist.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen get_all zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static list(workspace)

Parameter

Name Beschreibung
workspace
Erforderlich

Der Arbeitsbereich, für den Sie die Liste der Datasets abrufen möchten.

Gibt zurück

Typ Beschreibung

Eine Liste von Datasetobjekten.

reactivate

Reaktiviert ein archiviertes oder als veraltet gekennzeichnetes Dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

reactivate()

Gibt zurück

Typ Beschreibung

Keine.

register

Registriert das Dataset im Arbeitsbereich und macht es für andere Benutzer*innen des Arbeitsbereichs verfügbar.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen register zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Parameter

Name Beschreibung
workspace
Erforderlich

Der AzureML-Arbeitsbereich, in dem das Dataset registriert werden soll.

name
Erforderlich
str

Der Name des Datasets im Arbeitsbereich.

description
Erforderlich
str

Eine Beschreibung des Datasets.

tags
Erforderlich

Tags, die dem Dataset zugeordnet werden sollen.

visible
Erforderlich

Gibt an, ob das Dataset auf der Benutzeroberfläche sichtbar ist. „False“ gibt an, dass das Dataset auf der Benutzeroberfläche ausgeblendet und über das SDK verfügbar ist.

exist_ok
Erforderlich

Bei „True“ gibt die Methode das Dataset zurück, wenn es bereits im angegebenen Arbeitsbereich vorhanden ist. Andernfalls tritt ein Fehler auf.

update_if_exist
Erforderlich

Wenn exist_ok „True“ und update_if_exist „True“ ist, aktualisiert diese Methode die Definition und gibt das aktualisierte Dataset zurück.

Gibt zurück

Typ Beschreibung

Ein registriertes Datasetobjekt im Arbeitsbereich.

sample

Generiert eine neue Stichprobe aus dem Quelldataset durch Anwenden der bereitgestellten Samplingstrategie und der angegebenen Parameter.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die take_sample-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Parameter

Name Beschreibung
sample_strategy
Erforderlich
str

Zu verwendende Samplingstrategie. Zulässige Werte sind „top_n“, „simple_random“ oder „stratified“.

arguments
Erforderlich

Ein Wörterbuch mit Schlüsseln aus dem „optionalen Argument“ in der oben gezeigten Liste und Werten aus der Spalte „Type“. Es können nur Argumente der entsprechenden Samplingmethode verwendet werden. Für den Beispieltyp „simple_random“ können Sie beispielsweise nur ein Wörterbuch mit den Schlüsseln „probability“ und „seed“ angeben.

Gibt zurück

Typ Beschreibung

Datasetobjekt als Beispiel für das ursprüngliche Dataset.

Hinweise

Stichproben werden generiert, indem die durch dieses Dataset definierte Transformationspipeline ausgeführt und dann die Samplingstrategie und die Parameter auf die Ausgabedaten angewandt werden. Jede Samplingmethode unterstützt die folgenden optionalen Argumente:

  • top_n

    • Optionale Argumente

      • n, Typ integer. Wählt die ersten N Zeilen als Stichprobe aus.
  • simple_random

    • Optionale Argumente

      • probability, Typ float. Einfache zufällige Stichprobenentnahme, bei der jede Zeile die gleiche Wahrscheinlichkeit hat, ausgewählt zu werden. Die Wahrscheinlichkeit (probability) muss eine Zahl zwischen 0 und 1 sein.

      • seed, Typ float. Wird vom Zufallszahlengenerator verwendet. Verwenden Sie dies, um Wiederholbarkeit zu erzielen.

  • stratified

    • Optionale Argumente

      • columns, Typ list[str]. Liste der geschichteten Spalten in den Daten.

      • seed, Typ float. Wird vom Zufallszahlengenerator verwendet. Verwenden Sie dies, um Wiederholbarkeit zu erzielen.

      • fractions, Typ dict[tuple, float]. Tupel: Spaltenwerte, die ein Stratum (eine Schicht) definieren. Sie müssen in der gleichen Reihenfolge wie die Spaltennamen vorliegen. Float: Gewichtung, die während der Stichprobenentnahme auf ein Stratum angewandt wird.

Die folgenden Codeausschnitte sind Beispiele für Entwurfsmuster bei verschiedenen Samplingmethoden.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Erstellt einen Pandas-Datenrahmen durch Ausführen der Transformationspipeline, die durch diese Datasetdefinition festgelegt wird.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die to_pandas_dataframe-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Gibt zurück

Typ Beschreibung

Ein Pandas-Datenrahmen.

Hinweise

Gibt einen vollständig im Arbeitsspeicher materialisierten Pandas-Datenrahmen zurück.

to_spark_dataframe

Erstellt einen Spark-Datenrahmen, der die durch diese Datasetdefinition festgelegte Transformationspipeline ausführen kann.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die to_spark_dataframe-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Gibt zurück

Typ Beschreibung

Ein Spark-Datenrahmen.

Hinweise

Der zurückgegebene Spark-Datenrahmen ist nur ein Ausführungsplan, der keine tatsächlichen Daten enthält, da Spark-Datenrahmen verzögert ausgewertet werden.

update

Aktualisiert die änderbaren Datasetattribute im Arbeitsbereich und gibt das aktualisierte Dataset aus dem Arbeitsbereich zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Parameter

Name Beschreibung
name
Erforderlich
str

Der Name des Datasets im Arbeitsbereich.

description
Erforderlich
str

Eine Beschreibung der Daten.

tags
Erforderlich

Tags, die dem Dataset zugeordnet werden sollen.

visible
Erforderlich

Gibt an, ob das Dataset auf der Benutzeroberfläche sichtbar ist.

Gibt zurück

Typ Beschreibung

Ein aktualisiertes Datasetobjekt aus dem Arbeitsbereich.

update_definition

Aktualisiert die Datasetdefinition.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Parameter

Name Beschreibung
definition
Erforderlich

Die neue Definition dieses Datasets.

definition_update_message
Erforderlich
str

Die Meldung zur Definitionsaktualisierung.

Gibt zurück

Typ Beschreibung

Ein aktualisiertes Datasetobjekt aus dem Arbeitsbereich.

Hinweise

Verwenden Sie das von dieser Methode zurückgegebene Objekt, um das aktualisierte Dataset zu nutzen.

Attribute

definition

Gibt die aktuelle Datasetdefinition zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

Gibt zurück

Typ Beschreibung

Die Datasetdefinition.

Hinweise

Eine Datasetdefinition umfasst eine Reihe von Schritten, die angeben, wie Daten gelesen und transformiert werden.

Ein in einem AzureML-Arbeitsbereich registriertes Dataset kann über mehrere Definitionen verfügen, die jeweils durch Aufrufen von update_definition erstellt werden. Jede Definition besitzt einen eindeutigen Bezeichner. Mit mehreren Definitionen können Sie Änderungen an vorhandenen Datasets vornehmen, ohne dass dies Auswirkungen auf Modelle und Pipelines hat, die von der älteren Definition abhängen.

Für nicht registrierte Datasets gibt es nur eine Definition.

definition_version

Gibt die Version der aktuellen Definition des Datasets zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

Gibt zurück

Typ Beschreibung
str

Die Version der Datasetdefinition.

Hinweise

Eine Datasetdefinition umfasst eine Reihe von Schritten, die angeben, wie Daten gelesen und transformiert werden.

Ein in einem AzureML-Arbeitsbereich registriertes Dataset kann über mehrere Definitionen verfügen, die jeweils durch Aufrufen von update_definition erstellt werden. Jede Definition besitzt einen eindeutigen Bezeichner. Die aktuelle Definition, deren ID hiermit zurückgegeben wird, ist die zuletzt erstellte Definition.

Für nicht registrierte Datasets gibt es nur eine Definition.

description

Gibt die Beschreibung des Datasets zurück.

Gibt zurück

Typ Beschreibung
str

Die Datasetbeschreibung.

Hinweise

Wenn Sie eine Beschreibung der Daten im Dataset angeben, wissen Benutzer*innen des Arbeitsbereichs, was die Daten darstellen und wie sie verwendet werden können.

id

Wenn das Dataset in einem Arbeitsbereich registriert wurde, wird die ID des Datasets zurückgegeben. Andernfalls wird „None“ zurückgegeben.

Gibt zurück

Typ Beschreibung
str

Die Dataset-ID.

is_visible

Steuert die Sichtbarkeit eines registrierten Datasets auf der Benutzeroberfläche des Azure Machine Learning-Arbeitsbereichs.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

Gibt zurück

Typ Beschreibung

Die Sichtbarkeit des Datasets.

Hinweise

Zurückgegebene Werte:

  • True: Das Dataset ist auf der Benutzeroberfläche des Arbeitsbereichs sichtbar. Standard.

  • False: Das Dataset ist auf der Benutzeroberfläche des Arbeitsbereichs nicht sichtbar.

Hat keine Auswirkungen auf nicht registrierte Datasets.

name

Gibt den Datasetnamen zurück.

Gibt zurück

Typ Beschreibung
str

Der Datasetname.

state

Gibt den Zustand des Datasets zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

Gibt zurück

Typ Beschreibung
str

Der Datasetzustand.

Hinweise

Folgende Bedeutung und Auswirkung haben Zustände:

  • Active. Aktive Definitionen sind selbsterklärend: Alle Aktionen können für aktive Definitionen ausgeführt werden.

  • Veraltet. Veraltete Definitionen können verwendet werden, dies führt jedoch dazu, dass bei jedem Zugriff auf die zugrunde liegenden Daten eine Warnung in den Protokollen erfasst wird.

  • Archiviert. Archivierte Definitionen können nicht zum Ausführen von Aktionen verwendet werden. Um Aktionen für eine archivierte Definition auszuführen, muss sie erneut aktiviert werden.

tags

Gibt die dem Dataset zugeordneten Tags zurück.

Gibt zurück

Typ Beschreibung

Datasettags.

workspace

Wenn das Dataset in einem Arbeitsbereich registriert wurde, wird dieser zurückgegeben. Andernfalls wird „None“ zurückgegeben.

Gibt zurück

Typ Beschreibung

Der Arbeitsbereich.