Freigeben über


data Paket

Enthält Module, die die Datendarstellung für den Datenspeicher und das Dataset in Azure Machine Learning unterstützen.

Dieses Paket enthält Kernfunktionen, die die Klassen Datastore und Dataset im core-Paket unterstützen. Datenspeicherobjekte enthalten Verbindungsinformationen zu Azure-Speicherdiensten, auf die problemlos anhand des Namens verwiesen werden kann, ohne dass Verbindungsinformationen in Skripts direkt verwendet oder hart codiert werden müssen. Der Datenspeicher unterstützt eine Reihe verschiedener Dienste, die durch Klassen in diesem Paket dargestellt werden, einschließlich AzureBlobDatastore, AzureFileDatastore und AzureDataLakeDatastore. Eine vollständige Liste der unterstützten Speicherdienste finden Sie im Artikel zur Datastore-Klasse.

Ein Datenspeicher fungiert als Container für Ihre Datendateien. Ein Dataset können Sie sich als Verweis oder Zeiger auf bestimmte Daten vorstellen, die sich in Ihrem Datenspeicher befinden. Die folgenden Datasettypen werden unterstützt:

  • TabularDataset stellt Daten in einem tabellarischen Format bereit, das durch Analysieren der bereitgestellten Datei oder Liste von Dateien erstellt wird.

  • FileDataset verweist auf eine einzelne Datei oder auf mehrere Dateien in Ihren Datenspeichern oder öffentlichen URLs.

Weitere Informationen finden Sie im Artikel Hinzufügen & Registrieren von Datasets. Informationen zu den ersten Schritten mit Datasets finden Sie unter https://aka.ms/tabulardataset-samplenotebook und https://aka.ms/filedataset-samplenotebook.

Module

abstract_dataset

Enthält die abstrakte Basisklasse für Datasets in Azure Machine Learning.

abstract_datastore

Dieses Modul enthält die Basisfunktionen für Datenspeicher, die Verbindungsinformationen in Azure-Speicherdiensten speichern.

azure_data_lake_datastore

Enthält die Basisfunktionen für Datenspeicher, die Verbindungsinformationen in Azure Data Lake Storage speichern.

azure_my_sql_datastore

Enthält die Basisfunktionalität für Datenspeicher, die Verbindungsinformationen in Azure Database for MySQL speichern.

azure_postgre_sql_datastore

Enthält Basisfunktionen für Datenspeicher, die Verbindungsinformationen in Azure Database for PostgreSQL speichern.

azure_sql_database_datastore

Dieses Modul enthält die Basisfunktionen für Datenspeicher, die Verbindungsinformationen in Azure SQL-Datenbank speichern.

azure_storage_datastore

Enthält Funktionen für Datenspeicher, die Verbindungsinformationen in Azure Blob Storage und Azure Files speichern.

constants

Konstanten, die im Paket azureml.data verwendet werden. Nur interne Verwendung.

context_managers

Enthält Funktionen zum Verwalten des Datenkontexts von Datenspeichern und Datasets. Nur interne Verwendung.

data_reference

Enthält Funktionen, die definieren, wie Verweise auf Daten in Datenspeichern erstellt werden.

datacache

Enthält Funktionen zum Verwalten von DatacacheStore und Datacache in Azure Machine Learning.

datacache_client

Nur interne Verwendung.

datacache_consumption_config

Enthält Funktionen für die Konfiguration der Datencachenutzung.

datacache_singularity_settings

Enthält Objekte, die für die Darstellung der Datacache-Singularitätseinstellungen erforderlich sind.

datapath

Dieses Modul enthält Funktionen zum Erstellen von Verweisen auf Daten in Datenspeichern.

Dieses Modul enthält die DataPath-Klasse, die den Speicherort der Daten darstellt, und die DataPathComputeBinding-Klasse, die darstellt, wie die Daten auf den Computezielen verfügbar gemacht werden.

dataset_action_run

Enthält Funktionen zur Verwaltung der Ausführung von Datasetaktionen.

Dieses Modul bietet praktische Methoden zum Erstellen von Datasetaktionen und zum Abrufen ihrer Ergebnisse nach Abschluss.

dataset_consumption_config

Enthält Funktionalität für die Konfiguration der Datasetnutzung.

dataset_definition

Enthält Funktionen zum Verwalten von Datasetdefinitionen und deren Vorgängen.

Hinweis

Dieses Modul ist veraltet. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

dataset_error_handling

Enthält Ausnahmen für die Fehlerbehandlung bei Datasets in Azure Machine Learning.

dataset_factory

Enthält Funktionen zum Erstellen von Datasets für Azure Machine Learning.

dataset_profile

Klasse zum Sammeln von Zusammenfassungsstatistiken für die von einem Dataflow erzeugten Daten.

Die Funktionalität in diesem Modul umfasst das Sammeln von Informationen darüber, welche Ausführung das Profil erzeugt hat, unabhängig davon, ob das Profil veraltet ist oder nicht.

dataset_profile_run

Dieses Modul enthält die Konfiguration für die Überwachung der Ausführung des Datasetprofils in Azure Machine Learning.

Die Funktionalität in diesem Modul umfasst die Verwaltung und Überwachung der DatasetProfileRun-Klasse, die einem Experimentobjekt und einer individuellen Ausführungs-ID zugeordnet ist.

dataset_profile_run_config

Enthält die Konfiguration zum Generieren einer statistischen Zusammenfassung von Datasets in Azure Machine Learning.

Zur den Funktionen in diesem Modul gehören Methoden zum Übermitteln lokaler oder Remoteprofilausführungen und zum Visualisieren des Ergebnisses der übermittelten Profilausführung.

dataset_snapshot

Enthält Funktionen zum Verwalten von Datasetmomentaufnahme-Vorgängen.

Hinweis

Dieses Modul ist veraltet. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

dataset_type_definitions

Enthält Enumerationswerte, die mit Dataset verwendet werden.

datastore_client

Nur interne Verwendung.

dbfs_datastore

Enthält Funktionen für Datenspeicher, die Verbindungsinformationen im Databricks File System (DBFS) speichern.

file_dataset

Enthält Funktionen zum Verweisen auf einzelne oder mehrere Dateien in Datenspeichern oder öffentlichen URLs.

Weitere Informationen finden Sie im Artikel Hinzufügen & Registrieren von Datasets. Informationen zum Einstieg in die Arbeit mit einem Datei-Dataset finden Sie unter https://aka.ms/filedataset-samplenotebook.

hdfs_datastore

Dieses Modul enthält die Basisfunktionen für Datenspeicher, die Verbindungsinformationen in einem HDFS-Cluster speichern.

output_dataset_config

Enthält Konfigurationen, die angeben, wie Ausgaben für einen Auftrag hochgeladen und zu einem Dataset höher gestuft werden sollen

Weitere Informationen finden Sie im Artikel Erstellen von Azure Machine Learning-Datasets.

sql_data_reference

Dieses Modul enthält Funktionen zum Erstellen von Verweisen auf Daten in Datenspeichern, die Verbindungsinformationen in SQL-Datenbanken speichern.

stored_procedure_parameter

Enthält Funktionen zum Erstellen eines Parameters, der an eine gespeicherte SQL-Prozedur übergeben werden soll.

tabular_dataset

Enthält Funktionen zum Darstellen von Daten in einem tabellarischen Format durch Analysieren der bereitgestellten Datei oder Dateiliste.

Weitere Informationen finden Sie im Artikel Hinzufügen & Registrieren von Datasets. Informationen zu den ersten Schritten mit einem tabellarischen Dataset finden Sie unter https://aka.ms/tabulardataset-samplenotebook.

Klassen

DataType

Konfiguriert Spaltendatentypen für ein in Azure Machine Learning erstelltes Dataset.

DataType-Methoden werden in den from_*-Methoden der TabularDatasetFactory-Klasse verwendet, die zum Erstellen neuer TabularDataset-Objekte verwendet werden.

DatacacheStore

Hinweis

Dies ist eine experimentelle Klasse, die jederzeit geändert werden kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Stellt eine Speicherabstraktion eines Azure Machine Learning-Speicherkontos dar.

DatacacheStores werden Arbeitsbereichen angefügt und zum Speichern von Informationen im Zusammenhang mit der zugrunde liegenden Datacachelösung verwendet. Derzeit wird nur eine partitionierte Bloblösung unterstützt. Datacachestores definiert verschiedene Blobdatenspeicher, die für die Zwischenspeicherung verwendet werden können.

Verwenden Sie diese Klasse, um Verwaltungsvorgänge durchzuführen, einschließlich Registrieren, Auflisten, Abrufen und Aktualisieren von Datacachestores. DatacacheStores für jeden Dienst werden mit den register*-Methoden dieser Klasse erstellt.

Ruft einen Datacache anhand des Namens ab. Dieser Aufruf sendet eine Anforderung an den Datacachedienst.

FileDataset

Stellt eine Sammlung von Dateiverweisen in Datenspeichern oder öffentlichen URLs dar, die in Azure Machine Learning verwendet werden sollen.

Ein FileDataset definiert eine Reihe von verzögert ausgewerteten, unveränderlichen Vorgängen zum Laden von Daten aus der Datenquelle in Dateistreams. Daten werden erst aus der Quelle geladen, wenn FileDataset aufgefordert wird, Daten zu liefern.

Ein FileDataset wird mit der from_files-Methode der FileDatasetFactory-Klasse erstellt.

Weitere Informationen finden Sie im Artikel Hinzufügen & Registrieren von Datasets. Informationen zum Einstieg in die Arbeit mit einem Datei-Dataset finden Sie unter https://aka.ms/filedataset-samplenotebook.

Initialisieren Sie das FileDataset-Objekt.

Dieser Konstruktor sollte nicht direkt aufgerufen werden. Das Dataset soll mithilfe der FileDatasetFactory -Klasse erstellt werden.

HDFSOutputDatasetConfig

Gibt an, wie die Ausgabe in einem HDFS-Pfad durchgeführt und zu einem Dataset vom Typ „FileDataset“ höher gestuft wird.

Initialisieren Sie eine HDFSOutputDatasetConfig.

LinkFileOutputDatasetConfig

Hinweis

Dies ist eine experimentelle Klasse, die jederzeit geändert werden kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Gibt an, wie die Ausgabe einer Ausführung verknüpft und zu einem Dataset vom Typ „FileDataset“ höher gestuft wird

Mit LinkFileOutputDatasetConfig können Sie ein Dateidataset als Ausgabedataset verknüpfen.


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkFileOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Initialisieren Sie eine LinkFileOutputDatasetConfig.

LinkTabularOutputDatasetConfig

Hinweis

Dies ist eine experimentelle Klasse, die jederzeit geändert werden kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Gibt an, wie die Ausgabe einer Ausführung verknüpft und als tabellarisches Dataset (TabularDataset) höher gestuft wird.

Mit LinkTabularOutputDatasetConfig können Sie eine Datei tabellarisch als Ausgabedataset verknüpfen.


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkTabularOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Initialisieren Sie eine LinkTabularOutputDatasetConfig.

OutputFileDatasetConfig

Gibt an, wie die Ausgabe einer Ausführung kopiert und als Dataset vom Typ „FileDataset“ höher gestuft wird.

Mit OutputFileDatasetConfig können Sie angeben, wie ein bestimmter lokaler Pfad auf dem Computeziel in das angegebene Ziel hochgeladen werden soll. Werden keine Argumente an den Konstruktor übergeben, werden automatisch ein Name, ein Ziel und ein lokaler Pfad generiert.

Beispiel für die Nichtübergabe von Argumenten:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Beispiel für das Erstellen einer Ausgabe, das anschließende Höherstufen der Ausgabe zu einem tabellarischen Dataset und das Registrieren unter dem Namen „foo“:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Initialisieren Sie eine OutputFileDatasetConfig-Datei.

Mit OutputFileDatasetConfig können Sie angeben, wie ein bestimmter lokaler Pfad auf dem Computeziel in das angegebene Ziel hochgeladen werden soll. Werden keine Argumente an den Konstruktor übergeben, werden automatisch ein Name, ein Ziel und ein lokaler Pfad generiert.

Beispiel für die Nichtübergabe von Argumenten:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Beispiel für das Erstellen einer Ausgabe, das anschließende Höherstufen der Ausgabe zu einem tabellarischen Dataset und das Registrieren unter dem Namen „foo“:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
TabularDataset

Stellt ein tabellarisches Dataset dar, das in Azure Machine Learning verwendet werden soll.

Ein tabellarisches Dataset (TabularDataset) definiert eine Reihe von verzögert ausgewerteten, unveränderlichen Vorgängen, um Daten aus der Datenquelle in eine tabellarische Darstellung zu laden. Daten werden erst aus der Quelle geladen, wenn das TabularDataset zur Übermittlung von Daten aufgefordert wird.

Ein TabularDataset wird mit Methoden wie from_delimited_files aus der TabularDatasetFactory-Klasse erstellt.

Weitere Informationen finden Sie im Artikel Hinzufügen & Registrieren von Datasets. Informationen zu den ersten Schritten mit einem tabellarischen Dataset finden Sie unter https://aka.ms/tabulardataset-samplenotebook.

Initialisieren Sie ein TabularDataset-Objekt.

Dieser Konstruktor sollte nicht direkt aufgerufen werden. Das Dataset soll mithilfe der TabularDatasetFactory -Klasse erstellt werden.