Freigeben über


Daten in Azure Machine Learning v1

GILT FÜR: Azure CLI-ML-Erweiterung v1

GILT FÜR: Python SDK azureml v1

Azure Machine Learning macht es einfach, eine Verbindung mit Ihren Daten in der Cloud herzustellen. Es wird eine Abstraktionsschicht über dem zugrunde liegenden Speicherdienst bereitgestellt, sodass Sie sicher auf Ihre Daten zugreifen und diese bearbeiten können, ohne für Ihren Speichertyp spezifischen Code schreiben zu müssen. Azure Machine Learning bietet auch diese Datenfunktionen:

  • Interoperabilität mit Pandas und Spark DataFrames
  • Versionsverwaltung und Nachverfolgung der Datenherkunft
  • Datenbeschriftung
  • Überwachung von Datenabweichungen

Datenworkflow

Um die Daten in ihrer cloudbasierten Speicherlösung zu verwenden, wird dieser Datenübermittlungsworkflow empfohlen. Der Workflow setzt voraus, dass Sie über ein Azure-Speicherkonto und Daten in einem cloudbasierten Azure-Speicherdienst verfügen.

  1. Erstellen Sie einen Azure Machine Learning-Datenspeicher, um Verbindungsinformationen in Ihrem Azure-Speicher zu speichern.

  2. Erstellen Sie in diesem Datenspeicher ein Azure Machine Learning-Dataset, um auf eine bestimmte Datei oder mehrere Dateien im zugrunde liegenden Speicher zu verweisen.

  3. Um dieses Dataset in Ihrem Machine Learning-Experiment zu verwenden, können Sie es entweder

    • Für das Modelltraining in das Computeziel Ihres Experiments einbinden

      OR

    • Direkt in Azure Machine Learning-Lösungen, z. B. in Experimentausführungen für automatisiertes maschinelles Lernen (automatisiertes ML), Machine Learning-Pipelines oder dem Azure Machine Learning-Designer verwenden.

  4. Erstellen Sie Datasetüberwachungen für Ihr Modellausgabedataset, um Datendrift zu erkennen.

  5. Aktualisieren Sie für den erkanntem Datendrift Ihr Eingabedataset, und trainieren Sie Ihr Modell entsprechend neu.

Dieser Screenshot zeigt den empfohlenen Workflow:

Screenshot des Flows vom Azure Storage-Dienst in einen Datenspeicher und dann in ein Dataset

Herstellen einer Verbindung zwischen Speicher und Datenspeichern

Azure Machine Learning Datenspeicher hosten Ihre Datenspeicher-Verbindungsinformationen sicher auf Azure, so dass Sie diese Informationen nicht in Ihren Skripten angeben müssen. Weitere Informationen zur Verbindung mit einem Speicherkonto und zum Datenzugriff in Ihrem zugrunde liegenden Speicherdienst finden Sie unter Registrieren und Erstellen eines Datenspeichers.

Diese unterstützten cloudbasierten Azure-Speicherdienste können sich als Datenspeicher registrieren:

  • Azure-Blobcontainer
  • Azure-Dateifreigabe
  • Azure Data Lake
  • Azure Data Lake Gen2
  • Azure SQL-Datenbank
  • Azure Database for PostgreSQL
  • Databricks-Dateisystem
  • Azure Database for MySQL

Tipp

Sie können Datenspeicher mit einer auf Anmeldeinformationen basierenden Authentifizierung für den Zugriff auf Speicherdienste erstellen, z. B. einen Dienstprinzipal oder ein SAS-Token (Shared Access Signature). Jeder mit Lesezugriff auf den Arbeitsbereich kann auf diese Anmeldeinformationen zugreifen.

Falls dies ein Problem darstellt, finden Sie unter Erstellen eines Datenspeichers mit identitätsbasiertem Datenzugriff weitere Informationen über Verbindungen zu Speicherdiensten.

Verweisen auf Daten im Speicher mit Datasets

Bei Azure Machine Learning-Datasets handelt es sich nicht um Kopien Ihrer Daten. Beim Erstellen eines Datasets selbst wird ein Verweis auf die Daten in ihrem Speicherdienst sowie eine Kopie der zugehörigen Metadaten erstellt.

Da Datasets nur langsam ausgewertet werden und die Daten am vorhandenen Speicherort verbleiben, profitieren Sie von folgenden Vorteilen:

  • Keine zusätzlichen Speicherkosten.
  • Sie riskieren keine ungewollten Änderungen an Ihren ursprünglichen Datenquellen.
  • Der ML-Workflow wird verbessert und beschleunigt.

Erstellen Sie ein Dataset, um auf Daten in Ihrem Speicher zuzugreifen und die Daten in einem nutzbaren Objekt für Machine Learning-Aufgaben zusammenzustellen. Registrieren Sie das Dataset in Ihrem Arbeitsbereich, um es freizugeben und in verschiedenen Experimenten ohne Datenerfassungskomplexität wiederzuverwenden.

Sie können Datasets aus lokalen Dateien, öffentlichen URLs, Azure Open Datasets oder Azure-Speicherdiensten in Datenspeichern erstellen.

Die folgenden beiden Datasettypen stehen zur Verfügung:

  • Ein FileDataset verweist auf eine einzelne Datei oder auf mehrere Dateien in Ihren Datenspeichern oder öffentlichen URLs. Wenn Ihre Daten bereits bereinigt und für Trainingsexperimente bereit sind, können Sie Dateien, auf die von FileDatasets verwiesen wird, auf Ihr Computeziel herunterladen oder sie einbinden.

  • Ein TabularDataset stellt Daten in einem tabellarischen Format dar, indem die bereitgestellte Datei oder Liste von Dateien analysiert wird. Sie können ein TabularDataset zur weiteren Verarbeitung oder zur Bereinigung in einen Pandas- oder Spark-Datenrahmen laden. Eine vollständige Liste der Datenformate, aus denen Sie TabularDatasets erstellen können, finden Sie im Artikel über die TabularDatasetFactory-Klasse.

Diese Ressourcen bieten weitere Informationen über die Möglichkeiten von Datasets:

Arbeiten mit Ihren Daten

Mit Datasets können Sie Machine Learning-Aufgaben über nahtlose Integration in Azure Machine Learning-Funktionen ausführen.

Beschriften von Daten mit Datenbeschriftungsprojekten

Das Bezeichnen großer Datenmengen in Machine-Learning-Projekten kann durchaus zu einem Problem werden. Projekte, die eine Komponente für maschinelles Sehen verwenden – z. B. zur Bildklassifizierung oder Objekterkennung – erfordern oft Tausende von Bildern und entsprechende Beschriftungen.

Azure Machine Learning bietet einen zentralen Ort zum Erstellen, Verwalten und Überwachen von Beschriftungsprojekten. Beschriftungsprojekte helfen dabei, Daten, Beschriftungen und Teammitglieder zu koordinieren, sodass Sie die Beschriftungsaufgaben effizienter verwalten können. Zu den zurzeit unterstützten Aufgaben gehören die Bildklassifizierung – mit mehreren Beschriftungen oder mehreren Klassen – und die Objektidentifikation mithilfe von Begrenzungsrahmen.

Erstellen Sie ein Bildbeschriftungsprojekt oder Textbeschriftungsprojekt, und geben Sie ein Dataset aus, das in Machine Learning-Experimenten verwendet werden kann.

Überwachen der Modellleistung mit Datendrift

Im Zusammenhang mit maschinellem Lernen bedeutet Datendrift die Veränderung von Modelleingabedaten, die zu einer Verschlechterung der Modellleistung führt. Das ist einer der Hauptgründe dafür, dass die Modellgenauigkeit im Laufe der Zeit abnimmt, und die Überwachung des Datendrifts hilft, Probleme mit der Modellleistung zu erkennen.

Weitere Informationen über die Erkennung und Warnung vor Datendrift bei neuen Daten in einem Dataset finden Sie unter Erstellen einer Dataset-Überwachung.

Nächste Schritte