Konvertieren in das CSV-Format
Wichtig
Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.
Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.
- Siehe Migrieren zu Azure Machine Learning
- Weitere Informationen zu Azure Machine Learning.
Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.
Konvertiert die Dateneingabe in ein Format mit kommagetrennten Werten
Kategorie: Datenformatkonvertierungen
Hinweis
Giltnur für: Machine Learning Studio (klassisch)
Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.
Modulübersicht
In diesem Artikel wird beschrieben, wie Sie das Convert to CSV-Modul in Machine Learning Studio (klassisch) verwenden, um ein Dataset aus Azure ML in ein CSV-Format zu konvertieren, das heruntergeladen, exportiert oder für R- oder Python-Skriptmodule freigegeben werden kann.
Weitere Informationen zum CSV-Format
Das CSV-Format (Comma-Separated Values) ist ein Dateiformat, das von vielen externen Tools für maschinelles Lernen verwendet wird. Obwohl das systemeigene Datasetformat, das von Machine Learning verwendet wird, auf der .NET-Datentabelle basiert und somit von .NET-Bibliotheken gelesen werden kann, ist CSV ein gängiges Austauschformat beim Arbeiten mit Open-Source-Sprachen wie R oder Python.
Auch wenn Sie die meisten Ihrer Arbeit in Machine Learning Studio (klassisch) ausführen, gibt es Zeiten, in denen Sie es möglicherweise praktisch finden, Ihr Dataset in CSV zu konvertieren, um sie in externen Tools zu verwenden. Beispiel:
- Laden Sie die CSV-Datei herunter, um sie in Excel zu öffnen, oder importieren Sie sie in eine relationale Datenbank.
- Speichern Sie die CSV-Datei im Cloudspeicher, und verbinden Sie sie mit Power BI, um Visualisierungen zu erstellen.
- Verwenden Sie das CSV-Format, um Daten zur Verwendung in R und Python aufzubereiten. Klicken Sie einfach mit der rechten Maustaste auf die Ausgabe des Moduls, um den Code zu generieren, der für den direkten Zugriff auf die Daten in Python oder einem Jupyter-Notebook benötigt wird.
Wenn Sie einen Datensatz in das CSV-Format konvertieren, wird die Datei in Ihrem Azure ML-Arbeitsbereich gespeichert. Sie können ein Azure-Speicherhilfsprogramm verwenden, um die Datei zu öffnen und direkt zu nutzen, oder Sie können mit der rechten Maustaste auf die Modulausgabe klicken und die CSV-Datei auf Ihren Computer herunterladen oder sie in R- oder Python-Code verwenden.
Konfigurieren von „Convert to CSV“
Fügen Sie das Modul Convert to CSV Ihrem Experiment hinzu. Dieses Modul finden Sie in der Gruppe "Konvertierungen im Datenformat " in Studio (klassisch).
Verbinden Sie es mit einem beliebigen Modul, das ein Dataset ausgibt.
Führen Sie das Experiment aus, oder klicken Sie auf das MODUL "In CSV konvertieren ", und klicken Sie auf " Ausführen".
Ergebnisse
Doppelklicken Sie auf die Ausgabe von Convert to CSV, und wählen Sie eine der folgenden Optionen aus.
Download: Öffnet sofort eine Kopie der Daten im CSV-Format, die Sie in einem lokalen Ordner speichern können. Wenn Sie keinen Ordner angeben, wird ein Standarddateiname übernommen, und die CSV-Datei wird in der lokalen Bibliothek Downloads gespeichert.
Wenn Sie " Dataset herunterladen" auswählen, müssen Sie angeben, ob Sie das Dataset öffnen oder in einer lokalen Datei speichern möchten.
Wenn Sie "Öffnen" auswählen, wird das Dataset mithilfe der Anwendung geladen, die standardmäßig mit .CSV Dateien verknüpft ist: z. B. Microsoft Excel.
Wenn Sie " Dataset herunterladen" auswählen, wird die Datei standardmäßig mit dem Namen des Moduls und einer GUID gespeichert, die die Arbeitsbereichs-ID darstellt. Sie können jedoch die Option "Speichern unter " während des Downloads auswählen und den Dateinamen oder speicherort ändern.
Als Dataset speichern: Speichert die CSV-Datei wieder im Azure ML Arbeitsbereich als separates Dataset.
Datenzugriffscode generieren: Azure ML generiert zwei Codesätze für den Zugriff auf die Daten, entweder mithilfe von Python oder mit R. Um auf die Daten zuzugreifen, kopieren Sie den Codeausschnitt in Ihre Anwendung.
Öffnen Sie in einem neuen Notizbuch: Ein neues Jupyter-Notizbuch wird für Sie erstellt und Code zum Lesen der Daten aus Ihrem Arbeitsbereich mithilfe der Sprache Ihrer Wahl eingefügt: Python 2, Python 3 oder R mit Microsoft R Open.
Wenn Sie beispielsweise die Option R auswählen, wird Beispiel-R-Code bereitgestellt, der die CSV-Datei in einen Datenrahmen lädt und die ersten Zeilen mit der
head
Funktion anzeigt.
Technische Hinweise
Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.
Anforderungen des CSV-Formats
Das CSV-Dateiformat ist ein beliebtes Format, das von vielen maschinellen Lernframeworks unterstützt wird. Das Format wird unterschiedlich auf "durch Trennzeichen getrennte Werte" oder "zeichentrennte Werte" bezeichnet.
In einer CSV-Datei werden Tabellendaten (Zahlen und Text) im Nur-Text-Format gespeichert. Eine CSV-Datei besteht aus einer beliebigen Anzahl von Datensätzen, die durch Zeilenumbrüche voneinander getrennt sein können. Jeder Datensatz besteht aus Feldern, getrennt durch ein Literalzeichen. In einigen Bereichen ist das Trennzeichen möglicherweise ein Semikolon.
In der Regel verfügen alle Datensätze über eine identische Anzahl von Feldern, und fehlende Werte werden als Nullen oder leere Zeichenfolgen dargestellt.
Tipp
Sie können Daten aus Excel, Access oder einer relationalen Datenbank ganz einfach in CSV-Dateien exportieren, um sie in Machine Learning zu verwenden. Obwohl Dateinamen in der Regel über die .CSV Erweiterung verfügen, erfordert Machine Learning nicht, dass diese Dateinamenerweiterung vorhanden ist, wenn Sie die Daten als CSV importieren möchten. Sie können XLSX, TXT und andere Dateien als CSV importieren. Die Felder in der Datei müssen jedoch wie im vorherigen Abschnitt beschrieben formatiert werden, und die Datei muss die UTF-8-Codierung verwenden.
Allgemeine Fragen und Probleme
In diesem Abschnitt werden einige bekannte Probleme, allgemeine Fragen und Problemumgehungen beschrieben, die für das Convert to CSV-Modul spezifisch sind.
Kopfzeilen müssen einzelne Zeilen sein.
Das in Machine Learning verwendete CSV-Dateiformat unterstützt eine einzelne Kopfzeile. Sie können keine mehrzeiligen Kopfzeilen einfügen.
Benutzerdefinierte Trennzeichen, die beim Import unterstützt werden, aber nicht exportieren
Das Convert to CSV-Modul unterstützt nicht das Generieren alternativer Spaltentrennzeichen, z. B. des Semikolons (;), das häufig in Europa verwendet wird.
Wenn Sie jedoch Daten aus CSV-Dateien im externen Speicher importieren, können Sie alternative Trennzeichen angeben. Wählen Sie im Modul "Daten importieren " die CSV-Datei mit der Option "Codierungen " aus, und wählen Sie eine unterstützte Codierung aus.
Ungenaue Spaltentrennung für Zeichenfolgendaten, die Kommas enthalten
Es ist ein häufiges Problem bei der Textverarbeitung, dass fast jedes Zeichen, das als Spaltentrennzeichen (Registerkarten, Leerzeichen, Kommas usw.) angegeben werden kann, auch zufällig in Textfeldern gefunden werden kann. Das Importieren von Text aus CSV erfordert immer Vorsicht, um das Trennen von Text über unnötige neue Spalten zu vermeiden.
Wenn Sie versuchen, eine Spalte mit Zeichenfolgendaten zu exportieren, die Kommas enthalten, treten möglicherweise auch Probleme auf. Machine Learning unterstützt keine spezielle Behandlung oder spezielle Übersetzung solcher Daten, z. B. Das Einschließen von Zeichenfolgen in Anführungszeichen. Außerdem können Sie keine Escapezeichen vor einem Komma verwenden, um sicherzustellen, dass Kommas als Literalzeichen behandelt werden.
Daher werden neue Felder in der Ausgabedatei für jedes Komma erstellt, das im Zeichenfolgenfeld aufgetreten ist. Um dieses Problem zu vermeiden, gibt es mehrere Problemumgehungen:
Verwenden Sie das Vorverarbeitungstextmodul , um Interpunktionszeichen aus Zeichenfolgenfeldern zu entfernen.
Verwenden Sie benutzerdefiniertes R-Skript oder Python-Skript , um Text zu verarbeiten und sicherzustellen, dass Daten ordnungsgemäß exportiert werden können.
UTF-8-Codierung erforderlich
Das Modul Convert to CSV unterstützt ausschließlich die UTF-8-Zeichencodierung. Wenn Sie Daten mithilfe einer anderen Codierung exportieren müssen, können Sie versuchen, die Execute R Script - oder Execute Python-Skriptmodule zu verwenden, um benutzerdefinierte Ausgabe zu generieren.
Dataset verfügt nicht über Spaltennamen
Wenn das Dataset, das Sie in eine CSV-Datei exportieren, keine Spaltennamen enthält, sollten Sie mithilfe von Edit Metadata Spaltennamen hinzufügen, bevor Sie sie konvertieren. Spaltennamen können nicht als Teil des Konvertierungs- oder Exportvorgangs hinzugefügt werden.
SYLK: Dateiformat ist ungültig
Wenn die erste Spalte des Datasets, das Sie in CSV konvertieren, die Namens-ID aufweist, wird möglicherweise der folgende Fehler angezeigt, wenn Sie versuchen, die Datei in Excel zu öffnen:
"SYLK: Dateiformat ist ungültig."
Um diesen Fehler zu vermeiden, müssen Sie die Spalte umbenennen.
Ich benötige Hilfe beim Importieren aus CSV
Verwenden Sie zum Importieren das Export to CSV-Modul nicht. Verwenden Sie stattdessen das Modul "Daten importieren ".
Allgemeine Informationen zum Importieren aus CSV finden Sie in den folgenden Ressourcen:
- Importieren von Trainingsdaten aus verschiedenen Datenquellen in Machine Learning Studio (klassisch)
- AzureML-Experimente und Dateninteraktion: Veranschaulicht verschiedene Datenquellen und die Funktionsweise mit ihnen in Studio (klassisch).
Erwartete Eingaben
Name | Typ | BESCHREIBUNG |
---|---|---|
Dataset | Datentabelle | Eingabedataset |
Output
Name | Typ | BESCHREIBUNG |
---|---|---|
Ergebnisdataset | GenericCsv | Ausgabedataset |