Entpacken von gezippten Datasets
Entpackt Datasets aus einem ZIP-Paket im Benutzerspeicher
Kategorie: Dateneingabe und -ausgabe
Hinweis
Gilt für: Machine Learning Studio (klassisch)
Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.
Modulübersicht
In diesem Artikel wird beschrieben, wie Sie das Modul Entpacken gezippter Datasets in Machine Learning Studio (klassisch) verwenden, um Daten und Skriptdateien im komprimierten Format hochzuladen und sie dann für die Verwendung in einem Experiment zu entzippen.
Der Zweck dieses Moduls besteht in der Reduzierung der Datenübertragungszeiten bei der Arbeit mit sehr großen Datasets, indem Ihre Datendateien in einem komprimierten Format gespeichert und hochgeladen werden. Im Allgemeinen ist das Zippen von Dateien eine gute Option, wenn Ihr Dataset so groß ist, dass Sie die Komprimierung für den Upload verwenden möchten, um die Uploadzeit und die damit verbundenen Kosten zu minimieren.
Das Modul verwendet als Eingabe ein Dataset in Ihrem Arbeitsbereich. Das Dataset muss in einem komprimierten Format hochgeladen worden sein. Das Modul dekomprimiert dann das Dataset und fügt die Daten Ihrem Arbeitsbereich hinzu.
Verwenden von entpackten gezippten Datasets
In diesem Abschnitt wird beschrieben, wie Sie Ihre Daten vorbereiten und dann in Machine Learning Studio (klassisch) entzippen.
Schritt 1: Vorbereiten von Dateien
Stellen Sie vor dem Hochladen der Datei sicher, dass die Daten in der Datei in folgenden Machine Learning:
Stellen Sie sicher, dass die Daten in der Datei UTF-8-Codierung verwenden.
Wenn die Datei klein genug ist, können Sie sie in Editor öffnen und die Datei dann in der gewünschten Codierung speichern. Viele andere Text-Editoren bieten ähnliche Funktionen. Für CSV-Dateien können Sie die Excel- oder Exportbefehle verwenden, um ein Dateiformat und eine Codierung anzugeben.
Stellen Sie sicher, dass die Datendateien ein unterstütztes Format verwenden, z. B. CSV, TSV, ARFF oder SVMLight.
Komprimieren Sie die Daten, indem Sie die Datendatei einem .ZIP oder hinzufügen. Archivdatei im GZ-Format. Andere Archivtypen werden nicht unterstützt.
Entfernen Sie den Kennwortschutz. Wenn eine der Dateien oder der komprimierte Ordner selbst verschlüsselt oder kennwortgeschützt wurde, müssen Sie die Datei entsperren oder entschlüsseln, bevor Sie sie hochladen. Das Modul kann keine verschlüsselten Datentypen erkennen und unterstützt keine Dialogfelder für die Kennworteingabe von beliebigen Clients.
Schritt 2 Hochladen Dataset in Ihren Arbeitsbereich
Laden Sie als Nächstes das gezippte Dataset in Ihren Experimentarbeitsbereich hoch.
Klicken Sie auf NEU, wählen Sie DATASET aus, und wählen Sie FROM LOCAL FILE (AUS LOKALER DATEI) aus.
Suchen Sie die hochzuladende ZIP-Datei. Wenn Sie die Datei auswählen, sollte der Typ automatisch auf ZIP-Datei (.zip) festgelegt werden.
Schritt 3: Hinzufügen eines gezippten Datasets zum Experiment
Nachdem das Dataset vollständig hochgeladen wurde, fügen Sie es Ihrem Experiment im ZIP-Format hinzu.
Wählen Sie im linken Navigationsbereich von Machine Learning Studio (klassisch) gespeicherte Datasets aus, und erweitern Sie dann Meine Datasets.
Suchen Sie das gerade hochgeladene ZIP-Dataset, und ziehen Sie es in den Experimentbereich.
Schritt 4. Entpacken des Datasets
Der letzte Schritt besteht im Entpacken des Datasets.
Verbinden sie das gezippte Dataset in die Eingabe des Moduls Entpacken gezippter Datasets ein.
Geben Sie unter Zu entpackende Dataset den Namen eines einzelnen Datasets ein, das entpackt werden soll.
Wenn Sie ein Arbeitsblatt mit dem Namen Sheet1 als Excel CSV-Datei mit dem Namen Test.csvgespeichert haben, wird der Name des Datasets Test.csv, nicht Sheet1.
Der Name, den Sie in das Textfeld Dataset to Unpack (Zu entpackende Datasets) eingeben, muss genau mit dem Namen der ursprünglichen Datei vor der Komprimierung identisch sein, einschließlich der Dateierweiterung. Wenn Sie z. B. ein Dataset basierend auf der Textdatei entpacken möchten Users.txt, geben Sie Users.txtund nicht Benutzer ein.
Wenn Sie mehrere Dateien in einem komprimierten Ordner speichern, müssen Sie ein Dataset nach dem anderen entpacken.
Tipp
Wenn Sie die Eigenschaft leer lassen, ruft das Modul den Dateinamen aus der ZIP-Datei ab, vorausgesetzt, die komprimierte Archivdatei enthält nur eine Quelldatei. Wenn das komprimierte Archiv mehrere Dateien enthält, wird ein Laufzeitfehler ausgelöst.
Geben Sie unter Datasetdateiformat das ursprüngliche Format des Datasets an: das Format, bevor es gezippt wurde.
Sie können Datasets hochladen und entzippen, die mit einem der folgenden Formate erstellt wurden: CSV, ARFF, TSV, SvmLight.
Wenn diese Eigenschaft leer gelassen wird, identifiziert das Modul das Dataset mithilfe des Quelldateinamens.
Wählen Sie die Option Datei hat Kopfzeile aus, wenn das ursprüngliche Dataset eine Kopfzeile hatte. Andernfalls wird die erste Datenzeile als Header verwendet. Wenn dies nicht der Fall ist, fügen Sie vor der Eingabe einen Header hinzu.
Diese Option gilt nur für .CSV und . TSV-Dateien.
Hinweis
Wenn Sie das Format der Datei ändern, wird diese Option zurückgesetzt.
Wenn die Datei komprimiert ist, verwenden Sie die Option Komprimierungsdateiformat, um den Algorithmus anzugeben, der zum Komprimieren oder Erweitern der Datei verwendet wurde.
Derzeit werden .ZIP- und GZ-Formate (oder Gzip) unterstützt.
Führen Sie das Experiment aus.
Ergebnisse
Um zu überprüfen, ob die Daten ordnungsgemäß importiert wurden, klicken Sie mit der rechten Maustaste auf das Modul Entpackte gezippte Datasets , und wählen Sie Visualisieren aus .
Um den Namen des Datasets zu ändern, klicken Sie mit der rechten Maustaste auf das Modul Entpackte gezippte Datasets , und wählen Sie Als Dataset speichern aus. An diesem Punkt können Sie einen anderen Namen eingeben.
Diese Option ist praktisch, wenn Sie mehrere Datasets aus einer einzelnen ZIP-Datei entpacken.
Beispiele
Um die Funktionsweise dieses Moduls zu veranschaulichen, haben wir eine Beispieldatei .ZIP, die vier verschiedene CSV-Dateien enthält. Alle Dateien wurden aus dem Excel.
Dateiname | BESCHREIBUNG |
---|---|
names-uni.csv | Unicode-Datei mit Spaltenüberschriften |
names-utf.csv | UTF-8-Datei mit Spaltenüberschriften |
nonames-uni.csv | Unicode-Datei ohne Spaltenüberschriften |
nonames-utf8.csv | UTF-8-Datei ohne Spaltenüberschriften |
Die gesamte ZIP-Datei wurde hochgeladen, und dann wurde das Modul Entpacken gezippter Datasets viermal ausgeführt, um jede der vier Dateien mithilfe dieser Einstellungen zu extrahieren:
- Dataset zum Entpacken = names-uni.csv, Datei hat Headerzeile = TRUE
- Dataset zum Entpacken = names-utf8.csv, Datei hat Headerzeile = TRUE
- Dataset zum Entpacken = nonames-uni.csv, Datei hat Headerzeile = FALSE
- Dataset zum Entpacken = nonames-utf8.csv, Datei hat Headerzeile = FALSE
Die Ergebnisse waren wie erwartet:
Dateiname | Hochladen Ergebnis |
---|---|
names-uni.csv | Fehler 0049: Fehler beim Analyse der Datei. Datei ist nicht Unicode-codiert (UTF-8) |
names-utf8.csv | Erfolg. Verwendet ursprüngliche Spaltennamen aus der Quelldatei. |
nonames-uni.csv | Fehler 0049: Fehler beim Analyse der Datei. Datei ist nicht Unicode-codiert (UTF-8) |
nonames-utf8.csv | Erfolg. Spaltennamen Col1, col2, ... coln wird dem Dataset automatisch hinzugefügt. |
Hinweis
Wenn Sie die Option File has header row = TRUE verwenden und die Quelldatei tatsächlich keine Spaltenüberschrift hat, wird die erste Datenzeile als Spaltenüberschrift verwendet.
Technische Hinweise
Sie können dieses Modul nicht verwenden, um gezippte R-Pakete in Ihren Arbeitsbereich zu entpacken. R-Pakete müssen hochgeladen und als ZIP-Dateien verwendet werden.
Weitere Informationen zum Arbeiten mit gezippten R-Paketen finden Sie unter Execute R Script.
Hinweis
Sind Sie über den Unterschied zwischen UTF-8 und Unicode verwirrend? Lesen Sie diesen Wikipedia-Artikel: Was ist UTF-8?
Modulparameter
Name | Range | type | Standard | Beschreibung |
---|---|---|---|---|
Format der Komprimierungsdatei | Zip GZip |
Komprimierungsregel | Zip | Komprimierungsalgorithmus zum Komprimieren oder Erweitern der Datei. |
Zu entpackende Datasets | Any | String | Keine | Name des Datasets, das bei Azure ML Studio (klassisch) registriert werden soll. Wenn der Name eines Datasets nicht angegeben ist, wird der Name aus dem Dateinamen in der ZIP-Datei ermittelt. |
Datasetdateiformat | CSV TSV ARFF SVMLIGHT |
Dateiformat | CSV | Dateiformat des Datasets in der ZIP-Datei |
Datei hat Kopfzeile | TRUE/FALSE | Boolean | False | Nur auf True festgelegt , wenn die CSV/TSV-Datei über eine Kopfzeile verfügt |
Erwartete Eingaben
Name | Type | Beschreibung |
---|---|---|
Dataset | Zip | ZIP-Datei mit Datasets |
Output
Name | Type | Beschreibung |
---|---|---|
Ergebnisdataset | Datentabelle | Ausgabedataset |