Rozpakowywanie zamapowanych zestawów danych
Rozpakowuje zestawy danych z pakietu zip w magazynie użytkowników
Kategoria: Dane wejściowe i wyjściowe
Uwaga
Dotyczy: tylko Machine Learning Studio (klasyczne)
Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.
Omówienie modułu
W tym artykule opisano sposób użycia modułu Rozpakowywanie skompresowanych zestawów danych w programie Machine Learning Studio (wersja klasyczna) w celu przekazywania plików danych i skryptów w skompresowanym formacie, a następnie rozpakuj je do użycia w eksperymencie.
Celem tego modułu jest skrócenie czasu transferu danych podczas pracy z bardzo dużymi zestawami danych przez zapisanie i przekazanie plików danych w skompresowanym formacie. Ogólnie rzecz biorąc, spakowanie plików jest dobrą opcją, gdy zestaw danych jest tak duży, że chcesz użyć kompresji do przekazywania, aby zminimalizować czas przekazywania i powiązane koszty.
Moduł przyjmuje jako dane wejściowe zestaw danych w obszarze roboczym. Zestaw danych musi zostać przekazany w skompresowanym formacie. Następnie moduł dekompresuje zestaw danych i dodaje dane do obszaru roboczego.
Jak rozpakować zamapowane zestawy danych
W tej sekcji opisano, jak przygotować dane, a następnie rozpakować je w programie Machine Learning Studio (wersja klasyczna).
Krok 1. Przygotowywanie plików
Przed przekazaniem pliku upewnij się, że dane w pliku mogą być używane w Machine Learning:
Upewnij się, że dane w pliku wykorzystują kodowanie UTF-8.
Jeśli plik jest wystarczająco mały, możesz otworzyć go w Notatnik a następnie zapisać plik w żądanym kodowania. Wiele innych edytorów tekstów oferuje podobne funkcje. W przypadku plików CSV można Excel polecenia Zapisz jako lub Eksportuj, aby określić format i kodowanie pliku.
Sprawdź, czy pliki danych używają obsługiwanego formatu, takiego jak CSV, TSV, ARFF lub SVMLight.
Skompresuj dane, dodając plik danych do .ZIP lub . Plik archiwum formatu GZ. Inne typy archiwum nie są obsługiwane.
Usuń ochronę hasłem. Jeśli którykolwiek z plików lub skompresowany folder został zaszyfrowany lub chroniony hasłem, przed przekazaniem pliku należy go odblokować lub odszyfrować. Moduł nie może wykryć zaszyfrowanych typów danych i nie obsługuje okien dialogowych dla wprowadzania hasła z dowolnego klienta.
Krok 2. Upload zestawu danych do obszaru roboczego
Następnie przekaż zamapowany zestaw danych do obszaru roboczego eksperymentu.
Kliknij pozycję NOWY, wybierz pozycję ZESTAW DANYCH, a następnie wybierz pozycję FROM LOCAL FILE (Z PLIKU LOKALNEGO).
Znajdź plik zip do przekazania. Po wybraniu pliku typ powinien zostać automatycznie ustawiony na plik zip (.zip)..
Krok 3. Dodawanie zamapowanych zestawów danych do eksperymentowania
Po całkowicie przekazanym zestawie danych dodaj go do eksperymentu w formacie zmapowanych.
W okienku nawigacji po lewej stronie w programie Machine Learning Studio (wersja klasyczna) wybierz pozycję Zapisane zestawy danych, a następnie rozwiń pozycję Moje zestawy danych.
Znajdź zestaw danych ze zmapowanych danych, który właśnie został przekazany, i przeciągnij go do obszaru roboczego eksperymentu.
Krok 4. Rozpakowywanie zestawu danych
Ostatnim krokiem jest rozpakowanie zestawu danych.
Połączenie zamapowany zestaw danych na dane wejściowe modułu Unpack Zipped Datasets (Rozpakuj zamapowane zestawy danych).
W sekcji Zestaw danych do rozpakowywania wpisz nazwę pojedynczego zestawu danych do rozpakowywania.
Jeśli arkusz o nazwie Arkusz1 został zapisany jako Excel CSV o nazwie Test.csv, nazwa zestawu danych będzie Test.csv, a nie Arkusz1.
Nazwa wpisana w polu tekstowym Dataset to Unpack (Zestaw danych do rozpakowania) musi być dokładnie taka sama jak nazwa oryginalnego pliku przed jego skompresowaniem, łącznie z rozszerzeniem nazwy pliku. Jeśli na przykład chcesz rozpakować zestaw danych na podstawie pliku tekstowego Users.txt, wpisz Users.txt, a nie Users.
Jeśli umieścisz wiele plików w jednym skompresowanym folderze, musisz rozpakować po jednym zestawie danych na raz.
Porada
Jeśli pozostawisz właściwość pustą, moduł pobiera nazwę pliku ze skompresowanego pliku przy założeniu, że skompresowany plik archiwum zawiera tylko jeden plik źródłowy. Jeśli skompresowane archiwum zawiera wiele plików, zostanie uruchomiony błąd.
W przypadku formatu pliku zestawu danych określ oryginalny format zestawu danych, czyli format, który został wcześniej zamapowany.
Możesz przekazywać i rozpakować zestawy danych, które zostały utworzone przy użyciu dowolnego z tych formatów: CSV, ARFF, TSV, SvmLight.
Jeśli ta właściwość pozostaje pusta, moduł zidentyfikuje zestaw danych przy użyciu nazwy pliku źródłowego.
Wybierz opcję Plik ma wiersz nagłówka, jeśli oryginalny zestaw danych zawiera wiersz nagłówka. W przeciwnym razie jako nagłówek zostanie użyty pierwszy wiersz danych. Jeśli to nie jest to, co chcesz, dodaj nagłówek przed wprowadzeniem.
Ta opcja ma zastosowanie tylko do .CSV i . Pliki TSV.
Uwaga
Jeśli zmienisz format pliku, ta opcja zostanie zresetowana.
Jeśli plik jest skompresowany, użyj opcji Format pliku kompresji, aby określić algorytm, który został użyty do skompresowania lub rozwinięcia pliku.
Obecnie obsługiwane .ZIP i GZ (lub Gzip).
Uruchom eksperyment.
Wyniki
Aby sprawdzić, czy dane zostały zaimportowane poprawnie, kliknij prawym przyciskiem myszy moduł Unpacked Zeipped Datasets (Rozpakowane zestawy danych), a następnie wybierz pozycję Visualize (Wizualizacja).
Aby zmienić nazwę zestawu danych, kliknij prawym przyciskiem myszy moduł Unpacked Zeipped Datasets (Rozpakowane zestawy danych), a następnie wybierz pozycję Save as Dataset (Zapisz jako zestaw danych). W tym momencie możesz wpisać inną nazwę.
Ta opcja jest przydatna w przypadku rozpakowywania wielu zestawów danych z jednego pliku ZIP.
Przykłady
Aby zademonstrować działanie tego modułu, utworzono przykładowy plik .ZIP zawierający cztery różne pliki CSV. Wszystkie pliki zostały zapisane z Excel.
Nazwa pliku | Opis |
---|---|
names-uni.csv | Plik Unicode z nagłówkami kolumn |
names-utf.csv | Plik UTF-8 z nagłówkami kolumn |
nonames-uni.csv | Plik Unicode bez nagłówków kolumn |
nonames-utf8.csv | Plik UTF-8 bez nagłówków kolumn |
Cały plik zip został przekazany, a następnie moduł Unpack Zipped Datasets został uruchomiony cztery razy w celu wyodrębnienia każdego z czterech plików przy użyciu tych ustawień:
- Zestaw danych do rozpakowywania = names-uni.csv, plik ma wiersz nagłówka = TRUE
- Zestaw danych do rozpakowywania = names-utf8.csv, plik ma wiersz nagłówka = TRUE
- Zestaw danych do rozpakowywania = nonames-uni.csv, plik ma wiersz nagłówka = FALSE
- Zestaw danych do rozpakowywania = nonames-utf8.csv, plik ma wiersz nagłówka = FALSE
Wyniki były zgodnie z oczekiwaniami:
Nazwa pliku | Upload wynik |
---|---|
names-uni.csv | Błąd 0049: Błąd podczas analizowania pliku. Plik nie jest zakodowany w formacie Unicode (UTF-8) |
names-utf8.csv | Powodzenie. Używa oryginalnych nazw kolumn z pliku źródłowego. |
nonames-uni.csv | Błąd 0049: Błąd podczas analizowania pliku. Plik nie jest zakodowany w formacie Unicode (UTF-8) |
nonames-utf8.csv | Powodzenie. Nazwy kolumn Col1, col2, ... Kolumny coln są automatycznie dodawane do zestawu danych. |
Uwaga
Jeśli używasz opcji Plik ma wiersz nagłówka = TRUE, a plik źródłowy w rzeczywistości nie ma nagłówka kolumny, pierwszy wiersz danych jest używany jako nagłówek kolumny.
Uwagi techniczne
Za pomocą tego modułu nie można rozpakować zamapowanych pakietów R do obszaru roboczego. Pakiety R muszą być przekazywane i używane jako pliki zmapowane.
Aby uzyskać więcej informacji na temat pracy ze zmapowanych pakietów R, zobacz Execute R Script (Wykonywanie skryptu R).
Uwaga
Nie pomylisz różnicy między formatami UTF-8 i Unicode? Zobacz ten artykuł w Wikipedii: Co to jest UTF-8
Parametry modułu
Nazwa | Zakres | Typ | Domyślny | Opis |
---|---|---|---|---|
Format pliku kompresji | Zip Gzip |
reguła kompresji | Zip | Algorytm kompresji używany do kompresowania lub rozszerzania pliku. |
Zestaw danych do rozpakowywania | Dowolne | Ciąg | brak | Nazwa zestawu danych do zarejestrowania w usłudze Azure ML Studio (wersja klasyczna). Jeśli nie określono nazwy zestawu danych, nazwa jest uzyskiwana z nazwy pliku w pliku zip. |
Format pliku zestawu danych | CSV TSV ARFF SVMLIGHT |
Format pliku | CSV | Format pliku zestawu danych w pliku zip |
Plik ma wiersz nagłówka | PRAWDA/FAŁSZ | Wartość logiczna | Fałsz | Ustaw wartość True tylko wtedy, gdy plik CSV/TSV ma wiersz nagłówka |
Oczekiwane dane wejściowe
Nazwa | Typ | Opis |
---|---|---|
Zestaw danych | Zip | Plik zip zawierający zestawy danych |
Dane wyjściowe
Nazwa | Typ | Opis |
---|---|---|
Zestaw danych wyników | Tabela danych | Wyjściowy zestaw danych |