Konwertowanie na plik CSV
Ważne
Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.
Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).
- Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
- Dowiedz się więcej o Azure Machine Learning.
Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.
Konwertuje dane wejściowe na format wartości rozdzielanych przecinkami
Kategoria: Konwersje formatów danych
Uwaga
Dotyczy: tylko Machine Learning Studio (wersja klasyczna)
Podobne moduły przeciągania i upuszczania są dostępne w projektancie Azure Machine Learning.
Omówienie modułu
W tym artykule opisano sposób użycia modułu Konwertuj na plik CSV w programie Machine Learning Studio (wersja klasyczna), aby przekonwertować zestaw danych z usługi Azure ML na format CSV, który można pobrać, wyeksportować lub udostępnić modułom skryptów języka R lub Python.
Więcej informacji o formacie CSV
Format CSV, który oznacza "wartości rozdzielane przecinkami", jest formatem pliku używanym przez wiele zewnętrznych narzędzi uczenia maszynowego. Mimo że natywny format zestawu danych używany przez Machine Learning jest oparty na tabeli danych platformy .NET i w związku z tym może być odczytywany przez biblioteki platformy .NET, wolumin CSV jest typowym formatem wymiany podczas pracy z językami open source, takimi jak R lub Python.
Nawet jeśli większość pracy wykonujesz w programie Machine Learning Studio (wersja klasyczna), czasami warto przekonwertować zestaw danych na plik CSV do użycia w narzędziach zewnętrznych. Przykład:
- Pobierz plik CSV, aby otworzyć go za pomocą Excel lub zaimportować go do relacyjnej bazy danych.
- Zapisz plik CSV w magazynie w chmurze i połącz się z nim z Power BI, aby utworzyć wizualizacje.
- Użyj formatu CSV, aby przygotować dane do użycia w językach R i Python. Wystarczy kliknąć prawym przyciskiem myszy dane wyjściowe modułu, aby wygenerować kod potrzebny do uzyskania dostępu do danych bezpośrednio z języka Python lub notesu Jupyter.
Podczas konwertowania zestawu danych na plik CSV plik jest zapisywany w obszarze roboczym usługi Azure ML. Możesz użyć narzędzia usługi Azure Storage, aby otworzyć plik i użyć go bezpośrednio lub kliknąć prawym przyciskiem myszy dane wyjściowe modułu i pobrać plik CSV na komputer lub użyć go w kodzie języka R lub Python.
How to configure Convert to CSV
Dodaj moduł Konwertuj na plik CSV do eksperymentu. Ten moduł można znaleźć w grupie Konwersje formatu danych w programie Studio (wersja klasyczna).
Połączenie go do dowolnego modułu, który generuje zestaw danych.
Uruchom eksperyment lub kliknij moduł Konwertuj na CSV , a następnie kliknij pozycję Uruchom wybrane.
Wyniki
Kliknij dwukrotnie dane wyjściowe polecenia Konwertuj na plik CSV i wybierz jedną z tych opcji.
Pobieranie: natychmiast otwiera kopię danych w formacie CSV, którą można zapisać w folderze lokalnym. Jeśli nie określisz folderu, zostanie zastosowana domyślna nazwa pliku, a plik CSV zostanie zapisany w lokalnej bibliotece pobranej .
Jeśli wybierzesz pozycję Pobierz zestaw danych, musisz wskazać, czy chcesz otworzyć zestaw danych, czy zapisać go w pliku lokalnym.
Jeśli wybierzesz pozycję Otwórz, zestaw danych zostanie załadowany przy użyciu aplikacji, która jest domyślnie skojarzona z plikami .CSV: na przykład Microsoft Excel.
Jeśli domyślnie wybierzesz pozycję Pobierz zestaw danych, plik zostanie zapisany z nazwą modułu oraz identyfikatorem GUID reprezentującym identyfikator obszaru roboczego. Można jednak wybrać opcję Zapisz jako podczas pobierania i zmienić nazwę pliku lub lokalizację.
Zapisz jako zestaw danych: zapisuje plik CSV z powrotem w obszarze roboczym usługi Azure ML jako oddzielny zestaw danych.
Generowanie kodu dostępu do danych: usługa Azure ML generuje dwa zestawy kodu służące do uzyskiwania dostępu do danych przy użyciu języka Python lub języka R. Aby uzyskać dostęp do danych, skopiuj fragment kodu do aplikacji.
Otwórz w nowym notesie: zostanie utworzony nowy notes Jupyter i kod wstawiony do odczytu danych z obszaru roboczego przy użyciu wybranego języka: Python 2, Python 3 lub R z programem Microsoft R Open.
Jeśli na przykład wybierzesz opcję języka R, zostanie podany przykładowy kod języka R, który ładuje plik CSV do ramki danych i wyświetla kilka pierwszych wierszy przy użyciu
head
funkcji .
Uwagi techniczne
Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.
Wymagania dotyczące formatu CSV
Format pliku CSV jest popularnym formatem obsługiwanym przez wiele platform uczenia maszynowego. Format jest różnie określany jako "wartości rozdzielane przecinkami" lub "wartości rozdzielane znakami".
Plik CSV przechowuje dane tabelaryczne (liczby i tekst) w postaci zwykłego tekstu. Plik CSV składa się z dowolnej liczby rekordów rozdzielonych podziałami wierszy pewnego rodzaju. Każdy rekord składa się z pól rozdzielonych przecinkiem literału. W niektórych regionach separator może być średnikiem.
Zazwyczaj wszystkie rekordy mają identyczną liczbę pól, a brakujące wartości są reprezentowane jako null lub puste ciągi.
Porada
Możesz łatwo eksportować dane z Excel, programu Access lub relacyjnej bazy danych do plików CSV do użycia w Machine Learning. Mimo że nazwy plików zwykle mają rozszerzenie .CSV, Machine Learning nie wymaga, aby to rozszerzenie nazwy pliku było obecne, jeśli chcesz zaimportować dane jako plik CSV. Pliki XLSX, TXT i inne można importować jako pliki CSV. Jednak pola w pliku muszą być sformatowane zgodnie z opisem w poprzedniej sekcji, a plik musi używać kodowania UTF-8.
Typowe pytania i problemy
W tej sekcji opisano niektóre znane problemy, typowe pytania i obejścia specyficzne dla modułu Konwertuj na csv .
Nagłówki muszą być pojedynczymi wierszami
Format pliku CSV używany w Machine Learning obsługuje pojedynczy wiersz nagłówka. Nie można wstawić nagłówków wielowierszowych.
Separatory niestandardowe obsługiwane podczas importowania, ale nie eksportu
Moduł Konwertuj na csv nie obsługuje generowania alternatywnych separatorów kolumn, takich jak średnik (;), który jest często używany w Europie.
Jednak podczas importowania danych z plików CSV w magazynie zewnętrznym można określić separatory alternatywne. W module Importuj dane wybierz opcję CSV z kodowaniem i wybierz obsługiwane kodowanie.
Niedokładne rozdzielenie kolumn na danych ciągów zawierających przecinki
Jest to typowy problem podczas przetwarzania tekstu, który można określić niemal jako separator kolumny (tabulatory, spacje, przecinki itp.) można również znaleźć losowo w polach tekstowych. Importowanie tekstu z pliku CSV zawsze wymaga ostrożności, aby uniknąć oddzielania tekstu między niepotrzebnymi nowymi kolumnami.
Podczas próby wyeksportowania kolumny danych ciągu zawierającej przecinki mogą wystąpić problemy. Machine Learning nie obsługuje żadnej specjalnej obsługi ani specjalnego tłumaczenia takich danych, takich jak ujęcie ciągów w cudzysłów. Ponadto nie można użyć znaków ucieczki przed przecinkiem, aby upewnić się, że przecinki są obsługiwane jako znak literału.
W związku z tym nowe pola są tworzone w pliku wyjściowym dla każdego przecinka napotkanego w polu ciągu. Aby uniknąć tego problemu, istnieje kilka obejść:
Użyj modułu Preprocess Text (Wstępne przetwarzanie tekstu ), aby usunąć znaki interpunkcyjne z pól ciągu.
Użyj niestandardowego skryptu języka R lub skryptu języka Python , aby przetworzyć tekst i upewnić się, że dane można wyeksportować poprawnie.
Wymagane jest kodowanie UTF-8
Moduł Konwertuj na csv obsługuje tylko kodowanie znaków UTF-8. Jeśli musisz wyeksportować dane przy użyciu innego kodowania, możesz spróbować użyć modułów Execute R Script (Wykonywanie skryptu języka R ) lub Execute Python Script (Wykonywanie skryptu języka Python ) w celu wygenerowania niestandardowych danych wyjściowych.
Zestaw danych nie ma nazw kolumn
Jeśli zestaw danych eksportowany do pliku CSV nie ma nazw kolumn, zalecamy użycie opcji Edytuj metadane w celu dodania nazw kolumn przed przekonwertowaniem. Nie można dodawać nazw kolumn w ramach procesu konwersji lub eksportu.
SYLK: Nieprawidłowy format pliku
Jeśli pierwsza kolumna zestawu danych przekonwertowanego na plik CSV ma identyfikator nazwy, podczas próby otwarcia pliku w Excel może wystąpić następujący błąd:
"SYLK: Format pliku jest nieprawidłowy".
Aby uniknąć tego błędu, należy zmienić nazwę kolumny.
Potrzebuję pomocy dotyczącej importowania z pliku CSV
W przypadku importowania nie używaj modułu Eksportuj do pliku CSV . Zamiast tego użyj modułu Import Data (Importuj dane ).
Aby uzyskać ogólne informacje na temat importowania z pliku CSV, zobacz następujące zasoby:
- Importowanie danych szkoleniowych do programu Machine Learning Studio (klasycznego) z różnych źródeł danych
- Eksperymenty usługi AzureML i interakcja z danymi: demonstruje różne źródła danych i sposób pracy z nimi w programie Studio (wersja klasyczna).
Oczekiwane dane wejściowe
Nazwa | Typ | Opis |
---|---|---|
Zestaw danych | Tabela danych | Wejściowy zestaw danych |
Dane wyjściowe
Nazwa | Typ | Opis |
---|---|---|
Zestaw danych wyników | GenericCsv | Wyjściowy zestaw danych |