Konwersje formatu danych
Ważne
Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.
Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).
- Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
- Dowiedz się więcej o Azure Machine Learning.
Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.
Uwaga
Dotyczy: Machine Learning Studio (wersja klasyczna)
Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.
W tym artykule wymieniono moduły dostępne w programie Machine Learning Studio (klasyczne) służące do konwertowania danych na różne formaty plików używane w uczeniu maszynowym.
Obsługiwane formaty obejmują:
- Format zestawu danych używany w całym Machine Learning.
- Format ARFF używany przez firmę Weka. Weka to oparty na języku Java zestaw algorytmów uczenia maszynowego typu open source.
- Format SVMLight . Format SVMLight został opracowany dla struktury SVMlight do uczenia maszynowego. Może być również używany przez Vowpal Wabbit.
- Formaty plików rozdzielanych tabulatorami (TSV) i rozdzielanych przecinkami (CSV), które są obsługiwane przez większość relacyjnych baz danych. Te formaty są również szeroko obsługiwane w językach R i Python.
Podczas konwertowania danych na te formaty można łatwiej przenosić wyniki i dane między różnymi platformami uczenia maszynowego lub mechanizmami magazynu.
Uwaga
Te moduły konwersji danych konwertują tylko pełny zestaw danych do określonego formatu. Jeśli musisz wykonać rzutowanie, przycinanie, konwersję formatów daty/godziny lub inne manipulowanie wartościami, użyj modułów w funkcji Przekształcanie danych lub zobacz listę powiązanych zadań.
Typowe scenariusze konwersji danych
Moduły konwersji danych są zwykle używane, jeśli musisz przenieść dane z eksperymentu Machine Learning do innego narzędzia lub platformy uczenia maszynowego. Moduły służą również do eksportowania danych z programu Machine Learning w formacie, który może być używany przez bazę danych lub inne narzędzia. Na przykład:
Zadanie | Użyj tego |
---|---|
Musisz zapisać pośredni zestaw danych do użycia w Excel lub w celu zaimportowania do bazy danych. | Użyj modułu CSV lub modułu TSV , aby przygotować dane w poprawnym formacie. Następnie pobierz dane lub zapisz je w usłudze Azure Storage. |
Chcesz ponownie użyć danych z eksperymentu w kodzie języka R lub Python. | Użyj modułu CSV lub TSV , aby przygotować dane. Następnie kliknij prawym przyciskiem myszy przekonwertowany zestaw danych, aby uzyskać kod języka Python potrzebny do uzyskania dostępu do zestawu danych. |
Przekierowywujesz swój eksperyment i dane między weka i Machine Learning. | Użyj modułu ARFF , aby przygotować dane. Następnie pobierz wyniki. |
Należy przygotować dane w platformie SVMlight. | Użyj modułu Convert to SVMLight,aby przygotować dane. Następnie pobierz wynikowe dane. |
Utwórz dane do użycia z Vowpal Wabbit. | Użyj formatu SVMLight . Następnie zmodyfikuj pliki zgodnie z opisem w artykule. Zapisz plik w usłudze Azure Blob Storage do użycia z modułem Vowpal Wabbit w usłudze Machine Learning. |
Dane nie są w formacie tabelarykowym. | Przekonwertuj go do formatu zestawu danych przy użyciu modułu Convert to Dataset (Konwertuj na zestaw danych). |
Zadania powiązane
Jeśli musisz zaimportować dane do Machine Learning lub przekształcić dane w poszczególnych kolumnach, użyj tych modułów przed przeprowadzeniem konwersji danych:
Zadanie | Użyj tego |
---|---|
Zaimportuj dane z mojego komputera do Machine Learning. | Upload w formacie CSV zgodnie z opisem w temacie Importowanie danych szkoleniowych do programu Machine Learning Studio (wersja klasyczna). |
Importowanie danych ze źródła danych w chmurze, w tym usługi Hadoop lub Azure. | Użyj modułu Import danych . |
Zapisz zestawy danych uczenia maszynowego w usłudze Azure Blob Storage, klastrze Hadoop lub innym magazynie opartym na chmurze. | Użyj modułu Eksportuj dane. |
Zmień typ danych kolumn lub kolumn rzutowania na inny format lub typ. | W Machine Learning użyj modułów Edit Metadata (Edytowanie metadanych) SQL Apply SQL Transformation (Stosowanie przekształcenia). Jeśli masz umiejętności z językami R lub Python, wypróbuj moduły Execute Python Script (Wykonywanie skryptu języka Python ) lub Execute R Script (Wykonaj skrypt języka R ). |
Zaokrąglaj, grupuj lub normalizuj dane liczbowe. | Użyj modułów Zastosuj operację matematyczne, Pogrupuj dane w pojemniki lub Normalizuj dane. |
Lista modułów
Kategoria Konwersje formatu danych obejmuje następujące moduły:
- Konwertowanie na ARFF: konwertuje dane wejściowe na format pliku relacji atrybutu, który jest używany przez zestaw narzędzi Weka.
- Konwertowanie na format CSV: konwertuje zestaw danych na format wartości rozdzielanych przecinkami.
- Konwertuj na zestaw danych: konwertuje dane wejściowe na wewnętrzny format zestawu danych, który jest używany przez Machine Learning.
- Konwertowanie na format SVMLight: konwertuje dane wejściowe na format używany przez platformę SVMlight.
- Konwertuj na TSV: konwertuje dane wejściowe na format rozdzielany tabulatorami.