Grupowanie wartości kategorii
Ważne
Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.
Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).
- Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
- Dowiedz się więcej o Azure Machine Learning.
Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.
Grupuje dane z wielu kategorii do nowej kategorii
Kategoria: Przekształcanie/manipulowanie danymi
Uwaga
Dotyczy: Machine Learning Studio (wersja klasyczna)
Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.
Omówienie modułu
W tym artykule opisano sposób tworzenia tabeli odnośników w miejscu przy użyciu modułu Grupuj wartości podzielone na grupy w programie Machine Learning Studio (wersja klasyczna).
Typowym zastosowaniem grupowania wartości kategorii jest scalanie wielu wartości ciągu w jeden nowy poziom. Można na przykład przypisać poszczególne kody pocztowe w regionie do jednego kodu regionalnego lub pogrupować wiele produktów w ramach jednej kategorii.
Aby użyć tego modułu, wpisz wartości odnośników, których chcesz użyć, i zamapuj istniejące wartości na wartości zastępcze. Grupowania można tworzyć tylko dla kolumn kategorii, a nie kolumn typu liczbowego lub kolumn oznaczonych jako etykiety lub cechy.
Wszystkie wartości kolumn, które nie są jawnie mapowane na nowy poziom, są przypisywane do poziomu domyślnego. Jeśli na przykład nie zamapowanie wszystkich poszczególnych kodów pocztowych, zostaną one pogrupowane na poziomie dla niezamapowanych wartości, które można nazwać Nieznane.
Uwaga
Można utworzyć maksymalnie 20 nowych poziomów, w tym poziom domyślny. Jeśli potrzebujesz większej liczby wartości lub musisz dynamicznie definiować mapowania, zalecamy użycie niestandardowego skryptu R w module Wykonywanie skryptu R . Możesz też użyć SQL w module Apply SQL Transformation (Stosowanie SQL przekształcenia).
How to use Group Categorical Values
Zalecamy, aby wcześniej przygotować listę istniejących wartości i nowe kategorie. Dla każdej kategorii należy przygotować nową nazwę kategorii i rozdzielaną przecinkami listę wartości do dołączyć do kategorii.
Dodaj moduł Group Categorical Values (Grupuj wartości podzielone na grupy) do eksperymentu. Moduł można znaleźć w obszarze Przekształcanie danych, Manipulowanie.
Połączenie zestaw danych, który zawiera wartości, które chcesz przekształcić.
W okienkuWłaściwości grupy Wartości podzielone na grupy użyj selektora kolumn, aby wybrać kolumnę zawierającą poziomy, które chcesz zmniejszyć.
Zalecamy kliknięcie przycisku ROZPOCZNIJ OD i BRAK KOLUMN , aby rozpocząć, a następnie dodanie kolumn według nazwy. W przeciwnym razie jako kandydatów może zostać dodanych zbyt wiele kolumn, co prowadzi do błędu.
Kolumna musi być kolumną kategorii. Jeśli tak nie jest, dodaj pozycję Edytuj metadane nadrzędne i zmień typ kolumny.
Pamiętaj, aby usunąć z danych wejściowych wszystkie kolumny, do których nie należy stosować zastępowania ciągów.
W przypadku trybu danych wyjściowych wskaż, czy chcesz wyświetlić dane wyjściowe tylko dla nowych poziomów, czy dołączyć zmiany w celu zobaczenia oryginalnej kolumny ze zamianami obok siebie.
Wartość domyślna , ResultOnly, pokazuje tylko nowe wartości. Opcja Inplace zastępuje istniejące wartości kolumn nowymi poziomami.
W domyślnej nazwy poziomu, wpisz wartość ciągu do użycia jako zamiennik dla wszystkich wartości, które nie są jawnie mapowane. Możesz użyć czegoś takiego jak "Nieznany" lub "Domyślny".
Uwaga
Ta domyślna wartość poziomu jest stosowana do wszystkich wartości, których nie można zamapować. Jeśli przypadkowo doszliśmy do kolumn, których nie zamierzaliśmy mapować, wartość zostanie zastosowana do wszystkich wartości w kolumnach. Dlatego przed rozpoczęciem przetwarzania sprawdź, czy wybór kolumny jest dokładny.
W nowe liczby poziomów, wpisz liczbę, która wskazuje łączną liczbę nowych kategorii (poziomy), łącznie z domyślnym poziomem niezamapowanych wartości.
W przypadku pola Nazwa nowego poziomu 1 podaj nową nazwę grupy dla pierwszej kategorii.
W polu tekstowym, które następuje od razu, rozdzielana przecinkami lista starych poziomów, które mają być mapowane na nowy poziom 1, wpisz lub wklej wyczerpującą listę wszystkich wartości, które mają być mapowane na nowy poziom. Symbole wieloznaczne i wyrażenia regularne nie są dozwolone.
Kontynuuj wpisywanie nazw nowego poziomu i wpisywanie lub wklejanie wartości, które powinny być mapowane na nowy poziom.
Zalecamy zapisanie listy wartości w osobnym pliku podczas pracy. Jeśli zmienisz liczbę poziomów, wszystkie ciągi, które zostały wcześniej wpisane, zostaną usunięte i musisz zacząć od początku.
Jeśli jednak edytujesz moduł, który został wcześniej zapisany, możesz przywrócić oryginalne ustawienia.
Uruchom eksperyment.
Wyniki
Aby wyświetlić wyniki, kliknij prawym przyciskiem myszy moduł Group Categorical Values (Grupowanie wartości kategorii), wybierz pozycję Results dataset (Zestaw danych wyników), a następnie kliknij pozycję Visualize (Wizualizacja).
Przykłady
Przykłady uczenia maszynowego w działaniu można znaleźć w Azure AI Gallery.
Możesz również wypróbować ten moduł samodzielnie, używając małego zestawu danych z pewnymi zmiennymi ciągów, które można łatwo pogrupować, na przykład zestawu danych Automobile price (Cena samochodów) dostępnego w programie Machine Learning Studio (wersja klasyczna).
Załóżmy, że chcesz pogrupować samochody w zestawie danych Automobile price (Cena samochodów) według rozmiaru silnika przy użyciu liczby cylindrów. Zamiast wielu różnych rozmiarów silników, utworzysz nowe poziomy " duże", "małe" i "inne" w następujący sposób:
- Duże silnika: co najmniej sześć cylindrów
- Małe silniki: dwa lub cztery cylindry
- Inne: wszystkie inne
- Dodaj moduł Select Columns in Dataset ( Wybieranie kolumn w zestawie danych) i wybierz tylko kolumnę
num-of-cylinders
. - Dodaj moduł Edit Metadata (Edytowanie metadanych ) i zmień kolumnę
num-of-cylinders
na Categorical (Podzielone na kategorii). - Dodaj moduł Group Categorical Values (Grupuj wartości podzielone na grupy) i połącz zmodyfikowany zestaw danych.
- W ustawieniach Nazwa poziomu domyślnego wpisz .
other
Nie musisz podaniem wartości dla tego poziomu. - W nazwa nowego poziomu 1, wpisz
big
. Na liście starych poziomów do mapowania na poziom 1 wklej tekstsix, eight, twelve
. - W nazwa nowego poziomu 2, wpisz
small
. Dla zamapowanych wartości wklej wartośćtwo, four
. - Uruchom eksperyment.
- Podczas wizualizowania wyników okazuje się, że oryginalny zestaw danych miał kilka nietypowych rozmiarów aparatu, które nie były uwzględnione, takich jak
five
ithree
. Wszystkie takie elementy są mapowane naother
poziom .
Uwagi techniczne
Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.
Może wystąpić komunikat o błędzie "Kolumna o nazwie "<nazwa_kolumny>" nie należy do dozwolonej kategorii".
Ten komunikat wskazuje, że wybrana kolumna nie jest kolumną kategorii. Możesz oznaczyć kolumnę jako za
Categorical
pomocą opcji Edytuj metadane lub wybrać inną kolumnę, która zawiera odpowiednie wartości kategorii.
Oczekiwane dane wejściowe
Nazwa | Typ | Opis |
---|---|---|
Zestaw danych | Tabela danych | Dane do grupowania |
Parametry modułu
Nazwa | Zakres | Typ | Domyślny | Opis |
---|---|---|---|---|
Wybrane kolumny | dowolny | ColumnSelection | CategoricalAll | Wybierz kolumny, które zostaną pogrupowane. |
Tryb danych wyjściowych | dowolny | Wyprowadźdo | ResultOnly | Określ sposób, w jaki mają być wyprowadzane etykiety kategorii. |
Domyślna nazwa poziomu | dowolny | Ciąg | Wskaż domyślny poziom do użycia, jeśli mapowania nie są zgodne. | |
Nowa liczba poziomów | Lista | Liczba grup | Określ liczbę poziomów po zgrupowaniu wartości, w tym poziom domyślny. |
Dane wyjściowe
Nazwa | Typ | Opis |
---|---|---|
Zestaw danych wyników | Tabela danych | Pogrupowane dane |