Grupowanie wartości kategorii

Artykuł
05/06/2019

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
Dowiedz się więcej o Azure Machine Learning.

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Grupuje dane z wielu kategorii do nowej kategorii

Kategoria: Przekształcanie/manipulowanie danymi

Uwaga

Dotyczy: Machine Learning Studio (wersja klasyczna)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule opisano sposób tworzenia tabeli odnośników w miejscu przy użyciu modułu Grupuj wartości podzielone na grupy w programie Machine Learning Studio (wersja klasyczna).

Typowym zastosowaniem grupowania wartości kategorii jest scalanie wielu wartości ciągu w jeden nowy poziom. Można na przykład przypisać poszczególne kody pocztowe w regionie do jednego kodu regionalnego lub pogrupować wiele produktów w ramach jednej kategorii.

Aby użyć tego modułu, wpisz wartości odnośników, których chcesz użyć, i zamapuj istniejące wartości na wartości zastępcze. Grupowania można tworzyć tylko dla kolumn kategorii, a nie kolumn typu liczbowego lub kolumn oznaczonych jako etykiety lub cechy.

Wszystkie wartości kolumn, które nie są jawnie mapowane na nowy poziom, są przypisywane do poziomu domyślnego. Jeśli na przykład nie zamapowanie wszystkich poszczególnych kodów pocztowych, zostaną one pogrupowane na poziomie dla niezamapowanych wartości, które można nazwać Nieznane.

Uwaga

Można utworzyć maksymalnie 20 nowych poziomów, w tym poziom domyślny. Jeśli potrzebujesz większej liczby wartości lub musisz dynamicznie definiować mapowania, zalecamy użycie niestandardowego skryptu R w module Wykonywanie skryptu R . Możesz też użyć SQL w module Apply SQL Transformation (Stosowanie SQL przekształcenia).

How to use Group Categorical Values

Zalecamy, aby wcześniej przygotować listę istniejących wartości i nowe kategorie. Dla każdej kategorii należy przygotować nową nazwę kategorii i rozdzielaną przecinkami listę wartości do dołączyć do kategorii.

Dodaj moduł Group Categorical Values (Grupuj wartości podzielone na grupy) do eksperymentu. Moduł można znaleźć w obszarze Przekształcanie danych, Manipulowanie.
Połączenie zestaw danych, który zawiera wartości, które chcesz przekształcić.
W okienkuWłaściwości grupy Wartości podzielone na grupy użyj selektora kolumn, aby wybrać kolumnę zawierającą poziomy, które chcesz zmniejszyć.
- Zalecamy kliknięcie przycisku ROZPOCZNIJ OD i BRAK KOLUMN , aby rozpocząć, a następnie dodanie kolumn według nazwy. W przeciwnym razie jako kandydatów może zostać dodanych zbyt wiele kolumn, co prowadzi do błędu.
- Kolumna musi być kolumną kategorii. Jeśli tak nie jest, dodaj pozycję Edytuj metadane nadrzędne i zmień typ kolumny.
- Pamiętaj, aby usunąć z danych wejściowych wszystkie kolumny, do których nie należy stosować zastępowania ciągów.
W przypadku trybu danych wyjściowych wskaż, czy chcesz wyświetlić dane wyjściowe tylko dla nowych poziomów, czy dołączyć zmiany w celu zobaczenia oryginalnej kolumny ze zamianami obok siebie.

Wartość domyślna , ResultOnly, pokazuje tylko nowe wartości. Opcja Inplace zastępuje istniejące wartości kolumn nowymi poziomami.
W domyślnej nazwy poziomu, wpisz wartość ciągu do użycia jako zamiennik dla wszystkich wartości, które nie są jawnie mapowane. Możesz użyć czegoś takiego jak "Nieznany" lub "Domyślny".

Uwaga

Ta domyślna wartość poziomu jest stosowana do wszystkich wartości, których nie można zamapować. Jeśli przypadkowo doszliśmy do kolumn, których nie zamierzaliśmy mapować, wartość zostanie zastosowana do wszystkich wartości w kolumnach. Dlatego przed rozpoczęciem przetwarzania sprawdź, czy wybór kolumny jest dokładny.
W nowe liczby poziomów, wpisz liczbę, która wskazuje łączną liczbę nowych kategorii (poziomy), łącznie z domyślnym poziomem niezamapowanych wartości.
W przypadku pola Nazwa nowego poziomu 1 podaj nową nazwę grupy dla pierwszej kategorii.
W polu tekstowym, które następuje od razu, rozdzielana przecinkami lista starych poziomów, które mają być mapowane na nowy poziom 1, wpisz lub wklej wyczerpującą listę wszystkich wartości, które mają być mapowane na nowy poziom. Symbole wieloznaczne i wyrażenia regularne nie są dozwolone.
Kontynuuj wpisywanie nazw nowego poziomu i wpisywanie lub wklejanie wartości, które powinny być mapowane na nowy poziom.

Zalecamy zapisanie listy wartości w osobnym pliku podczas pracy. Jeśli zmienisz liczbę poziomów, wszystkie ciągi, które zostały wcześniej wpisane, zostaną usunięte i musisz zacząć od początku.

Jeśli jednak edytujesz moduł, który został wcześniej zapisany, możesz przywrócić oryginalne ustawienia.
Uruchom eksperyment.

Wyniki

Aby wyświetlić wyniki, kliknij prawym przyciskiem myszy moduł Group Categorical Values (Grupowanie wartości kategorii), wybierz pozycję Results dataset (Zestaw danych wyników), a następnie kliknij pozycję Visualize (Wizualizacja).

Przykłady

Przykłady uczenia maszynowego w działaniu można znaleźć w Azure AI Gallery.

Możesz również wypróbować ten moduł samodzielnie, używając małego zestawu danych z pewnymi zmiennymi ciągów, które można łatwo pogrupować, na przykład zestawu danych Automobile price (Cena samochodów) dostępnego w programie Machine Learning Studio (wersja klasyczna).

Załóżmy, że chcesz pogrupować samochody w zestawie danych Automobile price (Cena samochodów) według rozmiaru silnika przy użyciu liczby cylindrów. Zamiast wielu różnych rozmiarów silników, utworzysz nowe poziomy " duże", "małe" i "inne" w następujący sposób:

Duże silnika: co najmniej sześć cylindrów
Małe silniki: dwa lub cztery cylindry
Inne: wszystkie inne

Dodaj moduł Select Columns in Dataset ( Wybieranie kolumn w zestawie danych) i wybierz tylko kolumnę num-of-cylinders .
Dodaj moduł Edit Metadata (Edytowanie metadanych ) i zmień kolumnę num-of-cylinders na Categorical (Podzielone na kategorii).
Dodaj moduł Group Categorical Values (Grupuj wartości podzielone na grupy) i połącz zmodyfikowany zestaw danych.
W ustawieniach Nazwa poziomu domyślnego wpisz .other Nie musisz podaniem wartości dla tego poziomu.
W nazwa nowego poziomu 1, wpisz big. Na liście starych poziomów do mapowania na poziom 1 wklej tekst six, eight, twelve.
W nazwa nowego poziomu 2, wpisz small. Dla zamapowanych wartości wklej wartość two, four.
Uruchom eksperyment.
Podczas wizualizowania wyników okazuje się, że oryginalny zestaw danych miał kilka nietypowych rozmiarów aparatu, które nie były uwzględnione, takich jak five i three. Wszystkie takie elementy są mapowane na other poziom .

Uwagi techniczne

Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.

Może wystąpić komunikat o błędzie "Kolumna o nazwie "<nazwa_kolumny>" nie należy do dozwolonej kategorii".

Ten komunikat wskazuje, że wybrana kolumna nie jest kolumną kategorii. Możesz oznaczyć kolumnę jako za Categorical pomocą opcji Edytuj metadane lub wybrać inną kolumnę, która zawiera odpowiednie wartości kategorii.

Oczekiwane dane wejściowe

Nazwa	Typ	Opis
Zestaw danych	Tabela danych	Dane do grupowania

Parametry modułu

Nazwa	Zakres	Typ	Domyślny	Opis
Wybrane kolumny	dowolny	ColumnSelection	CategoricalAll	Wybierz kolumny, które zostaną pogrupowane.
Tryb danych wyjściowych	dowolny	Wyprowadźdo	ResultOnly	Określ sposób, w jaki mają być wyprowadzane etykiety kategorii.
Domyślna nazwa poziomu	dowolny	Ciąg		Wskaż domyślny poziom do użycia, jeśli mapowania nie są zgodne.
Nowa liczba poziomów	Lista	Liczba grup		Określ liczbę poziomów po zgrupowaniu wartości, w tym poziom domyślny.

Dane wyjściowe

Nazwa	Typ	Opis
Zestaw danych wyników	Tabela danych	Pogrupowane dane

Zobacz też

Manipulacji
Przekształcanie danych
Lista modułów A–Z

Udostępnij za pośrednictwem