Przypisywanie danych do klastrów
Ważne
Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.
Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).
- Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
- Dowiedz się więcej o Azure Machine Learning.
Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.
Przypisuje dane do klastrów przy użyciu istniejącego wytrenowany model klastrowania
Kategoria: Wynik
Uwaga
Dotyczy: tylko Machine Learning Studio (klasyczne)
Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.
Omówienie modułu
W tym artykule opisano sposób używania modułu Assign Data to Clusters (Przypisywanie danych do klastrów) w programie Machine Learning Studio (wersja klasyczna) w celu generowania przewidywań przy użyciu modelu klastrowania, który został wytrenowany przy użyciu algorytmu klastrowania K-węzłów.
Moduł zwraca zestaw danych, który zawiera prawdopodobne przypisania dla każdego nowego punktu danych. Tworzy również wykres PCA (Principal Component Analysis) ułatwiający wizualizację wymiarowości klastrów.
Ostrzeżenie
Ten moduł zastępuje moduł Assign to Clusters (deprecated) (Przypisywanie do klastrów — przestarzałe), który jest dostępny tylko w przypadku obsługi starszych eksperymentów.
Jak używać przypisywania danych do klastrów
W Machine Learning Studio (klasycznym) znajdź wcześniej wytrenowany model klastrowania. Model klastrowania można utworzyć i wytszkolić przy użyciu jednej z tych metod:
Skonfiguruj algorytm K-węzłów przy użyciu modułu klastrowania k-węzłów , a następnie wytrenuj model przy użyciu zestawu danych i modułu Train Clustering Model (Trenowanie modelu klastrowania ).
Skonfiguruj szereg opcji algorytmu K-średniego przy użyciu klastrowania K-węzłów , a następnie wytrenuj model przy użyciu modułu Czyszczenie klastrowania .
Możesz również dodać istniejący wytrenowany model klastrowania z grupy Zapisane modele w obszarze roboczym.
Dołącz wytrenowany model do lewego portu wejściowego w części Przypisywanie danych do klastrów.
Dołącz nowy zestaw danych jako dane wejściowe. W tym zestawie danych etykiety są opcjonalne. Ogólnie rzecz biorąc, klastrowanie jest metodą uczenia bez nadzoru, więc nie oczekuje się, że będziesz znać kategorie z wyprzedzeniem.
Jednak kolumny wejściowe muszą być takie same jak kolumny użyte do trenowania modelu klastrowania lub wystąpi błąd.
Porada
Aby zmniejszyć liczbę kolumn wyjściowych z przewidywań klastra, użyj opcji Wybierz kolumny w zestawie danych i wybierz podzbiór kolumn.
Pozostaw zaznaczoną opcję Sprawdź dołącz lub Usuń zaznaczenie dla opcji Tylko wynik, jeśli chcesz, aby wyniki zawierały pełny wejściowy zestaw danych wraz z kolumną wskazującą wyniki (przypisania klastra).
Usunięcie zaznaczenia tej opcji spowoduje powrót tylko do wyników. Może to być przydatne podczas tworzenia przewidywań w ramach usługi internetowej.
Uruchom eksperyment.
Wyniki
Moduł Assign Data to Clusters ( Przypisywanie danych do klastrów) zwraca dwa typy wyników w danych wyjściowych zestawu danych results:
Aby zobaczyć separację klastrów w modelu, kliknij dane wyjściowe modułu i wybierz pozycję Visualize ( Wizualizacja)
To polecenie wyświetla wykres analizy głównych składników (PCA), który mapuje kolekcję wartości w każdym klastrze na dwie osie składników.
- Pierwsza oś składnika to połączony zestaw cech, które przechwytują najwięcej wariancji w modelu. Jest on wykreślony na osi X (składnik główny 1).
- Następna oś składnika reprezentuje pewien połączony zestaw cech, które są układowe względem pierwszego składnika i które dodają kolejne informacje do wykresu. Jest on wykreślony na osi y (składnik główny 2).
Na wykresie można zobaczyć rozdzielenie między klastrami oraz sposób rozkładu klastrów wzdłuż osi reprezentujących główne składniki.
Aby wyświetlić tabelę wyników dla każdego przypadku w danych wejściowych, dołącz moduł Convert to Dataset (Konwertuj na zestaw danych) i zwizualizuje wyniki w programie Studio (wersja klasyczna).
Ten zestaw danych zawiera przypisania klastra dla każdego przypadku oraz metrykę odległości, która wskazuje, jak blisko centrum klastra znajduje się ten konkretny przypadek.
Nazwa kolumny wyjściowej Opis Przypisania Indeks oparty na wartości 0, który wskazuje klaster, do którego został przypisany punkt danych. DistancesToClusterCenter nie . n Dla każdego punktu danych ta wartość wskazuje odległość od punktu danych do środka przypisanego klastra oraz odległość do innych klastrów.
Metryka używana do obliczania odległości jest określana podczas konfigurowania modelu klastrowania K-średniej.
Oczekiwane dane wejściowe
Nazwa | Typ | Opis |
---|---|---|
Wytrenowany model | ICluster, interfejs | Wytrenowany model klastrowania |
Zestaw danych | Tabela danych | Wejściowe źródło danych |
Parametry modułu
Nazwa | Typ | Zakres | Opcjonalne | Domyślny | Opis |
---|---|---|---|---|---|
Dołączanie lub tylko wynik | Wymagane | TRUE | Wskaż, czy wyjściowy zestaw danych powinien zawierać wejściowy zestaw danych oraz wyniki, czy tylko wyniki | ||
Określanie trybu czyszczenie parametrów | Metody czyszczenie | List:Entire grid| Losowe czyszczenie | Wymagane | Losowe czyszczenie | Czyszczenie całej siatki w przestrzeni parametrów lub czyszczenie przy użyciu ograniczonej liczby przykładowych przebiegów |
Dane wyjściowe
Nazwa | Typ | Opis |
---|---|---|
Zestaw danych wyników | Tabela danych | Wejściowy zestaw danych dołączany tylko do kolumny danych przypisań lub przypisań |
Wyjątki
Wyjątek | Opis |
---|---|
Błąd 0003 | Wyjątek występuje, jeśli co najmniej jeden z danych wejściowych ma wartość null lub jest pusty. |