Klastrowanie
Klastrowanie to forma nienadzorowanego uczenia maszynowego, w której obserwacje są pogrupowane w klastry na podstawie podobieństw w ich wartościach danych lub funkcjach. Tego rodzaju uczenie maszynowe jest uznawane za nienadzorowane, ponieważ nie wykorzystuje wcześniej znanych wartości etykiet do trenowania modelu. W modelu klastrowania etykieta jest klastrem, do którego przypisano obserwację, tylko na podstawie jej funkcji.
Przykład — klastrowanie
Załóżmy na przykład, że botanista obserwuje próbkę kwiatów i rejestruje liczbę liści i płatków na każdym kwiatu:
W zestawie danych nie ma znanych etykiet — tylko dwie funkcje. Celem nie jest zidentyfikowanie różnych typów (gatunków) kwiatów; po prostu grupować podobne kwiaty razem na podstawie liczby liści i płatków.
Liście (x1) | Płatki (x2) |
---|---|
0 | 5 |
0 | 6 |
1 | 3 |
1 | 3 |
1 | 6 |
1 | 8 |
2 | 3 |
2 | 7 |
2 | 8 |
Trenowanie modelu klastrowania
Istnieje wiele algorytmów, których można użyć do klastrowania. Jednym z najczęściej używanych algorytmów jest klaster K-Średnich , który składa się z następujących kroków:
- Wartości funkcji (x) są wektoryzowane do definiowania współrzędnych nwymiarowych (gdzie n jest liczbą cech). W przykładzie kwiatu mamy dwie cechy: liczbę liści (x1) i liczbę płatków (x2). Dlatego wektor funkcji ma dwie współrzędne, których możemy użyć do koncepcyjnego wykreślenia punktów danych w dwuwymiarowej przestrzeni ([x1,x 2])
- Decydujesz, ile klastrów chcesz użyć do grupowania kwiatów — wywołaj tę wartość k. Aby na przykład utworzyć trzy klastry, należy użyć wartości k równej 3. Następnie punkty k są kreśline na losowych współrzędnych. Punkty te stają się centralnymi punktami dla każdego klastra, więc są nazywane centroidami.
- Każdy punkt danych (w tym przypadku kwiat) jest przypisany do najbliższego centroidu.
- Każdy centroid jest przenoszony do środka przypisanych do niego punktów danych na podstawie średniej odległości między punktami.
- Po przeniesieniu centroid punkty danych mogą być teraz bliżej innego centroidu, więc punkty danych są ponownie przypisywane do klastrów na podstawie nowego najbliższego centroidu.
- Kroki przenoszenia centroidu i lokalizacji klastra są powtarzane do momentu, aż klastry staną się stabilne lub zostanie osiągnięta wstępnie określona maksymalna liczba iteracji.
Poniższa animacja przedstawia ten proces:
Ocenianie modelu klastrowania
Ponieważ nie ma znanej etykiety, z którą można porównać przewidywane przypisania klastra, ocena modelu klastrowania zależy od tego, jak dobrze wynikowe klastry są oddzielone od siebie.
Istnieje wiele metryk, których można użyć do oceny separacji klastra, w tym:
- Średnia odległość do centrum klastra: Jak blisko, średnio, każdy punkt w klastrze jest do centroid klastra.
- Średnia odległość do innego centrum: Jak blisko, średnio, każdy punkt w klastrze jest do centroid wszystkich innych klastrów.
- Maksymalna odległość do środka klastra: najdalejsza odległość między punktem w klastrze a jego centroidem.
- Sylwetka: Wartość z zakresu od -1 do 1, która podsumowuje stosunek odległości między punktami w tym samym klastrze i punktami w różnych klastrach (im bliżej 1, tym lepiej rozdzielać klaster).