Klastrowanie

Ukończone

Klastrowanie to forma nienadzorowanego uczenia maszynowego, w której obserwacje są pogrupowane w klastry na podstawie podobieństw w ich wartościach danych lub funkcjach. Tego rodzaju uczenie maszynowe jest uznawane za nienadzorowane, ponieważ nie wykorzystuje wcześniej znanych wartości etykiet do trenowania modelu. W modelu klastrowania etykieta jest klastrem, do którego przypisano obserwację, tylko na podstawie jej funkcji.

Przykład — klastrowanie

Załóżmy na przykład, że botanista obserwuje próbkę kwiatów i rejestruje liczbę liści i płatków na każdym kwiatu:

Diagram of some flowers.

W zestawie danych nie ma znanych etykiet — tylko dwie funkcje. Celem nie jest zidentyfikowanie różnych typów (gatunków) kwiatów; po prostu grupować podobne kwiaty razem na podstawie liczby liści i płatków.

Liście (x1) Płatki (x2)
0 5
0 6
1 3
1 3
1 6
1 8
2 3
2 7
2 8

Trenowanie modelu klastrowania

Istnieje wiele algorytmów, których można użyć do klastrowania. Jednym z najczęściej używanych algorytmów jest klaster K-Średnich , który składa się z następujących kroków:

  1. Wartości funkcji (x) są wektoryzowane do definiowania współrzędnych nwymiarowych (gdzie n jest liczbą cech). W przykładzie kwiatu mamy dwie cechy: liczbę liści (x1) i liczbę płatków (x2). Dlatego wektor funkcji ma dwie współrzędne, których możemy użyć do koncepcyjnego wykreślenia punktów danych w dwuwymiarowej przestrzeni ([x1,x 2])
  2. Decydujesz, ile klastrów chcesz użyć do grupowania kwiatów — wywołaj tę wartość k. Aby na przykład utworzyć trzy klastry, należy użyć wartości k równej 3. Następnie punkty k są kreśline na losowych współrzędnych. Punkty te stają się centralnymi punktami dla każdego klastra, więc są nazywane centroidami.
  3. Każdy punkt danych (w tym przypadku kwiat) jest przypisany do najbliższego centroidu.
  4. Każdy centroid jest przenoszony do środka przypisanych do niego punktów danych na podstawie średniej odległości między punktami.
  5. Po przeniesieniu centroid punkty danych mogą być teraz bliżej innego centroidu, więc punkty danych są ponownie przypisywane do klastrów na podstawie nowego najbliższego centroidu.
  6. Kroki przenoszenia centroidu i lokalizacji klastra są powtarzane do momentu, aż klastry staną się stabilne lub zostanie osiągnięta wstępnie określona maksymalna liczba iteracji.

Poniższa animacja przedstawia ten proces:

Diagram of an animation showing the k-means clustering process.

Ocenianie modelu klastrowania

Ponieważ nie ma znanej etykiety, z którą można porównać przewidywane przypisania klastra, ocena modelu klastrowania zależy od tego, jak dobrze wynikowe klastry są oddzielone od siebie.

Istnieje wiele metryk, których można użyć do oceny separacji klastra, w tym:

  • Średnia odległość do centrum klastra: Jak blisko, średnio, każdy punkt w klastrze jest do centroid klastra.
  • Średnia odległość do innego centrum: Jak blisko, średnio, każdy punkt w klastrze jest do centroid wszystkich innych klastrów.
  • Maksymalna odległość do środka klastra: najdalejsza odległość między punktem w klastrze a jego centroidem.
  • Sylwetka: Wartość z zakresu od -1 do 1, która podsumowuje stosunek odległości między punktami w tym samym klastrze i punktami w różnych klastrach (im bliżej 1, tym lepiej rozdzielać klaster).