Co to jest klastrowanie?
Klastrowanie to forma nienadzorowanego uczenia maszynowego, w której obserwacje są pogrupowane w klastry na podstawie podobieństw w ich wartościach danych lub funkcjach. Tego rodzaju uczenie maszynowe jest uznawane za nienadzorowane, ponieważ nie wykorzystuje wcześniej znanych wartości etykiet do trenowania modelu. W modelu klastrowania etykieta jest klastrem, do którego przypisano obserwację, tylko na podstawie jej funkcji.
Załóżmy na przykład, że botanista obserwuje próbkę kwiatów i rejestruje liczbę płatków i liści na każdym kwiatu.
Może być przydatne pogrupowanie tych kwiatów w klastry na podstawie podobieństw między ich funkcjami.
Istnieje wiele sposobów określania tego grupowania. Jeśli na przykład większość kwiatów ma taką samą liczbę liści, można je zgrupować w kwiaty z wieloma a kilkoma płatkami. Alternatywnie, jeśli zarówno płatki, jak i liście różnią się znacznie, może być wzór do odkrycia, takich jak kwiaty z wieloma liśćmi również o wielu płatkach. Celem algorytmu klastrowania jest znalezienie optymalnego sposobu dzielenia zestawu danych na grupy. To, co optymalne oznacza, zależy zarówno od używanego algorytmu, jak i dostarczonego zestawu danych.
Chociaż ten przykład kwiat jest łatwy do kategoryzowania tylko z kilkoma próbkami, ponieważ zestaw danych rośnie do tysięcy próbek lub do więcej niż dwóch funkcji, algorytmy klastrowania stają się przydatne do szybkiego sortowania zestawu danych w grupach.