Clustering

Dokončeno

Clustering je forma nesupervisovaného strojového učení, ve kterém se pozorování seskupují do shluků na základě podobností v hodnotách dat nebo funkcích. Tento druh strojového učení se považuje za bez dohledu, protože nepoužívá dříve známé hodnoty popisků k trénování modelu. V modelu clusteringu je popiskem cluster, ke kterému je pozorování přiřazeno, pouze na základě jeho funkcí.

Příklad – clustering

Předpokládejme například, že botanista sleduje vzorek květin a zaznamenává počet listů a okvětních lístků na každé květině:

Diagram of some flowers.

V datové sadě nejsou žádné známé popisky , pouze dvě funkce. Cílem není identifikovat různé typy (druhy) květin; stačí seskupit podobné květiny na základě počtu listů a okvětních lístků.

Listy (x1) Okvětní lístky (x2)
0 5
0 6
1 3
1 3
1 6
1 8
2 3
2 7
2 8

Trénování modelu clusteringu

Pro clustering můžete použít několik algoritmů. Jedním z nejčastěji používaných algoritmů je clustering K-Means , který se skládá z následujících kroků:

  1. Hodnoty funkce (x) jsou vektorizovány k definování ndimenzionálních souřadnic (kde n je počet prvků). V příkladu květiny máme dvě funkce: počet listů (x1) a počet okvětních okvětí (x2). Vektor funkce má tedy dvě souřadnice, které můžeme použít k koncepčnímu vykreslení datových bodů v dvojrozměrném prostoru ([x1,x 2]).
  2. Rozhodnete se, kolik shluků chcete použít k seskupení květin – zavolejte tuto hodnotu k. Například k vytvoření tří clusterů byste použili hodnotu k 3. Pak se body k vykreslují na náhodných souřadnicích. Z těchto bodů se stanou středové body pro každý shluk, takže se označují jako centroidy.
  3. Každý datový bod (v tomto případě květina) je přiřazen k nejbližšímu centroidu.
  4. Každý centroid se přesune do středu datových bodů přiřazených na základě střední vzdálenosti mezi body.
  5. Po přesunutí centroidu mohou být datové body nyní blíže k jinému centroidu, takže datové body jsou znovu přiřazeny ke shlukům na základě nového nejbližšího centroidu.
  6. Kroky centroidového pohybu a relokace clusteru se opakují, dokud se clustery nepřestály nebo nedostanou předem určený maximální počet iterací.

Následující animace ukazuje tento proces:

Diagram of an animation showing the k-means clustering process.

Vyhodnocení modelu clusteringu

Vzhledem k tomu, že neexistuje žádný známý popisek, se kterým je potřeba porovnat předpovězená přiřazení clusteru, vyhodnocení modelu clusteringu vychází z toho, jak dobře jsou výsledné clustery vzájemně oddělené.

K vyhodnocení oddělení clusteru můžete použít několik metrik, mezi které patří:

  • Průměrná vzdálenost ke středu clusteru: Jak blízko je v průměru každý bod v clusteru centroid clusteru.
  • Průměrná vzdálenost k jinému středu: Jak blízko, v průměru, každý bod v clusteru je centroid všech ostatních shluků.
  • Maximální vzdálenost ke středu clusteru: Nejbližší vzdálenost mezi bodem v clusteru a jeho centroidem.
  • Silhouette: Hodnota mezi -1 a 1, která shrnuje poměr vzdálenosti mezi body ve stejném clusteru a body v různých shlukech (čím blíž k 1, tím lepší oddělení shluků).