Clustering
Clustering je forma nesupervisovaného strojového učení, ve kterém se pozorování seskupují do shluků na základě podobností v hodnotách dat nebo funkcích. Tento druh strojového učení se považuje za bez dohledu, protože nepoužívá dříve známé hodnoty popisků k trénování modelu. V modelu clusteringu je popiskem cluster, ke kterému je pozorování přiřazeno, pouze na základě jeho funkcí.
Příklad – clustering
Předpokládejme například, že botanista sleduje vzorek květin a zaznamenává počet listů a okvětních lístků na každé květině:
V datové sadě nejsou žádné známé popisky , pouze dvě funkce. Cílem není identifikovat různé typy (druhy) květin; stačí seskupit podobné květiny na základě počtu listů a okvětních lístků.
Listy (x1) | Okvětní lístky (x2) |
---|---|
0 | 5 |
0 | 6 |
1 | 3 |
1 | 3 |
1 | 6 |
1 | 8 |
2 | 3 |
2 | 7 |
2 | 8 |
Trénování modelu clusteringu
Pro clustering můžete použít několik algoritmů. Jedním z nejčastěji používaných algoritmů je clustering K-Means , který se skládá z následujících kroků:
- Hodnoty funkce (x) jsou vektorizovány k definování ndimenzionálních souřadnic (kde n je počet prvků). V příkladu květiny máme dvě funkce: počet listů (x1) a počet okvětních okvětí (x2). Vektor funkce má tedy dvě souřadnice, které můžeme použít k koncepčnímu vykreslení datových bodů v dvojrozměrném prostoru ([x1,x 2]).
- Rozhodnete se, kolik shluků chcete použít k seskupení květin – zavolejte tuto hodnotu k. Například k vytvoření tří clusterů byste použili hodnotu k 3. Pak se body k vykreslují na náhodných souřadnicích. Z těchto bodů se stanou středové body pro každý shluk, takže se označují jako centroidy.
- Každý datový bod (v tomto případě květina) je přiřazen k nejbližšímu centroidu.
- Každý centroid se přesune do středu datových bodů přiřazených na základě střední vzdálenosti mezi body.
- Po přesunutí centroidu mohou být datové body nyní blíže k jinému centroidu, takže datové body jsou znovu přiřazeny ke shlukům na základě nového nejbližšího centroidu.
- Kroky centroidového pohybu a relokace clusteru se opakují, dokud se clustery nepřestály nebo nedostanou předem určený maximální počet iterací.
Následující animace ukazuje tento proces:
Vyhodnocení modelu clusteringu
Vzhledem k tomu, že neexistuje žádný známý popisek, se kterým je potřeba porovnat předpovězená přiřazení clusteru, vyhodnocení modelu clusteringu vychází z toho, jak dobře jsou výsledné clustery vzájemně oddělené.
K vyhodnocení oddělení clusteru můžete použít několik metrik, mezi které patří:
- Průměrná vzdálenost ke středu clusteru: Jak blízko je v průměru každý bod v clusteru centroid clusteru.
- Průměrná vzdálenost k jinému středu: Jak blízko, v průměru, každý bod v clusteru je centroid všech ostatních shluků.
- Maximální vzdálenost ke středu clusteru: Nejbližší vzdálenost mezi bodem v clusteru a jeho centroidem.
- Silhouette: Hodnota mezi -1 a 1, která shrnuje poměr vzdálenosti mezi body ve stejném clusteru a body v různých shlukech (čím blíž k 1, tím lepší oddělení shluků).