Inleiding
Clustering is het proces van het groeperen van objecten met vergelijkbare objecten. In de onderstaande afbeelding hebben we bijvoorbeeld een verzameling 2D-coördinaten die zijn geclusterd in drie categorieën: linksboven (geel), onder (rood) en rechtsboven (blauw).
Een belangrijk verschil tussen clustering- en classificatiemodellen is dat clustering een methode zonder supervisie is, waarbij training zonder labels wordt uitgevoerd. Clusteringmodellen identificeren voorbeelden met een vergelijkbare verzameling functies. In de voorgaande afbeelding worden voorbeelden die zich op een vergelijkbare locatie bevinden, gegroepeerd.
Clustering is gebruikelijk en handig voor het verkennen van nieuwe gegevens waarbij patronen tussen gegevenspunten, zoals categorieën op hoog niveau, nog niet bekend zijn. Het wordt gebruikt in veel velden die complexe gegevens automatisch moeten labelen, waaronder analyse van sociale netwerken, hersenconnectiviteit, spamfilters, enzovoort.