Wat is clustering?
Clustering is een vorm van machine learning zonder supervisie waarin waarnemingen worden gegroepeerd in clusters op basis van overeenkomsten in hun gegevenswaarden of functies. Dit soort machine learning wordt beschouwd als niet onder supervisie omdat er geen gebruik wordt gemaakt van eerder bekende labelwaarden om een model te trainen. In een clusteringmodel is het label het cluster waaraan de observatie is toegewezen, alleen op basis van de functies ervan.
Stel dat een biochemisch een steekproef van bloemen bekijkt en het aantal bloemblaadjes en bladeren op elke bloem registreert.
Het kan handig zijn om deze bloemen te groeperen in clusters op basis van overeenkomsten tussen hun kenmerken.
Er zijn veel manieren om deze groepering te bepalen. Als de meeste bloemen bijvoorbeeld hetzelfde aantal bladeren hebben, kunnen ze worden gegroepeerd in bloemen met veel versus weinig bloemblaadjes. Als het aantal bloemblaadjes en bladblaadjes aanzienlijk varieert, kan er ook een patroon zijn om te ontdekken, zoals bloemen met veel bladeren ook veel bloemblaadjes. Het doel van het clusteringalgoritme is om de optimale manier te vinden om de gegevensset op te splitsen in groepen. Wat optimaal betekent, is afhankelijk van zowel het gebruikte algoritme als de gegevensset die wordt geleverd.
Hoewel dit bloemvoorbeeld eenvoudig te categoriseren is met slechts enkele voorbeelden, wordt de gegevensset naarmate de gegevensset groeit tot duizenden voorbeelden of meer dan twee functies, clusteringalgoritmen nuttig om snel een gegevensset in groepen te sorteren.