Was ist Clustering?
Bei Clustering handelt es sich um eine Form des unüberwachten maschinellen Lernens, bei dem Beobachtungen auf der Grundlage von Ähnlichkeiten in ihren Datenwerten oder Merkmalen in Clustern gruppiert werden. Diese Art von maschinellem Lernen wird als nicht überwacht betrachtet, da keine zuvor bekannten Bezeichnungswerte zum Trainieren eines Modells verwendet werden. In einem Clustermodell entspricht die Bezeichnung dem Cluster, dem die Beobachtung basierend auf den zugehörigen Features zugewiesen wird.
Angenommen, ein Botaniker analysiert eine Ansammlung von Blumen und erfasst für jede Blume die Anzahl ihrer Blütenblätter und Blätter.
Nun sollen die Blumen auf der Grundlage der Ähnlichkeiten ihrer Merkmale in Cluster gruppiert werden.
Es gibt viele Möglichkeiten, diese Gruppierung zu bestimmen. Wenn beispielsweise die meisten Blumen dieselbe Anzahl von Blättern aufweisen, können sie in solche mit vielen und solche mit wenigen Blütenblättern gruppiert werden. Wenn sowohl die Anzahl der Blütenblätter als auch die Anzahl der Blätter stark variiert, lässt sich möglicherweise ein Muster erkennen, z. B. dass diejenigen mit vielen Blättern auch viele Blütenblätter aufweisen. Das Ziel des Clusteringalgorithmus besteht darin, die optimale Methode zum Aufteilen des Datasets in Gruppen zu finden. Was optimal bedeutet, hängt sowohl vom verwendeten Algorithmus als auch vom bereitgestellten Dataset ab.
Bei diesem Blumenbeispiel ist anhand weniger Stichproben eine einfache Kategorisierung möglich. Wenn das Dataset jedoch auf Tausende von Stichproben oder auf mehr als zwei Merkmale anwächst, sind Clusteringalgorithmen nützlich, um ein Dataset schnell in Gruppen zu unterteilen.