Auswerten verschiedener Clusteringtypen

Abgeschlossen

Trainieren eines Clustermodells

Für das Clustering stehen mehrere Algorithmen zur Verfügung. Einer der am häufigsten verwendeten Algorithmen ist das so genannte K-Means-Clustering, das in seiner einfachsten Form aus den folgenden Schritten besteht:

  1. Die Merkmalswerte werden vektorisiert, um n-dimensionale Koordinaten zu definieren (dabei ist n die Anzahl der Merkmale). Das Blumenbeispiel umfasst zwei Merkmale: die Anzahl der Blütenblätter und die Anzahl der Blätter. Der Featurevektor verfügt daher über zwei Koordinaten, mit denen wir die Datenpunkte konzeptionell in einen zweidimensionalen Raum zeichnen können.
  2. Sie entscheiden nun, wie viele Cluster zum Gruppieren der Blumen verwendet werden sollen, und nennen diesen Wert k. Wenn Sie z. B. drei Cluster erstellen möchten, verwenden Sie einen k-Wert von 3. Anschließend werden die k-Punkte an zufälligen Koordinaten dargestellt. Diese Punkte stellen dann die Mittelpunkte der einzelnen Cluster dar und werden daher auch als Schwerpunkte bezeichnet.
  3. Jeder Datenpunkt (in diesem Fall eine Blume) wird dem nächstliegenden Schwerpunkt zugewiesen.
  4. Jeder Schwerpunkt wird basierend auf der durchschnittlichen Entfernung zwischen den Punkten in die Mitte der ihm zugewiesenen Datenpunkte verschoben.
  5. Nach dem Verschieben des Schwerpunkts befinden sich die Datenpunkte jetzt möglicherweise näher an einem anderen Schwerpunkt und werden daher dem Cluster zugewiesen, dessen Schwerpunkt ihnen jetzt am nächsten liegt.
  6. Die Schwerpunkte werden so lange verschoben und die Cluster neu zugeordnet, bis die Cluster stabil sind oder eine vorher festgelegte Anzahl von Iterationen erreicht ist.

In der folgenden Animation wird dieser Vorgang veranschaulicht:

Abbildung: Mehrere Blumen mit unterschiedlicher Anzahl von Blüten und Blättern.

Hierarchisches Clustering

Hierarchisches Clustering ist ein weiterer Typ des Clusteringalgorithmus, bei dem die Cluster selbst zu einer größeren Gruppe gehören, die zu noch größeren Gruppen gehören usw. Das Ergebnis ist, dass Datenpunkte Cluster mit unterschiedlichen Genauigkeitsgraden sein können: mit einer großen Anzahl sehr kleiner und präziser Gruppen oder einer kleinen Anzahl größerer Gruppen.

Wenn Sie z. B. Clustering auf die Bedeutungen von Wörtern anwenden, könnten Sie eine Gruppe mit Adjektiven erhalten, die bestimmte Emotionen ausdrücken (z. B. „wütend“ oder „glücklich“). Diese Gruppe gehört zu einer Gruppe mit allen menschenbezogenen Adjektiven („glücklich“, „gutaussehend“, „jung“), die einer noch allgemeineren Gruppe angehört, die sämtliche Adjektive umfasst (z. B. „glücklich“, „grün“, „gutaussehend“, „hart“ usw.).

Abbildung: Hierarchisches Clustering.

Hierarchisches Clustering ist nicht nur nützlich, um Daten in Gruppen aufzuteilen, sondern auch, um die Beziehungen zwischen diesen Gruppen zu verstehen. Ein wesentlicher Vorteil beim hierarchischen Clustering besteht darin, dass die Anzahl der Cluster nicht im Vorfeld definiert werden muss. Zudem werden dadurch gelegentlich besser interpretierbare Ergebnisse geliefert als durch nicht hierarchische Ansätze. Der größte Nachteil besteht darin, dass diese Ansätze mehr Zeit für die Berechnung in Anspruch nehmen können als einfachere Ansätze, und manchmal sind sie nicht für umfangreiche Datasets geeignet.