Freigeben über


Clusterwerte

Clusterwerte erstellen mithilfe eines Fuzzy-Matching-Algorithmus automatisch Gruppen mit ähnlichen Werten und ordnen dann den Wert jeder Spalte der Gruppe zu, die am besten passt. Diese Transformation ist sehr nützlich, wenn Sie mit Daten arbeiten, die viele verschiedene Variationen desselben Werts enthalten, und wenn Sie Werte zu konsistenten Gruppen zusammenfassen müssen.

Nehmen wir eine Beispieltabelle mit einer ID-Spalte, die eine Reihe von IDs enthält, und einer Spalte Person, die eine Reihe von unterschiedlich geschriebenen und großgeschriebenen Versionen der Namen Miguel, Mike, William und Bill enthält.

Screenshot der Tabelle mit neun Zeilen von Einträgen, die verschiedene Schreibweisen und Großbuchstaben der Namen Miguel und William enthalten.

In diesem Beispiel ist das Ergebnis, nach dem Sie suchen, eine Tabelle mit einer neuen Spalte, die die richtigen Gruppen von Werten aus der Spalte Person anzeigt und nicht all die verschiedenen Variationen der gleichen Wörter.

Screenshot der gruppierten Werte als neue Spalte namens „Cluster“ in der Anfangstabelle.

Hinweis

Die Funktion Clusterwerte ist nur für Power Query Online verfügbar.

Erstellen einer Clusterspalte

Um Werte zu clustern, markieren Sie zunächst die Spalte Person, gehen Sie in der Multifunktionsleiste auf die Registerkarte Spalte hinzufügen und wählen Sie dann die Option Clusterwerte.

Screenshot des Symbols „Clusterwerte“ auf der Registerkarte „Spalte hinzufügen“ im Power Query-Onlinemenüband.

Bestätigen Sie im Dialogfeld Clusterwerte die Spalte, die Sie für die Erstellung der Cluster verwenden möchten, und geben Sie den neuen Namen der Spalte ein. Für diesen Fall nennen Sie diese neue Spalte Cluster.

Screenshot des Fensters mit gruppierten Werten mit ausgewählter Spalte „Person

Das Ergebnis dieses Vorgangs ist in der folgenden Abbildung dargestellt.

Screenshot der gruppierten Werte als neue Spalte namens „Cluster“ in der Anfangstabelle.

Hinweis

Für jeden Wertecluster wählt Power Query die häufigste Instanz aus der ausgewählten Spalte als „kanonische“ Instanz aus. Wenn mehrere Instanzen mit der gleichen Häufigkeit auftreten, wählt Power Query die erste aus.

Verwendung der Fuzzy-Cluster-Optionen

Für das Clustern von Werten in einer neuen Spalte stehen Ihnen die folgenden Optionen zur Verfügung:

  • Ähnlichkeitsschwelle (optional): Diese Option gibt an, wie ähnlich zwei Werte sein müssen, damit sie zusammen gruppiert werden. Die minimale Einstellung von 0 bewirkt, dass alle Werte zusammen gruppiert werden. Bei der maximalen Einstellung von 1 werden nur Werte, die genau übereinstimmen, gruppiert. Der Standardwert ist 0,8.
  • Schreibung ignorieren: Beim Vergleich von Textzeichenfolgen wird die Groß- und Kleinschreibung ignoriert. Diese Option ist standardmäßig aktiviert.
  • Gruppieren durch Kombinieren von Textteilen: Der Algorithmus versucht, Textteile zu kombinieren (z. B. Micro und Soft zu Microsoft), um Werte zu gruppieren.
  • Anzeigen von Ähnlichkeitswerten: Zeigt die Ähnlichkeitswerte zwischen den Eingabewerten und den berechneten repräsentativen Werten nach dem Fuzzy-Clustering an.
  • Transformationstabelle (optional): Sie können eine Transformationstabelle auswählen, die Werte zuordnet (z.B. MSFT zu Microsoft), um sie zusammenzufassen.

In diesem Beispiel wird eine neue Transformationstabelle mit dem Namen Meine Transformationstabelle verwendet, um zu zeigen, wie Werte zugeordnet werden können. Diese Transformationstabelle hat zwei Spalten:

  • Von: Die Textzeichenfolge, nach der Sie in Ihrer Tabelle suchen.
  • Bis: Die Textzeichenfolge, mit der die Textzeichenfolge in der Spalte Von ersetzt werden soll.

Screenshot der Tabelle mit den „Von“-Werten von mike und William und „Bis“-Werte von Miguel und Bill.

Wichtig

Es ist wichtig, dass die Transformationstabelle dieselben Spalten und Spaltennamen hat wie in der vorherigen Abbildung (sie müssen „Von“ und „Bis“ heißen). Andernfalls erkennt Power Query diese Tabelle nicht als Transformationstabelle, und es findet keine Transformation statt.

Verwenden Sie die zuvor erstellte Abfrage, doppelklicken Sie auf den Schritt Clusterwerte und erweitern Sie dann im Dialogfeld Clusterwerte die Fuzzy-Cluster-Optionen. Aktivieren Sie unter Fuzzy-Cluster-Optionen die Option Ähnlichkeitswerte anzeigen. Wählen Sie für Transformationstabelle (optional) die Abfrage aus, die die Transformationstabelle enthält.

Screenshot der Fuzzycluster-Optionen, in dem das Dropdown-Menü der Transformationstabelle auf die Beispieltransformationstabelle festgelegt wurde.

Nachdem Sie Ihre Transformationstabelle ausgewählt und die Option Ähnlichkeitswerte anzeigen aktiviert haben, wählen Sie OK. Als Ergebnis dieser Operation erhalten Sie eine Tabelle, die dieselben Spalten ID und Person enthält wie die Originaltabelle, aber zusätzlich zwei neue Spalten mit den Namen Cluster und Person_Cluster_Similarity umfasst. Die Clusterspalte enthält die richtig geschriebenen und großgeschriebenen Versionen der Namen Miguel für Versionen von Miguel und Mike und William für Versionen von Bill, Billy und William. Die Spalte Person_Cluster_Similarity enthält die Ähnlichkeitsbewertungen für jeden der Namen.

Screenshot der Tabelle mit den neuen Spalten „Cluster“ und „Person_Cluster_Similarity“.

Grundsätze der Transformationstabelle

Möglicherweise stellen Sie fest, dass die Transformationstabelle im vorherigen Abschnitt darauf hindeutet, dass Instanzen von Mike in Miguel geändert werden und Instanzen von William in Bill geändert werden. In der resultierenden Tabelle wurden jedoch die Instanzen von Bill und „billy“ stattdessen in William geändert. Die Transformationstabelle ist kein direkter Pfad von Von zuZu, sondern während des Clusterings symmetrisch, was bedeutet, dass „Mike“ „Miguel“ entspricht und umgekehrt. Das Ergebnis der in der Transformationstabelle angegebenen Entsprechungen hängt von den folgenden Regeln ab:

  • Wenn es überwiegend identische Werte gibt, haben diese Vorrang vor nicht identischen Werten.
  • Wenn es keine Mehrheit von Werten gibt, hat der Wert Vorrang, der zuerst angezeigt wird.

In der ursprünglichen Tabelle, die in diesem Artikel verwendet wird, bilden die Versionen von Miguel (sowohl "miguel" als auch Miguel) in der Spalte Person die Mehrheit der Instanzen des Namens Miguel und Mike. Darüber hinaus macht der Name Miguel mit großem Anfangsbuchstaben die Mehrheit des Namens Miguel aus. Das Zuordnen von Miguel und seinen Ableitungen sowie Mike und seinen Ableitungen in der Transformationstabelle führt dazu, dass der Name Miguel in der Spalte Cluster verwendet wird.

Für die Namen William, Bill und "billy" gibt es jedoch keine Mehrheit der Werte, da alle drei eindeutig sind. Da William zuerst angezeigt wird, wird William in der Spalte Cluster verwendet. Wenn in der Tabelle zuerst „billy“ angezeigt werden würde, würde „billy in der Spalte Cluster verwendet werden. Da keine Mehrheit von Werten vorhanden ist, wird auch die von den einzelnen Namen verwendete Groß-/Kleinschreibung verwendet. Wenn also zuerst William angezeigt wird, wird William mit dem Großbuchstaben „W“ als Ergebniswert verwendet; wenn zuerst „billy“ angezeigt wird, wird „billy“ mit einem kleinen „b“ verwendet.