Freigeben über


Fuzzy-Zusammenführung

Fuzzyzusammenführung ist eine intelligente Datenvorbereitungsfunktion, mit der Sie beim Vergleich von Spalten Fuzzyübereinstimmung-Algorithmen anwenden können. Diese Algorithmen versuchen, Übereinstimmungen in den zusammenzuführenden Tabellen zu finden.

Sie können die Fuzzyübereinstimmung am unteren Rand des Dialogfelds Zusammenführen aktivieren, indem Sie die Optionsschaltfläche Unscharfen Abgleich für die Zusammenführung verwenden auswählen. Weitere Informationen: Übersicht über die Zusammenführungsvorgänge

Hinweis

Fuzzyübereinstimmung wird nur bei Zusammenführungsoperationen über Textspalten unterstützt. Power Query verwendet den Jaccard-Ähnlichkeitsalgorithmus, um die Ähnlichkeit zwischen Paaren von Instanzen zu messen.

Beispielszenario

Ein häufiger Anwendungsfall für die Fuzzyübereinstimmung sind Freiform-Textfelder, z. B. in einer Umfrage. Für diesen Artikel wurde die Beispieltabelle direkt aus einer Online-Umfrage entnommen, die mit nur einer Frage an eine Gruppe geschickt wurde: Was ist Ihr Lieblingsobst?

Die Ergebnisse dieser Umfrage sind in der folgenden Abbildung dargestellt.

Beispielumfrage mit unformatierten Einträgen.

Screenshot der Beispieltabelle der Umfrage, die das Spaltenverteilungsdiagramm mit neun verschiedenen Antworten enthält, wobei alle Antworten eindeutig sind, sowie die Antworten auf die Umfrage mit allen Tippfehlern, Plural oder Singular und Groß-/Kleinschreibungsproblemen.

Die neun Datensätze spiegeln die Eingaben der Umfrage wider. Das Problem bei den Umfragen ist, dass einige Tippfehler enthalten, einige sind im Plural, einige im Singular, einige sind in Großbuchstaben und einige in Kleinbuchstaben geschrieben.

Um diese Werte zu vereinheitlichen, gibt es in diesem Beispiel eine Referenztabelle Fruits.

Verweistabelle Obst.

Screenshot der Obst-Referenztabelle mit einem Säulenverteilungsdiagramm, das vier verschiedene Früchte zeigt, wobei alle Früchte einzigartig sind, sowie die Liste der Früchte: Apfel, Ananas, Wassermelone und Banane.

Hinweis

Der Einfachheit halber enthält diese Referenztabelle Fruits nur die Namen der Früchte, die für dieses Szenario benötigt werden. Ihre Referenztabelle kann so viele Zeilen haben, wie Sie benötigen.

Ziel ist es, eine Tabelle wie die folgende zu erstellen, in der Sie all diese Werte standardisiert haben, damit Sie weitere Analysen durchführen können.

Beispiel Umfrageausgabetabelle.

Screenshot der Ausgabetabelle der Beispielumfrage mit der Spalte „Frage“, die das Spaltenverteilungsdiagramm enthält. Das Diagramm zeigt neun unterschiedliche Antworten, wobei alle Antworten eindeutig sind. Die Antworten auf die Umfrage enthalten alle Tippfehler sowie Probleme mit Plural, Singular oder Groß-/Kleinschreibung. Die Ausgabetabelle enthält auch die Spalte „Obst“. Diese Spalte enthält das Spaltenverteilungsdiagramm, das vier unterschiedliche Antworten mit einer eindeutigen Antwort zeigt. Außerdem werden alle Früchte im Singular richtig geschrieben, und sie weisen korrekte Groß-/Kleinschreibung auf.

Unscharfer Zusammenführungsvorgang

Um die Fuzzy-Zusammenführung durchzuführen, führen Sie zunächst eine Zusammenführung durch. In diesem Fall verwenden Sie eine linke äußere Verknüpfung, wobei die linke Tabelle die Tabelle aus der Umfrage und die rechte Tabelle die Referenztabelle Fruits ist. Aktivieren Sie unten im Dialogfeld das Kontrollkästchen Use fuzzy matching to perform the merge.

Screenshot des Dialogfelds „Zusammenführen“, in dem die Verwendung der Fuzzyübereinstimmung zum Ausführen der Zusammenführungsoption gezeigt wird.

Nachdem Sie OK gewählt haben, können Sie eine neue Spalte in Ihrer Tabelle sehen, die durch diese Zusammenführung entstanden ist. Wenn Sie sie erweitern, werden Sie feststellen, dass es eine Zeile gibt, die keine Werte enthält. Das ist genau das, was in der Meldung des Dialogfelds im vorherigen Bild steht: „Die Auswahl stimmt mit 8 von 9 Zeilen der ersten Tabelle überein“

Fuzzyübereinstimmungs-Resultate in der Obst-Spalte.

Screenshot der Spalte „Obst“, die der Tabelle „Umfrage“ hinzugefügt wurde. Alle Zeilen in der Spalte „Frage“ wurden erweitert, mit Ausnahme von Zeile 9, die nicht erweitert werden konnte und in der Spalte „Obst“ Null enthält.

Optionen für Fuzzyübereinstimmung

Sie können die Fuzzyübereinstimmung-Optionen ändern, um festzulegen, wie der ungefähre Abgleich durchgeführt werden soll. Wählen Sie zunächst den Befehl Abfragen zusammenführen, und erweitern Sie dann im Dialogfeld Zusammenführen die Optionen für die Fuzzyübereinstimmung.

Screenshot des Dialogfelds „Zusammenführen“; die Optionen für die Fuzzyübereinstimmung werden angezeigt.

Verfügbare Optionen:

  • Ähnlichkeitsschwelle (optional): Ein Wert zwischen 0,00 und 1,00, der die Möglichkeit bietet, Datensätze ab einer bestimmten Ähnlichkeitsstufe abzugleichen. Ein Schwellenwert von 1,00 ist dasselbe wie die Angabe eines exakten Übereinstimmungskriteriums. So stimmt beispielsweise Grapes nur dann mit Graes (ohne den Buchstaben p) überein, wenn der Schwellenwert auf weniger als 0,90 gesetzt wird. Standardmäßig ist dieser Wert auf 0.80 festgelegt.
  • Fall ignorieren: Ermöglicht den Abgleich von Datensätzen unabhängig von der Groß- und Kleinschreibung des Textes.
  • Übereinstimmen durch Kombinieren von Textteilen: Ermöglicht die Kombination von Textteilen, um Übereinstimmungen zu finden. Zum Beispiel wird Micro soft mit Microsoft abgeglichen, wenn diese Option aktiviert ist.
  • Ähnlichkeitswerte anzeigen: Zeigt die Ähnlichkeitswerte zwischen den Eingabe- und den Trefferwerten nach der Fuzzyübereinstimmung an.
  • Anzahl der Übereinstimmungen (optional): Gibt die maximale Anzahl der passenden Zeilen an, die für jede Eingabezeile zurückgegeben werden können.
  • Transformationstabelle (optional): Ermöglicht den Abgleich von Datensätzen auf der Grundlage von benutzerdefinierten Wertezuordnungen. Zum Beispiel wird Weintrauben mit Rosinen abgeglichen, wenn eine Transformationstabelle bereitgestellt wird, in der die Spalte Von Weintrauben und die Spalte Nach Rosinenenthält.

Umwandlungstabelle

Für das Beispiel in diesem Artikel können Sie eine Transformationstabelle verwenden, um den Wert zuzuordnen, bei dem ein Paar fehlt. Dieser Wert ist apls, der auf Appleabgebildet werden muss. Ihre Transformationstabelle hat zwei Spalten:

  • Von enthält die zu suchenden Werte.
  • Bis enthält die Werte, mit denen die über die Spalte Von gefundenen Werte ersetzt werden.

Für diesen Artikel sieht die Transformationstabelle wie folgt aus:

Von An
apls Apple

Sie können zum Dialogfeld Zusammenführen zurückkehren und in Unscharfe Abgleichoptionen unter Anzahl der Übereinstimmungen 1eingeben. Aktivieren Sie die Option Ähnlichkeitswerte anzeigen, und wählen Sie dann unter Transformationstabelledie Option Transformationstabelle aus dem Dropdown-Menü.

Screenshot des Dialogfelds „Zusammenführen“, wobei die Anzahl der Zuordnungen auf 1 und die Transformationstabelle auf „Tabelle transformieren“ eingestellt ist.

Nachdem Sie OK gewählt haben, können Sie mit dem Schritt der Zusammenführung fortfahren. Wenn Sie die Spalte mit den Tabellenwerten erweitern, werden Sie feststellen, dass Sie neben dem Feld Obst auch das Feld Ähnlichkeitswert sehen. Wählen Sie beide aus, und erweitern Sie sie, ohne ein Präfix hinzuzufügen.

Screenshot des Dialogfelds „Erweitern“ der Tabelle für die Spalte „Obst“, in der die Felder „Obst“ und „Ähnlichkeitswert“ ausgewählt sind.

Nachdem Sie diese beiden Felder erweitert haben, werden sie zu Ihrer Tabelle hinzugefügt. Notieren Sie die Werte, die Sie für die Ähnlichkeitsbewertungen der einzelnen Werte erhalten. Anhand dieser Werte können Sie bei Bedarf weitere Transformationen vornehmen, um festzustellen, ob Sie Ihre Ähnlichkeitsschwelle senken oder erhöhen müssen.

Screenshot der Tabellenausgabe nach dem Fuzzy-Zusammenführungsprozes, in dem die neuen Felder „Obst“ und „Ähnlichkeitswert“ für jeden Wert angezeigt werden.

Für dieses Beispiel dient die Ähnlichkeitsbewertung nur als zusätzliche Information und wird in der Ausgabe dieser Abfrage nicht benötigt, daher können Sie sie entfernen. Beachten Sie, dass das Beispiel mit neun verschiedenen Werten begann, nach der Fuzzy-Zusammenführung jedoch nur noch vier verschiedene Werte vorhanden sind.

Ausgabetabelle der Umfrage zur Fuzzy-Zusammenführung.

Screenshot der Ausgabetabelle der Fuzzy-Zusammenführungsufrage mit der Spalte „Frage“, die das Spaltenverteilungsdiagramm mit neun verschiedenen Antworten enthält, wobei alle Antworten eindeutig sind, sowie die Antworten auf die Umfrage mit allen Tippfehlern, Plural oder Singular und Groß-/Kleinschreibungsproblemen. Enthält auch die Spalte „Obst“ mit dem Spaltenverteilungsdiagramm, das vier verschiedene Antworten mit einer einzigen Antwort zeigt, und listet alle Früchte in richtiger Schreibweise, Einzahl und Großschreibung auf.

Weitere Informationen dazu, wie Transformationstabellen funktionieren, erhalten Sie unter Grundsätze der Transformationstabelle.