Identifizieren ähnlicher Datenzeilen mithilfe der Transformation für Fuzzygruppierung
Gilt für: SQL Server SSIS Integration Runtime in Azure Data Factory
Das Paket muss bereits mindestens einen Datenflusstask und eine Quelle enthalten, damit Sie eine Transformation für Fuzzygruppierung hinzufügen und konfigurieren können.
So implementieren Sie eine Transformation für Fuzzygruppierung in einem Datenfluss
Öffnen Sie in SQL Server Data Tools (SSDT) das Integration Services-Projekt mit dem gewünschten Paket.
Doppelklicken Sie im Projektmappen-Explorer auf das Paket, um es zu öffnen.
Klicken Sie auf die Registerkarte Datenfluss , und ziehen Sie dann aus dem Fenster Toolboxdie Transformation für Fuzzygruppierung auf die Entwurfsoberfläche.
Verbinden Sie die Transformation für Fuzzygruppierung mit dem Datenfluss, indem Sie den Konnektor von der Datenquelle oder einer vorherigen Transformation auf die Transformation für Fuzzygruppierung ziehen.
Doppelklicken Sie auf die Transformation für Fuzzygruppierung.
Wählen Sie im Dialogfeld Transformations-Editor für Fuzzygruppierung auf der Registerkarte Verbindungs-Manager einen OLE DB-Verbindungs-Manager aus, der eine Verbindung mit einer SQL Server -Datenbank herstellt.
Hinweis
Für die Transformation muss eine Verbindung mit einer SQL Server -Datenbank vorhanden sein, damit temporäre Tabellen und Indizes erstellt werden können.
Klicken Sie auf die Registerkarte Spalten , und aktivieren Sie in der Liste Verfügbare Eingabespalten die Kontrollkästchen der Eingabespalten, die zum Identifizieren ähnlicher Zeilen im Dataset verwendet werden sollen.
Aktivieren Sie das Kontrollkästchen in der Pass-Through -Spalte, um die Eingabespalten für das Pass-Through an die Transformationsausgabe zu identifizieren. Pass-Through-Spalten werden nicht in die Identifizierung doppelter Zeilen eingeschlossen.
Hinweis
Eingabespalten, die zum Gruppieren verwendet werden, werden automatisch als Pass-Through-Spalten ausgewählt. Die Auswahl dieser Spalten kann nicht aufgehoben werden, während sie zum Gruppieren verwendet werden.
Aktualisieren Sie optional die Namen von Ausgabespalten in der Ausgabealias -Spalte.
Aktualisieren Sie optional die Namen von bereinigten Spalten in der Gruppenausgabealias -Spalte.
Hinweis
Die Standardnamen von Spalten sind die Namen der Eingabespalten mit dem Suffix "_clean".
Aktualisieren Sie optional den zu verwendenden Übereinstimmungstyp in der Übereinstimmungstyp -Spalte.
Hinweis
Mindestens eine Spalte muss die Fuzzyübereinstimmung verwenden.
Geben Sie die minimale Ähnlichkeit von Spalten in der Minimale Ähnlichkeit -Spalte an. Der Wert muss zwischen 0 und 1 liegen. Je näher der Wert an 1 liegt, desto ähnlicher müssen die Werte in den Eingabespalten sein, um eine Gruppe zu bilden. Eine minimale Ähnlichkeit von 1 bedeutet eine genaue Übereinstimmung.
Aktualisieren Sie optional die Namen von Ähnlichkeitsspalten in der Ähnlichkeitsausgabealias -Spalte.
Aktualisieren Sie die Werte in der Zahlen -Spalte, um die Behandlung von Zahlen in Datenwerten anzugeben.
Um anzugeben, wie die Transformation die Zeichenfolgendaten in einer Spalte vergleicht, ändern Sie die Standardauswahl von Vergleichsoptionen in der Vergleichsflags -Spalte.
Klicken Sie auf die Registerkarte Erweitert , um die Namen der Spalten zu ändern, die die Transformation der Ausgabe für den eindeutigen Zeilenbezeichner (_key_in), den doppelten Zeilenbezeichner (_key_out) und den Ähnlichkeitswert (_score) hinzufügt.
Passen Sie optional den Schwellenwert für die Ähnlichkeit mithilfe des Schiebereglers an.
Deaktivieren Sie optional die Kontrollkästchen für Tokentrennzeichen, um Trennzeichen in den Daten zu ignorieren.
Klicken Sie auf OK.
Klicken Sie im Menü Datei auf Ausgewählte Elemente speichern , um das aktualisierte Paket zu speichern.
Weitere Informationen
Transformation für Fuzzygruppierung
SQL Server Integration Services-Transformationen
SQL Server Integration Services-Pfade
Datenflusstask