Udostępnij za pośrednictwem


Przekształcenie Wyszukiwanie rozmyte

Wyszukiwanie rozmyte transformacja wykonuje zadania, takie jak standaryzacja danych, poprawiania danych i dostarczenie brakujących wartości czyszczenie danych.

Ostrzeżenie

Aby uzyskać szczegółowe informacje na temat transformacja Wyszukiwanie rozmyte, w tym wydajność i ograniczenia ilości pamięci, zobacz oficjalny dokument Wyszukiwanie rozmyte i rozmyte grupowania w programie SQL Server Integration Services 2005.

transformacja Wyszukiwanie rozmyte różni się od transformacja wyszukiwania wykorzystuje dopasowywanie rozmyte.transformacja wyszukiwania używa łączyć równoważne zlokalizować pasujących rekordów tabela referencyjna.Zwraca dokładny odpowiednik lub żadne z tabela referencyjna.Natomiast używa transformacja Wyszukiwanie rozmyte dopasowywanie rozmyte zwraca jeden bliskich odpowiedników z tabela referencyjna.

transformacja Wyszukiwanie rozmyte często następuje przemian wyszukiwania w pakiet przepływ danych.Po pierwsze transformacja wyszukiwania próbuje znaleźć dokładny odpowiednik.W przeciwnym razie transformacja Wyszukiwanie rozmyte zapewnia bliskich odpowiedników z tabela referencyjna.

transformacja wymaga dostępu do źródło danych odniesienia, zawierającą wartości, które są używane do czyszczenia i rozszerzyć dane wejściowe.Źródło danych odniesienia musi być tabela w SQL Server 2000 lub nowsze bazy danych.Dopasowania między wartością kolumna wejściowe i wartości z tabela referencyjna można dokładnie, czy rozmyte dopasowanie.transformacja wymaga jednak co najmniej jedno dopasowanie kolumna do skonfigurowania dla dopasowywanie rozmyte.Jeśli chcesz używać tylko dokładne dopasowanie, należy użyć transformacja wyszukiwania.

Tej transformacja ma jedno wejście i wyjście.

Wprowadzanie tylko kolumny z DT_WSTR i DT_STR typy danych mogą być używane w dopasowywanie rozmyte.Dokładne dopasowywanie można użyć dowolnego typu danych DTS, z wyjątkiem DT_TEXT, DT_NTEXT, i DT_IMAGE.Aby uzyskać więcej informacji, zobacz Typy danych usług integracji.Kolumny należące do łączyć z tabela referencyjna i musi mieć typ danych zgodny.For example, it is valid to join a column with the DTS DT_WSTR data type to a column with the SQL Server nvarchar data type, but invalid to join a column with the DT_WSTR data type to a column with the int data type.

Aby dostosować tej transformacja, określający maksymalną ilość pamięci, algorytm porównania wierszy i buforowanie indeksy i tabele odwołań, których używa transformacja.

Ilość pamięci używa transformacja rozmyte wyszukiwania można skonfigurować, ustawiając MaxMemoryUsage właściwość niestandardowych.Można określić liczbę megabajtów (MB) lub używać wartości 0, co pozwala transformacja dynamicznej ilość pamięci na podstawie jego potrzeb i dostępnej pamięci fizycznej.MaxMemoryUsage właściwość niestandardowych mogą być aktualizowane przez wyrażenie właściwość po załadowaniu pakiet.Aby uzyskać więcej informacji, zobacz Odwołanie do wyrażeń w usługach Integration Services, Za pomocą właściwości wyrażenia w opakowaniach, i Właściwości niestandardowe transformacji.

Kontrolowanie rozmyty działanie dopasowania

Wyszukiwanie rozmyte transformacja zawiera trzy funkcje dostosowywania wykonuje wyszukiwania: Maksymalna liczba zwracanych wprowadzania wierszy, ograniczniki token i progi podobieństwa odpowiedników.

transformacja zwraca zero lub więcej odpowiedników w górę do liczby odpowiedników określone.Określanie maksymalnej liczby odpowiedników nie gwarantuje to, że transformacja zwraca maksymalnej liczby odpowiedników; tylko gwarantuje, że ten numer odpowiada co najwyżej zwraca transformacja.Jeśli użytkownik zestaw maksymalnej liczby odpowiedników na wartość większą niż 1 wyjściowych transformacja może obejmować więcej niż jeden wiersz na wyszukiwanie i niektóre wiersze mogą być duplikatami.

transformacja zapewnia domyślny zestaw ograniczników używane do tokenize danych, ale można dodać ograniczników token do potrzeb danych.Delimiters Właściwość zawiera ograniczniki domyślne.Tokenization jest ważne, ponieważ określa ona jednostek w danych, które są porównywane ze sobą.

Progi podobieństwa zestaw na poziomie składnika i łączyć.Próg łączyć poziom podobieństwa jest dostępna tylko w przypadku, gdy transformacja wykonuje rozmyte dopasowania między kolumnami w danych wejściowych i tabela referencyjna.Zakres podobieństw jest 0 lub 1.Bliżej 1 jest próg, podobne więcej wierszy i kolumn należy kwalifikować się jako duplikaty.Określić próg podobieństwa ustawiając MinSimilarity Właściwość poziomy składnik i łączyć.Zaspokoić podobieństwa, określony poziom składnika, wszystkie wiersze musi mieć podobieństwa między wszystkie pasujące przedmioty, które jest większe niż lub równe podobieństwa określony poziom składnika.Oznacza to, że nie można określić bardzo bliskie dopasowanie poziom składnika, chyba że dopasowań poziom wiersza lub łączyć są jednakowo Zamknij.

Każdy dopasowania zawiera wynik podobieństwa i wynik ufności.Wynik podobieństw jest matematyczną miara tekturowych podobieństwa między rekord wejściowy i rekord, który zwraca Wyszukiwanie rozmyte transformacja z tabela referencyjna.Wynik ufności miara jak prawdopodobne jest to najlepsze dopasowanie spośród znalezionych tabela referencyjna określonej wartości.Wynik ufności przypisany do rekordu, zależy od pasujących rekordów, które są zwracane.Na przykład dopasowanie St. i Saint zwraca wynik podobieństwa niski, niezależnie od innych dopasowań.Jeśli Saint tylko dopasowanie zwracana jest wynik ufności jest wysoki.Jeśli oba Saint i St. są wyświetlane tabela referencyjna ufności w St. jest wysoki i zaufania do Saint jest niski.Jednak podobieństwa wysokiej nie może oznaczać wysokiej ufności.Na przykład, jeśli są wyszukiwane wartości rozdziału 4, zwracane wyniki rozdział 1, 2 rozdział, i rozdział 3 mieć wynik podobieństwa wysoki, ale wynik niskie zaufanie, ponieważ jest niejasne, wyników jest najlepsze dopasowanie.

Wynik podobieństw jest reprezentowana przez wartość dziesiętną pomiędzy 0 a 1, gdy wynik podobieństwa 1 oznacza dokładne dopasowanie między wartością kolumna wejściowe i wartości tabela referencyjna.Wynik ufności, również wartość dziesiętną między 0 i 1 wskazuje zaufania do dopasowania.Jeśli nie można używać zostanie znaleziony, podobieństwa i ufności wyników 0 są przypisywane do wiersza i kolumn wyjściowych skopiowane z tabela referencyjna będą zawierać wartości null.

Czasami rozmyte wyszukiwania może nie zlokalizować odpowiedniego dopasowania z tabela referencyjna.Taka sytuacja może wystąpić, jeśli wartość wejściowa, który jest używany w wyszukiwaniu jest jeden krótki programu word.Na przykład helo jest niezgodne z wartością hello tabela referencyjna innych tokenów nie są obecne w tej kolumnie lub inne kolumna w wierszu.

wynik przekształcenia Kolumny zawierają wprowadzania kolumn, które są oznaczone jako kolumny przekazującej, zaznaczone kolumny tabela odnośników i następujące dodatkowe kolumny:

  • _Similarity, kolumna, która opisuje podobieństwa między wartości w kolumnach danych wejściowych i odwołania.

  • _Confidence, kolumna, która opisuje jakość dopasowania.

transformacja używa połączenia do SQL Server bazy danych, aby utworzyć tymczasowe, tabele, które dopasowywanie rozmyte używa algorytmu.

Uruchamianie transformacji Wyszukiwanie rozmyte

Pakiet po raz pierwszy uruchomi transformacja, transformacja kopiuje z tabela referencyjna, dodaje klucz o typie danych integer do nowej tabeli i tworzy indeks kolumna klucza.Następnie transformacja tworzy indeks, wezwał indeksu dopasowania, kopię tabela referencyjna.Dopasuj indeks przechowuje wyniki tokenizing wartości w dane wejściowe przekształcenia kolumny, a następnie przekształcenia używa tokenów w operacji wyszukiwania.Dopasuj indeks jest tabela w SQL Server 2000 lub nowsze bazy danych.

Po ponownym uruchomieniu pakiet transformacja można użyć istniejącego indeksu dopasowania lub utworzyć nowy indeks.Jeśli tabela referencyjna jest statyczny, pakiet można uniknąć potencjalnie kosztowny proces przebudowywanie indeksu dla sesji powtarzania czyszczenia danych.Jeśli wybierzesz istniejący indeks, tworzony jest indeks pierwszego czas działającą w opakowaniu.Wiele przekształceń Wyszukiwanie rozmyte korzystania z tej samej tabela referencyjna można wszystkie wykorzystują ten sam indeks.Aby ponownie użyć indeksu, operacji wyszukiwania muszą być identyczne; wyszukiwania należy używać tej samej kolumny.Można nazwać indeksu i wybierz połączenie do SQL Server bazy danych, który zapisuje indeks.

transformacja zapisze indeks dopasowania, Dopasuj indeks może być zachowana jako automatycznie.Oznacza to, że każdy czas aktualizacji rekordu tabela referencyjna, aktualizowany jest również indeksu dopasowania.Utrzymywanie indeksu dopasowania można skrócić czas przetwarzania, ponieważ indeks ma przebudowany, po uruchomieniu tego pakiet.Można określić, jak transformacja zarządza indeksu dopasowania.

W poniższej tabela opisano opcje dopasowania indeksu.

Opcja

Opis

GenerateAndMaintainNewIndex

Utworzyć nowy indeks, zapisz go i utrzymywania go.transformacja instaluje wyzwalaczy tabela referencyjna do tabela referencyjna i tabelą indeksów zsynchronizowane.

GenerateAndPersistNewIndex

Utworzyć nowy indeks i zapisz go, ale nie jest zachowywane.

GenerateNewIndex

Utworzyć nowy indeks, ale nie zapisuj.

ReuseExistingIndex

Wykorzystać istniejący indeks.

Konserwacja Dopasuj indeks tabeli

GenerateAndMaintainNewIndex opcja instaluje wyzwalaczy tabela referencyjna, aby zachować dopasowanie tabeli indeksu i tabela referencyjna zsynchronizowane.Jeśli trzeba usunąć wyzwalacz zainstalowane, należy uruchomić sp_FuzzyLookupTableMaintenanceUnInstall procedura składowana, a następnie podaj nazwę określoną w MatchIndexName właściwość jako wartość parametru wejściowego.

Nie należy usuwać tabela indeks utrzymywana dopasowania przed uruchomieniem sp_FuzzyLookupTableMaintenanceUnInstall procedura składowana.Usunięcie tabeli indeks dopasowanie wyzwalaczy tabela referencyjna nie będzie wykonać poprawnie.Wszystkie kolejne uaktualnienia do tabela referencyjna nie powiedzie się, dopóki ręczne usuwanie wyzwalaczy tabela referencyjna.

Polecenia SQL OBCIĄĆ tabelę nie wywoła Usuwanie wyzwalaczy.Użycie polecenia OBCIĄĆ tabelę tabela referencyjna tabela referencyjna i indeks dopasowania nie będą synchronizowane i transformacja Wyszukiwanie rozmyte nie powiedzie się.Podczas gdy wyzwalaczy, które utrzymują Dopasuj indeks tabeli są zainstalowane tabela referencyjna, należy użyć polecenia SQL DELETE zamiast polecenia OBCIĄĆ tabelę.

Ostrzeżenie

Po wybraniu Maintain przechowywany indeks na Tabeli odwołań karcie Edytor transformacja Wyszukiwanie rozmyte, transformacja używa zarządzanych procedur przechowywanych do utrzymania indeksu.Tych procedur przechowywanych zarządzanych za pomocą typowych funkcji integracja runtime (CLR) języka w SQL Server 2008.Domyślnie CLR integracja w SQL Server 2008 nie jest włączona.Aby użyć Maintain przechowywany indeks funkcjonalności, należy włączyć CLR integracja.Aby uzyskać więcej informacji, zobacz Włączanie CLR integracji.

Ponieważ Maintain przechowywany indeks opcja wymaga CLR integracja, ta funkcja działa tylko po zaznaczeniu tabela referencyjna na wystąpienie SQL Server 2005 lub SQL Server 2008 których włączono integrację CLR.Indeks nie może być obsługiwany na wystąpienie z SQL Server 2000.

Porównanie wierszy

Podczas konfigurowania transformacja rozmyte wyszukiwania można określić algorytm porównania używa transformacja zlokalizować pasujących rekordów tabela referencyjna.Jeśli użytkownik zestaw Exhaustive Właściwość True, transformacja porównuje każdego wiersza w danych wejściowych do każdego wiersza tabela referencyjna.Ten algorytm porównanie może generować dokładniejsze wyniki, ale prawdopodobnie dokonać transformacja wykonać wolniej, chyba że liczba wierszy tabela referencyjna jest mała.Jeśli Exhaustive właściwość jest ustawiona na True, cały adres tabela jest ładowany do pamięciAby uniknąć problemów z wydajnością, zaleca się zestaw Exhaustive Właściwość True podczas rozwoju pakiet jedynie.

Jeśli Exhaustive właściwość jest zestaw do False, transformacja Wyszukiwanie rozmyte zwraca tylko dopasowuje co najmniej jeden token indeksowanych lub podciągu (nazywane podciąg q gram) wspólne z rekord wejściowy.Aby zmaksymalizować wydajność wyszukiwań, tylko podzbiór tokenów w każdym wierszu tabela jest indeksowany w strukturze odwrócony indeksu, używający transformacja Wyszukiwanie rozmyte zlokalizować dopasowań.Podczas wprowadzania zestaw danych jest niewielka, zestaw Exhaustive do True w celu uniknięcia Brak odpowiedników, dla których nie wspólnych tokeny istnieje w tabela indeks.

Buforowanie indeksy i tabele odwołań

Konfigurując Wyszukiwanie rozmyte transformacja, można określić, czy transformacja częściowo buforuje indeksu i tabela referencyjna w pamięci przed przekształceniem jego działa.Jeśli użytkownik zestaw WarmCaches Właściwość True, tabela indeksu i odwołania są ładowane do pamięci.Gdy dane wejściowe ma wiele wierszy, ustawienie WarmCaches Właściwość True może zwiększyć wydajność transformacja.Gdy liczba wierszy w wejściowy jest mała, ustawienie WarmCaches Właściwość False można przyspieszyć ponownego duży indeks.

Tymczasowe tabel i indeksów

Przy uruchomieniu czas, Wyszukiwanie rozmyte transformacja tworzy tymczasowe obiekty, takie jak tabele i indeksy, w SQL Server bazy danych, która łączy się z transformacja.Rozmiar tych tabel tymczasowych i indeksów jest proporcjonalne do liczby wierszy i tokenów tabela referencyjna i liczby tokenów, które tworzy transformacja Wyszukiwanie rozmyte; Dlatego może potencjalnie zużywają znaczną ilość miejsca na dysku.transformacja również kwerendy tych tabel tymczasowych.Dlatego należy rozważyć nawiązywanie transformacja Wyszukiwanie rozmyte nie produkcji wystąpienie z SQL Server bazy danych, zwłaszcza, jeśli serwer produkcyjny ma ograniczone dostępne miejsce na dysku.

Jeśli tabel i indeksów używa znajdują się na komputerze lokalnym, może zwiększyć wydajność tej transformacja.Jeśli tabela referencyjna że używa transformacja rozmyte wyszukiwania na serwerze produkcyjnym, należy rozważyć kopiowania tabeli do serwera — do produkcji i konfigurowanie transformacja Wyszukiwanie rozmyte dostępu do kopii.W ten sposób można zapobiec zajmowaniu zasobów na serwerze produkcyjnym kwerend wyszukiwania.In addition, if the Fuzzy Lookup transformation maintains the match index—that is, if MatchIndexOptionsis set to GenerateAndMaintainNewIndex—the transformation may lock the reference table for the duration of the data cleaning operation and prevent other users and applications from accessing the table.

Konfigurowanie transformacji Wyszukiwanie rozmyte

zestaw właściwości poprzez SSIS Projektant lub programowo.

Aby uzyskać więcej informacji na temat właściwości, które zestaw w Edytor transformacji Wyszukiwanie rozmyte okna dialogowego kliknij jedną z następujących tematów:

Aby uzyskać więcej informacji na temat właściwości, które zestaw w Zaawansowanego edytora okno dialogowe pole lub programowo, kliknij jeden z następujących tematów:

Aby uzyskać więcej informacji dotyczących sposobu zestaw właściwości, zobacz Jak Ustawianie właściwości składnika przepływu danych.

Ikona usług Integration Services (mała)Bieżąco z usług integracji

Najnowsze pliki do pobrania, artykuły, próbki i wideo firmy Microsoft, jak również wybranych rozwiązań ze Wspólnoty, odwiedź witrynę Integration Services strona na MSDN i TechNet:

Aby otrzymywać automatyczne powiadomienia dotyczące tych aktualizacji, zasubskrybuj źródła danych RSS dostępne na tej stronie.