Czyszczenie danych
Dotyczy:programu SQL Server
Czyszczenie danych to proces analizowania jakości danych w źródle danych, ręcznego zatwierdzania/odrzucania sugestii przez system, a tym samym wprowadzania zmian w danych. Czyszczenie danych w usługach Data Quality Services (DQS) obejmuje proces wspomagany komputerowo, który analizuje, jak dane odpowiadają wiedzy w bazie danych, oraz interaktywny proces, który umożliwia opiekunowi danych przeglądanie i modyfikowanie wyników procesu wspomaganego komputerowo w celu zapewnienia, że czyszczenie danych jest przeprowadzone dokładnie tak, jak tego chcą.
Zarządca danych może również przeprowadzić czyszczenie danych w procesie tworzenia pakietów usługi Integration Services. W takim przypadku opiekun danych będzie używać komponentu DQS Cleansing w usługach Integration Services, który automatycznie wykonuje czyszczenie danych przy użyciu istniejącej bazy wiedzy. Aby uzyskać więcej informacji, zobacz przekształcenia czyszczenia DQS.
Funkcja czyszczenia danych w programie DQS ma następujące korzyści:
Identyfikuje niekompletne lub nieprawidłowe dane w źródle danych (plik programu Excel lub baza danych programu SQL Server), a następnie poprawia lub ostrzega o nieprawidłowych danych.
Zapewnia dwuetapowy proces czyszczenia danych: wspomagane komputerowo i interaktywne. Proces wspomagany komputerowo wykorzystuje wiedzę w bazie wiedzy DQS do automatycznego przetwarzania danych i sugeruje zamiany/poprawki. Następny krok, interaktywny, umożliwia stewardowi danych zatwierdzanie, odrzucanie lub modyfikowanie zmian proponowanych przez DQS podczas czyszczenia wspomaganego przez komputer.
Standaryzacja i wzbogacanie danych klientów przy użyciu wartości domeny, reguł domeny i danych referencyjnych. Na przykład standaryzacja użycia terminów poprzez zmianę "St." na "Street", wzbogacanie danych przez wypełnienie brakujących elementów poprzez zmianę "1 Microsoft way Redmond 98006" na "1 Microsoft Way, Redmond, WA 98006".
Udostępnia użytkownikowi prosty, intuicyjny i spójny interfejs przypominający kreatora w celu nawigowania po danych i sprawdzania błędów w bardzo dużym zestawie danych.
Poniższa ilustracja przedstawia sposób czyszczenia danych w DQS.
Czyszczenie wspomagane komputerowo
Proces czyszczenia danych DQS stosuje bazę wiedzy na danych wymagających oczyszczenia i proponuje zmiany w danych. Steward danych ma dostęp do każdej proponowanej zmiany, umożliwiając mu ocenę i poprawienie zmian. Aby przeprowadzić czyszczenie danych, steward danych postępuje w następujący sposób:
Utwórz projekt jakości danych, wybierz bazę wiedzy, dla której chcesz analizować i czyścić dane źródłowe, a następnie wybierz działanie Czyszczenie. Wiele projektów jakości danych może używać tej samej bazy wiedzy.
Określ tabelę/widok bazy danych lub plik programu Excel zawierający dane źródłowe do oczyszczenia. Baza danych lub plik programu Excel może być taka sama, która została użyta do odnajdywania wiedzy lub może być inną bazą danych lub plikiem programu Excel.
Notatka
Jeśli wybierzesz to samo źródło danych na potrzeby odnajdywania i czyszczenia wiedzy, nie będzie żadnych zmian w danych. Zaleca się uruchomienie odkrywania wiedzy na próbkach danych, a następnie oczyszczenie danych źródłowych w oparciu o wiedzę zgromadzoną podczas odkrywania wiedzy.
Przypisz pola danych, które mają zostać oczyszczone, do odpowiednich domen lub domen złożonych w bazie wiedzy. Jeśli mapujesz pole na domenę złożoną, mapowanie odbywa się między polem a domeną złożoną, a nie z poszczególnymi domenami w domenie złożonej. Ponadto czyszczenie danych dla zamapowanego pola odbywa się na podstawie reguł określonych dla domeny złożonej, a nie dla poszczególnych domen w domenie złożonej. Aby uzyskać więcej informacji na temat domen złożonych, zobacz bazy wiedzy i domeny DQS.
Uruchom proces czyszczenia wspomaganego przez komputer, klikając pozycję Uruchom na stronie Oczyszczanie.
Proces czyszczenia danych znajduje najlepsze dopasowanie wystąpienia danych do znanych wartości domeny danych. Proces stosuje wiedzę o jakości danych do wszystkich danych źródłowych, w przeciwieństwie do procesu odkrywania wiedzy, który działa na procentowej próbie danych.
Proces wspomagany komputerowo wyświetla informacje o jakości danych w Data Quality Client, które będą wykorzystane do interaktywnego procesu czyszczenia. Oprócz przestrzegania reguł błędów składni DQS używa również danych referencyjnych i zaawansowanych algorytmów do kategoryzowania danych przy użyciu poziomu ufności. Poziom ufności określa stopień pewności DQS dotyczący korekty lub sugestii. Poziom ufności jest oparty na następujących wartościach progowych:
Wartość progu automatycznej korekty, powyżej której DQS zasugeruje zmianę i wprowadzi ją automatycznie, chyba że steward danych ją odrzuci. Wartość progu autokorekty można określić na karcie Ustawienia ogólne na ekranie Konfiguracja . Aby uzyskać więcej informacji, zobacz
Configure Threshold Values for Cleansing and Matching ( Konfigurowanie wartości progowych na potrzeby czyszczenia i dopasowywania).Próg automatycznej sugestii z wartością , mniejszy niż próg autokorekty, powyżej którego DQS zaproponuje zmianę i wprowadzi ją, jeśli steward danych ją zatwierdzi. Wartość progu automatycznej sugestii można określić na karcie Ustawienia ogólne na ekranie Konfiguracja. Aby uzyskać więcej informacji, zobacz
Configure Threshold Values for Cleansing and Matching ( Konfigurowanie wartości progowych na potrzeby czyszczenia i dopasowywania).
Każda wartość o poziomie ufności poniżej wartości progowej automatycznej sugestii jest pozostawiona bez zmian przez DQS, chyba że steward danych wskaże zmianę.
Czyszczenie interakcyjne
W oparciu o proces czyszczenia wspomaganego komputerowo DQS zapewnia stewardowi danych informacje potrzebne do podjęcia decyzji o zmianie danych. DQS kategoryzuje dane na następujących pięciu kartach:
Sugerowane: wartości, dla których DQS znalazł sugestie o poziomie pewności wyższym niż wartość progu automatycznej sugestii , ale niższym niż wartość progu automatycznego korygowania . Należy przejrzeć te wartości i zatwierdzić lub odrzucić odpowiednio.
New: Ważne wartości, dla których DQS nie ma wystarczającej ilości informacji, przez co nie można ich przypisać do żadnej innej karty. Ponadto ta karta zawiera również wartości, które mają poziom ufności mniejszy niż wartości będące poniżej progu automatycznej sugestii, ale wystarczająco wysoki, aby być oznaczone jako prawidłowe.
Nieprawidłowy: wartości, które zostały oznaczone jako nieprawidłowe w domenie w bazie wiedzy lub które nie spełniały reguły domeny lub danych referencyjnych. Ta karta będzie również zawierać wartości, które są odrzucane przez użytkownika w dowolnej z pozostałych czterech kart podczas interaktywnego procesu czyszczenia.
poprawione: wartości, które są poprawiane przez DQS podczas zautomatyzowanego procesu czyszczenia, ponieważ DQS znalazł korektę dla wartości z poziomem ufności powyżej wartości progu autokorekty . Ta zakładka będzie również zawierać wartości, dla których użytkownik określił poprawną wartość w kolumnie Correct To podczas czyszczenia interaktywnego, a następnie zatwierdzonych przez kliknięcie przycisku radiowego w kolumnie Zatwierdź w dowolnej z pozostałych czterech zakładek.
Poprawne: Wartości, które zostały uznane za poprawne. Na przykład wartość jest zgodna z wartością domeny. W razie potrzeby można zastąpić czyszczenie DQS, odrzucając wartości na tej karcie lub określając alternatywne słowo w kolumnie Correct To, a następnie klikając przycisk radiowy w kolumnie Accept. Ta zakładka będzie również zawierać wartości zatwierdzone przez użytkownika podczas interaktywnego oczyszczania, kiedy użytkownik kliknie przycisk opcji w kolumnie Zatwierdź na zakładce Nowa lub Nieprawidłowa.
Notatka
W Sugerowanepoprawionei poprawne kartach DQS wyświetla wiodącą wartość domeny, jeśli ma to zastosowanie, w kolumnie Correct To względem odpowiedniej wartości domeny.
Steward danych używa klienta jakości danych, aby zobaczyć zmiany proponowane przez DQS i zdecydować, czy je wdrożyć. Mogą sprawdzić, czy wartości, które DQS oznaczył jako poprawne, są faktycznie poprawne. Mogą oni sprawdzić, czy zmiany, które zostały już wprowadzone przez DQS, z dużym poziomem pewności, powinny zostać zrealizowane. Steward może zdecydować, czy zatwierdzić automatycznie sugerowane zmiany. Mogą również przeglądać wartości, które nie zostały zmienione, na wypadek, gdy chcą wprowadzić zmianę, która nie zostanie znaleziona przez proces wspomagany komputerowo.
DQS scali wszelkie zmiany wprowadzone przez stewarda danych z wynikami czyszczenia danych wspomaganych przez komputer. Te zmiany pozostaną w projekcie; jednak nie zostaną one dodane do bazy wiedzy. Podczas czyszczenia danych skojarzona baza wiedzy jest tylko do odczytu.
Po zakończeniu procesu czyszczenia danych możesz zdecydować się na wyeksportowanie przetworzonych danych do nowej tabeli w bazie danych SQL Server, do pliku .csv lub do pliku programu Excel. Dane źródłowe, na których jest wykonywane czyszczenie, są przechowywane w oryginalnym stanie. Steward danych może użyć oddzielnych oczyszczonych danych, aby poprawić rzeczywiste dane źródłowe.
Na poniższej ilustracji przedstawiono sposób czyszczenia danych przy użyciu aplikacji klienta jakości danych:
Korekta wartości wiodącej
Korekta wartości wiodącej dotyczy wartości domeny, które mają synonimy, a użytkownik chce użyć jednej z wartości synonimów jako wartości wiodącej zamiast innych dla spójnej reprezentacji wartości. Na przykład "Nowy Jork", "NYC" i "big apple" są synonimami, a użytkownik chce użyć wartości "Nowy Jork" jako wiodącej wartości zamiast "NYC" i "Big Apple". DQS obsługuje wiodącą korektę wartości podczas procesu czyszczenia, aby ułatwić standaryzację danych. Korekta wartości wiodącej jest wykonywana tylko wtedy, gdy domena była skonfigurowana do tego trybu w momencie jej utworzenia. Domyślnie wszystkie domeny są włączone do korekty wartości wiodących, chyba że odznaczyłeś pole wyboru Użyj wartości wiodących podczas tworzenia domeny. Aby uzyskać więcej informacji na temat tego pola wyboru, zobacz Ustawianie właściwości domeny.
Standaryzacja oczyszczonych danych
Możesz wybrać, czy wyeksportować oczyszczone dane w formacie ustandaryzowanym na podstawie formatu wyjściowego zdefiniowanego dla domen. Podczas tworzenia domeny można wybrać formatowanie, które będzie stosowane, gdy wartości danych w domenie są danymi wyjściowymi. Aby uzyskać więcej informacji na temat określania formatów wyjściowych dla domeny, zobacz sekcję Format Output do listy w Ustawieniach Właściwości Domen.
Podczas eksportowania oczyszczonych danych na stronie Eksport w kreatorze projektu dotyczącym jakości danych oczyszczania, należy określić, czy oczyszczone dane mają zostać wyeksportowane w standardowym formacie, zaznaczając pole wyboru Ustandaryzuj dane wyjściowe. Domyślnie oczyszczone dane są eksportowane w standardowym formacie, co oznacza, że pole wyboru jest zaznaczone. Aby uzyskać więcej informacji na temat eksportowania oczyszczonych danych, zobacz Oczyszczanie danych przy użyciu zestawu wiedzy DQS (wewnętrznego).
Powiązane zadania
Opis zadania | Temat |
---|---|
Opisuje sposób konfigurowania wartości progowych dla działania czyszczenia. | Konfigurowanie wartości progowych na potrzeby czyszczenia i dopasowywania |
Opisuje sposób czyszczenia danych przy użyciu wiedzy wbudowanej w DQS. | Oczyść dane przy użyciu wewnętrznej wiedzy DQS |
Opisuje sposób czyszczenia danych przy użyciu wiedzy z usługi danych referencyjnych. | Oczyszczanie danych z użyciem danych referencyjnych (zewnętrznych) Wiedza |
Opisuje sposób czyszczenia domeny złożonej. | Oczyszczanie danych w domenie złożonej |