Čištění dat
platí pro:SQL Server
Čištění dat je proces analýzy kvality dat ve zdroji dat, ruční schválení nebo odmítnutí návrhů systémem a provedení změn dat. Čištění dat ve službách DQS (Data Quality Services) zahrnuje proces s asistencí počítače, který analyzuje, jak data odpovídají znalostem ve znalostní bázi, a interaktivní proces, který umožňuje správci dat kontrolovat a upravovat výsledky procesu s asistencí počítače, aby se zajistilo, že čištění dat je přesně tak, jak chcete udělat.
Správce dat může také provádět čištění dat v procesu balení integračních služeb. V tomto případě by správce dat použil komponentu čištění DQS v integračních službách, která automaticky provádí čištění dat pomocí existující znalostní báze. Další informace naleznete v tématu transformace čištění DQS.
Funkce čištění dat v DQS má následující výhody:
Identifikuje neúplná nebo nesprávná data ve zdroji dat (excelový soubor nebo databáze SQL Serveru) a pak opraví nebo upozorní na neplatná data.
Poskytuje dvoustupňový proces čištění dat: s asistencí počítače a interaktivní. Proces s asistencí počítače používá znalosti ve znalostní bázi DQS k automatickému zpracování dat a navrhuje nahrazení/opravy. Další krok, interaktivní, umožňuje správci dat schválit, odmítnout nebo upravit změny navržené DQS během čištění s asistencí počítače.
Standardizuje a rozšiřuje zákaznická data pomocí hodnot domény, pravidel domény a referenčních dat. Například standardizovat použití termínu změnou "St" na "Street", obohacením dat vyplněním chybějících prvků změnou "1 Microsoft way Redmond 98006" na "1 Microsoft Way, Redmond, WA 98006".
Poskytuje uživateli jednoduché, intuitivní a konzistentní rozhraní podobné průvodci, které umožňuje procházet data a kontrolovat chyby mezi velmi velkou sadou dat.
Následující obrázek ukazuje, jak se čištění dat provádí v DQS:
Čištění s asistencí počítače
Proces čištění dat DQS aplikuje znalostní bázi na data, která se mají vyčistit, a navrhuje změny dat. Správci dat mají přístup k jednotlivým navrhovaným změnám, což mu umožňuje vyhodnotit a opravit změny. K čištění dat pokračuje správce dat následujícím způsobem:
Vytvořte projekt kvality dat, vyberte znalostní bázi, ve které chcete analyzovat a vyčistit zdrojová data, a vyberte aktivitu Čištění. Více projektů kvality dat může používat stejnou znalostní bázi.
Zadejte tabulku nebo zobrazení databáze nebo excelový soubor, který obsahuje zdrojová data, která se mají vyčistit. Databáze nebo excelový soubor můžou být stejné jako databáze, které se použily ke zjišťování znalostí, nebo se může jednat o jinou databázi nebo excelový soubor.
Poznámka
Pokud pro zjišťování a čištění znalostí vyberete stejný zdroj dat, nedojde k žádné změně dat. Doporučujeme spustit zjišťování znalostí na ukázkových datech a později vyčistit zdrojová data proti znalostem vytvořeným během aktivity zjišťování znalostí.
Namapujte datová pole, která se mají vyčistit, na odpovídající domény nebo složené domény ve znalostní bázi. Pokud namapujete pole na složenou doménu, mapování se provede mezi polem a složenou doménou, nikoli s jednotlivými doménami ve složené doméně. Čištění dat pro mapované pole se také provádí na základě pravidel určených pro složenou doménu, a ne pro jednotlivé domény ve složené doméně. Další informace o složených doménách najdete v tématu znalostní báze a domény DQS.
Spusťte proces čištění s asistencí počítače kliknutím na Spustit na stránce Vyčištění.
Proces čištění dat najde nejlepší shodu instance dat se známými hodnotami domény dat. Tento proces aplikuje znalosti kvality dat na všechna zdrojová data, na rozdíl od procesu zjišťování znalostí, který běží na procentu ukázkových dat.
Proces s asistencí počítače zobrazí informace o kvalitě dat v klientovi kvality dat, které se použijí pro interaktivní proces čištění. Kromě dodržování pravidel chyb syntaxe používá DQS také referenční data a pokročilé algoritmy k kategorizaci dat pomocí úrovně spolehlivosti. Úroveň spolehlivosti označuje rozsah jistoty DQS pro opravu nebo návrh. Úroveň spolehlivosti vychází z následujících prahových hodnot:
Prahová hodnota automatické opravy hodnotu, nad kterou DQS navrhne změnu a provede ji, pokud ji správce dat neodmítne. Prahovou hodnotu automatické opravy můžete zadat v kartě Obecná nastavení v okně Konfigurace. Další informace najdete v tématu Konfigurace prahových hodnot pro čištění a porovnávání.
prahová hodnota automatického návrhu, která je nižší než prahová hodnota automatické opravy, ale nad níž DQS navrhne změnu a provede ji, pokud ji správce dat schválí. Prahovou hodnotu automatického návrhu můžete zadat na kartě Obecné nastavení na obrazovce konfigurace. Další informace najdete v tématu Konfigurace prahových hodnot pro čištění a porovnávání.
Jakákoli hodnota, která má úroveň spolehlivosti pod prahovou hodnotou automatického návrhu, je ponechána beze změny DQS, pokud správce dat nezadá změnu.
Interaktivní čištění
V závislosti na procesu čištění s asistencí počítače poskytuje DQS správci dat informace, které potřebují k rozhodování o změně dat. DQS kategorizuje data pod následujícími pěti záložkami.
Navrhované: Hodnoty, pro které DQS našla návrhy s úrovní spolehlivosti vyšší než prahová hodnota pro automatický návrh, ale nižší než prahová hodnota pro automatickou opravu. Tyto hodnoty byste měli zkontrolovat a podle potřeby schválit nebo odmítnout.
Nový: Platné hodnoty, pro které DQS nemá dostatek informací (návrh), a proto je nelze namapovat na žádnou jinou kartu. Tato karta také obsahuje hodnoty, které mají úroveň spolehlivosti menší než prahová hodnota automatického návrhu , ale jsou dostatečně vysoké, aby byly označeny jako platné.
Neplatná: Hodnoty, které byly ve znalostní bázi označeny jako neplatné v rámci domény, nebo hodnoty, které nevyhověly pravidlu domény nebo referenčním datům. Tato karta bude také obsahovat hodnoty, které uživatel odmítne na některé z dalších čtyř karet během interaktivního procesu čištění.
Opraveno: Hodnoty, které jsou opraveny DQS během automatizovaného procesu čištění, protože DQS našla opravu hodnoty s úrovní spolehlivosti nad prahovou hodnotou automatické opravy hodnotu. Tato karta bude také obsahovat hodnoty, pro které uživatel během interaktivního čištění zadal správnou hodnotu ve sloupci Opravit pro a poté je schválil kliknutím na rádiové tlačítko ve sloupci Schválit na některé z ostatních čtyř karet.
Správná: Hodnoty, které byly nalezeny správně. Například hodnota odpovídala hodnotě domény. V případě potřeby můžete přepsat čištění DQS tím, že odmítnete hodnoty na této kartě nebo zadáte alternativní slovo ve sloupci Opravit na a kliknete na přepínač ve sloupci Přijmout. Tato záložka bude rovněž obsahovat hodnoty schválené uživatelem během interaktivního čištění kliknutím na přepínač ve sloupci Schválit v záložce Nové nebo Neplatné.
Poznámka
Na kartách Navrhované, Opravenoa Správné zobrazí funkce DQS první hodnotu domény, pokud je to možné, ve sloupci Správně vedle příslušné hodnoty domény.
Správce dat používá klienta kvality dat k zobrazení změn, které navrhl DQS, a rozhodnutí, zda je implementovat, nebo ne. Mohou ověřit, že hodnoty DQS jsou ve skutečnosti správné. Můžou ověřit, že by měly být provedeny změny, které už DQS provedly s vysokou mírou spolehlivosti. Steward se může rozhodnout, jestli se mají schvalovat automaticky navrhované změny. A mohou zkontrolovat hodnoty, které nebyly změněny, pouze v případě, že chtějí provést změnu, kterou nenašel proces s asistencí počítače.
DQS sloučí všechny změny provedené správcem dat s výsledky čištění dat s asistencí počítače. Tyto změny zůstanou s projektem; nebudou však přidány do znalostní báze. Během čištění dat je přidružená znalostní báze jen pro čtení.
Po dokončení procesu čištění dat můžete zvolit export zpracovaných dat do nové tabulky v databázi SQL Serveru, .csv souboru nebo excelovém souboru. Zdrojová data, na kterých se provádí čištění, se udržuje v původním stavu. Správce dat může použít samostatná vyčištěná data k opravě skutečných zdrojových dat.
Následující obrázek ukazuje, jak se čištění dat provádí pomocí klientské aplikace Data Quality Client:
Oprava úvodní hodnoty
Úvodní oprava hodnoty se vztahuje na hodnoty domény, které mají synonyma, a uživatel chce použít jednu z hodnot synonym jako úvodní hodnotu místo jiných pro konzistentní reprezentaci hodnoty. Například "New York", "NYC" a "big apple" jsou synonyma a uživatel chce používat "New York" jako úvodní hodnotu místo "NYC" a "Big Apple". DQS podporuje opravu úvodních hodnot během procesu čištění, která vám pomůže standardizovat data. Oprava úvodní hodnoty se provádí pouze v případě, že byla doména pro tuto funkci povolena již při vytvoření. Ve výchozím nastavení jsou všechny domény povoleny pro opravu úvodních hodnot, pokud jste nezaškrtli políčko Použít úvodní hodnoty při vytváření domény. Další informace o tomto zaškrtávacím políčku naleznete v tématu Nastavení vlastností domény.
Standardizace vyčištěných dat
Můžete zvolit, jestli chcete exportovat vyčištěná data ve standardizovaném formátu na základě výstupního formátu definovaného pro domény. Při vytváření domény můžete vybrat formátování, které se použije při výstupu datových hodnot v doméně. Další informace o zadávání výstupních formátů pro doménu viz v seznamu Formát výstupu pro v Nastavení vlastností domény.
Při exportu vyčištěných dat na stránce Exportovat v průvodci čištěním projektu kvality dat určíte, jestli chcete, aby se vyčištěná data exportovala ve standardizovaném formátu, a to tak, že zaškrtnete políčko Standardizovat výstup. Ve výchozím nastavení se vyčištěná data exportují ve standardizovaném formátu, to znamená, že je zaškrtnuté políčko. Další informace o exportu vyčištěných dat najdete v tématu Čištění dat pomocí interních znalostí DQS.
Související úkoly
Popis úkolu | Námět |
---|---|
Popisuje, jak nakonfigurovat prahové hodnoty pro aktivitu čištění. | konfigurace prahových hodnot pro čištění a porovnávání |
Popisuje, jak vyčistit data pomocí znalostí integrovaných v DQS. | Vyčistit data pomocí interních znalostí DQS |
Popisuje, jak vyčistit data pomocí znalostí z referenční datové služby. | Čistění dat pomocí externích referenčních dat |
Popisuje, jak vyčistit složenou doménu. | vyčištění dat ve složené doméně |