Provádění zjišťování znalostí
platí pro:SQL Server
Toto téma popisuje, jak vytvořit znalostní bázi prostřednictvím zjišťování znalostí. V procesu zjišťování služba DQS (Data Quality Services) analyzuje data v ukázkovém zdroji dat prostřednictvím procesu s asistencí počítače a přidá do znalostní báze znalosti, které získá. Tyto znalosti je možné upravit a rozšířit v Spravovat hodnoty domény kroku aktivity zjišťování znalostí nebo v aktivitě správy domény.
Zjišťování znalostí je proces řízený průvodcem, který zahrnuje tři kroky, z nichž každý se musí dokončit.
Než začnete
Požadavky
Aplikace Microsoft Excel musí být nainstalována v počítači Klienta kvality dat, pokud zdrojová data, ve kterých spouštíte zjišťování, jsou v excelovém souboru. Jinak nebudete moct vybrat excelové soubory ve fázi mapování. Soubory vytvořené aplikací Microsoft Excel mohou mít příponu .xlsx, .xlsnebo .csv. Pokud se používá 64bitová verze Aplikace Excel, jsou podporovány pouze soubory aplikace Excel 2003 (.xls). Soubory Excelu 2007 nebo 2010 (.xlsx) nejsou podporované. Pokud používáte 64bitovou verzi Excelu 2007 nebo 2010, uložte soubor jako soubor .xls nebo .csv nebo nainstalujte 32bitovou verzi Excelu.
Bezpečnost
Dovolení
Abyste mohli vytvořit znalostní bázi, musíte mít roli dqs_kb_editor nebo dqs_administrator v databázi DQS_MAIN.
První krok: Zahájení zjišťování znalostí
Spusťte klienta kvality dat. Informace o tom najdete v tématu Spuštění klientské aplikace pro kvalitu dat.
Pokud chcete pro novou znalostní bázi provádět zjišťování znalostí, klikněte na Nová znalostní báze, zadejte název a popis a určete, z jaké znalostní báze vytváříte, pokud je to možné. Pokud chcete provádět zjišťování znalostí v existující znalostní bázi, klikněte na Otevřít znalostní bázia vyberte znalostní bázi.
Jako aktivitu vyberte Zjišťování znalostí, poté klikněte na Vytvořit pro vytvoření nové znalostní báze nebo na Otevřít pro otevření existující znalostní báze.
Fáze mapování
V poli Zdroj dat vyberte sql Server (výchozí) nebo excelový soubor.
Poznámka
Na této stránce vytvoříte připojení ke zdroji dat SQL Serveru nebo Excelu a pak namapujete mezi sloupci ve zdroji dat a doménou ve znalostní bázi. Tabulka Mapování zobrazí všechny sloupce ve zdrojové databázi, které budou analyzovány, aby se do příslušných domén přidaly znalosti. Mapování se provádí mezi sloupci ve zdroji dat a doménou ve znalostní bázi.
Pokud je zdroj dat SQL Server, pokračujte následujícím způsobem:
V poli Databáze vyberte zdrojovou databázi, kterou chcete analyzovat, a vytvořte znalostní bázi. Rozevírací seznam textových polí zobrazí dostupné databáze. Zdrojová databáze musí být ve stejné instanci SQL Serveru jako Server pro kvalitu dat. Jinak se nezobrazí v rozevíracím seznamu.
V poli Tabulka/Zobrazení vyberte tabulku nebo zobrazení, které chcete analyzovat, a vytvořte znalostní bázi. Tato tabulka nebo zobrazení by měla být ukázková data, nikoli celá zdrojová databáze, u které provádíte čištění nebo porovnávání dat. Rozevírací seznam textových polí zobrazí tabulky a zobrazení, které jsou dostupné pro vybranou databázi.
Pokud je zdroj dat Excel, pokračujte takto:
Klikněte na Procházet a vyberte soubor aplikace Excel, který chcete analyzovat, a vytvořte znalostní bázi. Aby bylo možné vybrat excelový soubor, musí být aplikace Excel nainstalována na počítači klienta kvality dat. Pokud není aplikace Excel nainstalována v počítači Klienta pro kvalitu dat, tlačítko Procházet nebude k dispozici a pod tímto textovým polem se zobrazí upozornění, že aplikace Excel není nainstalována.
Zaškrtněte políčko Použít první řádek jako záhlaví, pokud první řádek Excelového souboru obsahuje záhlaví.
V tabulce Mapování namapujte každý zdrojový sloupec, u kterého chcete provést zjišťování znalostí, na doménu ve znalostní bázi následujícím způsobem:
Mapování vytvoříte tak, že v prázdném řádku vyberete ze seznamu zdrojový sloupec pro sloupec Zdrojový sloupec a potom vyberete doménu ze seznamu pro sloupec Doména ve stejném řádku, pokud doména existuje. Pokud žádná doména neexistuje, klikněte na Vytvořit doménu nebo Vytvořit složenou doménu a vytvořte doménu. Další informace najdete v tématu Vytvoření pravidla domény nebo Vytvořenísložené domény .
Opakujte předchozí krok pro každé mapování. Chcete-li změnit počet řádků v tabulce, klikněte na Přidat mapování sloupců, nebo vyberte řádek a klikněte na Odebrat vybrané mapování sloupců. Pokud kliknete na Odebrat mapování vybraných sloupců při výběru vyplněného řádku, vybraný řádek se odstraní i v případě, že existuje nepoplněný řádek.
Poznámka
Zdrojová data můžete namapovat na doménu DQS pro zjišťování znalostí pouze v případě, že je zdrojový datový typ podporovaný v DQS a odpovídá datovému typu domény DQS. Další informace o podporovaných datových typech najdete v tématu Podporované sql Server a datové typy SSIS pro domény DQS.
Kliknutím na Zobrazit nebo vybrat složené domény zobrazíte definované složené domény. Pokud nebyly definovány žádné složené domény, nebude ovládací prvek k dispozici.
Kliknutím na Náhled zdroje dat zobrazíte v automaticky otevíraném okně všechna data ve zdroji dat, který jste vybrali v tabulce/pohledu nebo textovém poli souboru Excel.
Kliknutím na tlačítko Další přejděte na stránku Objev průvodce objevováním znalostí. Můžete také vybrat následující:
Kliknutím na Zrušit ukončete aktivitu zjišťování znalostí, ztratíte práci a vrátíte se na domovskou stránku DQS.
Kliknutím na Zavřít uložíte svou práci a vrátíte se na domovskou stránku DQS. Znalostní báze bude pro vás zamknuta a stav znalostní báze v tabulce znalostní báze na obrazovce Open Knowledge Base bude Discovery - Mapping. Po kliknutí na Zavřít, pro provedení aktivity správy domény budete muset kliknout na Znalostní zjišťování na obrazovce Otevřít znalostní bázi, pokračovat na obrazovku Správa znalostní báze: Spravovat termíny domény, klikněte na Dokončita poté klikněte buď na Ano pro publikování znalostní báze, nebo na Ne pro uložení práce na znalostní bázi a ukončení.
Objevovací fáze
Klikněte na Spustit pro analýzu zdroje dat.
Poznámka
Zjišťování se provádí na sloupcích zadaných v tabulce Mapování na stránce Mapa. Doména namapovaná na každý sloupec se naplní znalostmi získanými z průzkumu. Pokud je doména složená doména, znalosti se přidají do jednotlivých domén, ze které se složená doména skládá.
Při spuštění procesu zjišťování zkontrolujte stav dokončení zobrazený pro každý krok zjišťování: předzpracování záznamů, spouštění pravidel doménya spouštění zjišťování. Pro každou z těchto fází se zobrazí stav dokončení a procento dokončení.
Po dokončení analýzy ověřte, že stavový řádek pod statistikou dokončení značí, že se úspěšně dokončil.
Poznámka
Po opuštění obrazovky před nahráním souboru se proces nahrání souboru ukončí.
Po dokončení analýzy zkontrolujte statistiky na kartě Profiler pro zobrazení stavu dat. Další informace naleznete v tématu Profilace dat a oznámení v DQS.
Po dokončení analýzy se tlačítko Start změní na tlačítko Restartovat. Chcete-li proces analýzy spustit znovu, klikněte na Restartovat. Výsledky z předchozí analýzy se ale zatím neuložily, takže kliknutím na Restartovat dojde ke ztrátě předchozích dat. Chcete-li pokračovat, klikněte na Ano ve vyskakovacím okně. Při spuštění analýzy neopusťte stránku nebo proces analýzy se ukončí.
Přejděte kliknutím na tlačítko Další na stránku Správa hodnot domény v průvodci objevováním znalostí. Na této stránce můžete upravit znalosti přidané do domén znalostní báze. Můžete také vybrat následující:
Kliknutím na Zrušit ukončete aktivitu zjišťování znalostí, ztratíte práci a vrátíte se na domovskou stránku DQS.
Kliknutím na Zavřít se vrátíte na domovskou stránku DQS a uložíte práci. Znalostní báze bude uzamčena a stav znalostní báze v tabulce znalostní báze na obrazovce Open Knowledge Base bude Objevení – Objev. Po kliknutí na Zavřít, abyste mohli provést aktivitu správy domén, musíte kliknout na Objevování znalostí na obrazovce Otevřít znalostní bázi, pokračovat na obrazovku Správa znalostní báze: Spravovat doménové termíny, kliknout na Dokončita poté kliknout buď na Ano pro publikaci znalostní báze, nebo Ne pro uložení práce na znalostní bázi a ukončení.
Kliknutím se vrátíte na stránku Objevit.
Správa fáze výsledků zjišťování dat
Po provedení aktivity zjišťování znalostí můžete změnit hodnoty následujícím způsobem:
Přidejte do seznamu hodnot hodnotu domény nebo vyberte hodnotu a odstraňte ji ze seznamu.
Změňte stav hodnoty domény z toho, co ji proces zjišťování DQS označí, a změňte jej na správnou, chybnou nebo neplatnou hodnotu.
Zadejte hodnotu nahrazení hodnoty, která je chybná nebo není platná.
Nastavte dvě nebo více hodnot jako synonyma a změňte počáteční hodnotu nastavenou procesem zjišťování s výsledkem, že úvodní hodnota nahradí hodnotu synonyma, pokud byla při vytváření domény nastavena vlastnost Použít úvodní hodnotu.
Importuje hodnoty domény z excelového souboru.
Tabulka Hodnota zobrazuje znalosti přidané do znalostní báze pro jednu doménu. Tuto doménu vyberete v seznamu domén v podokně vlevo. Sloupce v poli jsou následující:
Sloupec Hodnota zobrazí všechny hodnoty, které proces zjišťování přidal do vybrané domény z pole v ukázce dat. Jakákoli hodnota, která je promítaná jako chyba, se zobrazí jako synonymum pro hodnotu, která je promítaná jako správná.
Sloupec Frequency zobrazuje počet instancí hodnoty v ukázkovém databázovém poli, na které je doména namapovaná. U složené domény se zobrazí pouze hodnoty s frekvencí větší nebo rovnou 20. Data četnosti jsou k dispozici, protože proces zjišťování znalostí má stále připojení k ukázkové databázi. Data četnosti nejsou k dispozici v tabulce domény na kartě Hodnoty domény na obrazovce Správa domény, protože proces správy domény nemá připojení k ukázkové databázi.
Sloupec Typ zobrazuje stav hodnoty podle toho, jak je určeno procesem zjišťování. Zelená kontrola označuje, že hodnota je správná nebo opravená; červený křížek označuje, že hodnota je chybná; a oranžový trojúhelník s vykřičníkem označuje, že hodnota není platná. Hodnota, která není platná, nevyhovuje požadavkům na data pro doménu. Hodnota, která je chybná, může být platná, ale není správnou hodnotou z důvodů dat.
Sloupec Opravit pro zobrazuje správnou hodnotu, na kterou se změní původní hodnota označená jako chybná nebo neplatná. DQS může navrhnout správnou hodnotu v důsledku procesu zjišťování.
Výsledky zjišťování můžete spravovat následujícím způsobem:
V podokně Seznam domén vlevo vyberte doménu, pro které chcete nastavit hodnoty domény. Zobrazené hodnoty můžete upravit následujícím postupem.
Zobrazte požadované výsledky v tabulce na základě jejich stavu tak, že vyberete stav v seznamu Filtr.
Najděte data, která chcete zkontrolovat nebo upravit, zadáním jednoho dalšího písmena, která chcete vyhledat do textového pole Najít. Zvýrazní se tak písmena všude, kde se objeví v libovolné zobrazené hodnotě.
Chcete-li omezit hodnoty zobrazené v tabulce pouze na hodnoty zjištěné v aktuální relaci, nikoli předchozí relace, klikněte na Zobrazit pouze nové.
Kliknutím na tlačítko Rozbalit vše zobrazíte všechny hodnoty v libovolné skupině synonym, když je aktuální stav sbalený, nebo na tlačítko Sbalit vše pro skrytí všech kromě vůdčí hodnoty v libovolné skupině synonym, když je aktuální stav rozbalený.
Kliknutím na tlačítko Zobrazit nebo skrýt panel Historie změn hodnot domény zobrazíte ukázkový panel ve spodní části tabulky hodnot, který zobrazuje nedávné změny v doménových hodnotách.
Vyhledejte všechny opravy, které navrhla Data Quality Services nastavením filtru na Chyba. Ověřte, zda je hodnota skutečně chybná a zda je hodnota ve sloupci Opravit na vhodná.
Nastavte Filtr na Všechny hodnoty a ověřte, zda je stav hodnot vhodný. Pokud chcete změnit stav hodnoty, vyberte hodnotu, a potom klikněte na tlačítko Nastavit vybrané hodnoty domény jako opravené (zaškrtnutí), na tlačítko Nastavit vybrané hodnoty domény jako chybné (křížek) nebo na tlačítko Nastavit vybrané hodnoty domény jako neplatné (trojúhelník).
Pokud chcete změnit stav hodnoty, pokračujte takto:
Nastavit vybrané hodnoty domény jako opravené: Chcete-li změnit stav hodnoty z chybné nebo neplatné na správnou, vyberte hodnotu a potom klikněte na Nastavit vybrané hodnoty domény jako opravené (kontrolu) z šipky dolů na panelu ikon nebo z rozevíracího seznamu Typ. Pokud je chybná nebo neplatná hodnota seskupena se správnou hodnotou, po operaci tuto chybnou nebo neplatnou hodnotu odstraňte.
Nastavit vybrané hodnoty domény jako chyby: Chcete-li změnit stav hodnoty ze správné nebo neplatné na Chyba, vyberte hodnotu a poté klikněte na ikonu Nastavit vybrané hodnoty domény jako chyby (křížek) v dolů-šipkovém panelu ikon nebo v rozbalovacím seznamu Typ. Do sloupce Opravit můžete zadat opravu, nebo ji nechat prázdnou.
Nastavit hodnoty vybrané domény jako neplatné: Chcete-li změnit stav hodnoty ze Správně nebo Chyba na Neplatný, vyberte hodnotu a potom klikněte na ikonu Nastavit vybrané hodnoty domény jako neplatné (trojúhelník) v panelu ikon nebo v rozevíracím seznamu Typ. Do sloupce Opravit můžete zadat opravu, nebo ji nechat prázdnou.
Opravit na: Poté, co je hodnota označena jako chybná nebo neplatná, zadejte novou hodnotu do sloupce Opravit pro. DQS přidá nový řádek pro náhradní hodnotu, označí ji jako správnou a pak seskupí dvě hodnoty. Nová hodnota se zobrazí jako hlavní hodnota, přičemž hlavní hodnota bude tučně a chybná nebo neplatná hodnota bude odsažená.
Pokud chcete určit hodnoty jako skupinu synonym, vyberte několik správných hodnot a pokračujte následujícím způsobem:
Nastavit vybrané hodnoty domény jako synonyma: Kliknutím nastavíte vybrané hodnoty jako synonyma. DQS označí jednu z hodnot jako úvodní hodnotu, kterou ostatní nahradí.
Poznámka
Pokud ve skupině vyberete dvě nebo více hodnot a jinou hodnotu mimo skupinu a nastavíte je jako synonyma, zobrazí se nesprávná chybová zpráva. Po zavření chybové zprávy se hodnoty správně nastaví jako synonyma.
Přerušení vztahu mezi vybranými synonymy: Kliknutím vrátíte zpět označení synonym.
Nastavit vybranou hodnotu domény jako úvodní hodnotu její skupiny: Změňte úvodní hodnotu skupiny tak, že vyberete hodnotu ve skupině, která není určená jako úvodní hodnota, a potom kliknete na Nastavit vybranou hodnotu domény jako úvodní hodnotu její skupiny tlačítko.
Kontrola pravopisu: Pokud jste povolili Kontrolu pravopisu na stránce vlastností domény, vyhledejte všechny hodnoty, které mají vlnovité červené podtržítko, což je označení, že Kontrola pravopisu navrhuje opravu. Klikněte pravým tlačítkem myši na hodnotu s podtržítkem a vyberte opravu, pokud se použije. Typ hodnoty se změní (nebo zůstane jako) a oprava se přidá do sloupce Opravit do sloupce. Kliknutím na šipku dolů zobrazíte další navrhované opravy. Zadejte opravu ručně, abyste ji přidali do slovníku Speller a mohli ji vybrat jako opravu. Další informace naleznete v tématu Použití nástroje DQS Speller a Nastavení vlastností domény.
Poznámka
Pokud chcete použít kontrolu pravopisu, můžete ji povolit na stránce Vlastnosti domény nebo pokud je na stránce Vlastnosti domény zakázaná, můžete kliknout na ikonu Povolit nebo zakázat kontrolu pravopisu na stránce Spravovat výsledky zjišťování dat na této stránce.
Přidat novou hodnotu domény: Kliknutím na tlačítko Přidat novou hodnotu domény přidejte řádek na konec tabulky. Po zadání hodnoty se řádek změní v abecedním pořadí.
Import hodnot domény z Excelu: Přidejte nové hodnoty z excelové tabulky kliknutím na šipku dolů u ikony Importovat hodnoty a potom vyberte Importovat hodnoty domény z Excelu. Zadejte název souboru, vyberte Použít první řádek jako záhlaví, pokud je to vhodné, a klepněte na tlačítko OK. Další informace najdete v tématu Import hodnot ze souboru aplikace Excel dodomény .
Import hodnot projektu: Přidejte nové hodnoty z projektu kvality dat kliknutím na šipku dolů u ikony Importovat hodnoty a poté vyberte možnost Import hodnot projektu. Zadejte název souboru, vyberte Použít první řádek jako záhlaví, pokud je to vhodné, a klepněte na tlačítko OK. Vyberte projekt, ze kterého chcete importovat hodnoty, a klepněte na tlačítko OK. Zobrazí se importované hodnoty. Klikněte na Dokončit. Další informace naleznete v tématu Import hodnot projektu do domény.
Odstranit vybrané hodnoty domény: Odeberte jednu nebo více existujících hodnot z domény tak, že vyberete hodnoty a potom kliknete na tlačítko Odstranit vybrané hodnoty domény. Položku DQS_NULL nelze odstranit, takže pokud zvolíte více hodnot, které chcete odstranit, a položka DQS_NULL je jednou z nich, operace selže.
Chcete-li dokončit aktivitu zjišťování znalostí, klikněte na tlačítko Dokončit. Pokud jste nekontrolovali všechny domény, zobrazí se automaticky otevírané okno. Klikněte na Ano pro pokračování v kontrole nebo na Ne pro ukončení. Pokud kliknete na Ne, zobrazí se další automaticky otevírané okno, které vám umožní provést následující akce:
Publikovat: Znalostní báze bude publikována pro aktuálního uživatele nebo jiné uživatele, kteří ho budou používat. Znalostní báze nebude uzamčena, stav znalostní báze (v tabulce znalostní báze) bude nastaven na prázdný a aktivity Domain Management a Knowledge Discovery budou k dispozici. Vrátíte se na domovskou stránku. Proces dokončíte kliknutím na Ano ve vyskakovacím okně.
Žádné: Vaše práce bude uložena, znalostní báze zůstane zamknutá a stav znalostní báze bude nastaven na V práci. Budou k dispozici aktivity Správy domény i zjišťování znalostí. Vrátíte se na domovskou stránku.
Zrušit: Vyskakovací okno se zavře a zůstanete na stránce Spravovat hodnotu domény.
Můžete také kliknout na následující položky:
zrušit ukončit aktivitu zjišťování znalostí, přijít o práci a vrátit se na domovskou stránku DQS.
Zavřete, abyste se při ukládání práce vrátili na domovskou stránku DQS. Znalostní báze pro vás bude uzamčena a stav znalostní báze v tabulce pro znalostní bázi na obrazovce Open Knowledge Base bude Zjišťování – Správa hodnot.
Kliknutím na Zpět se vrátíte na stránku Discover. Po kliknutí na Zavřít, pro provedení aktivity správy domén, museli byste kliknout na Otevřít znalostní bázi na obrazovce Otevřít znalostní bázi, pokračovat na obrazovku Správa znalostní báze: Spravovat podmínky domény, klikněte na Dokončita potom klikněte na Ano pro publikování znalostní báze nebo Ne pro uložení práce na znalostní bázi a ukončení.
Zpracovat: Po provedení zjišťování znalostí
Po přidání znalostí do případu znalostí v procesu zjišťování znalostí s asistencí počítače můžete znalostní bázi použít k čištění projektu okamžitě, nebo můžete před čištěním provést správu domény. Další informace o čištění dat nebo správě domén najdete v tématu Čištění dat nebo Správadomény .
Význam správných, chybových a neplatných hodnot
Každá hodnota v tabulce Hodnota na stránce hodnoty domény je přiřazena nastavení Typ, které může být Správné, Chyba, nebo Neplatnost. Typ hodnoty se vygeneruje zpočátku aktivitou zjišťování znalostí a podle potřeby ji můžete změnit. Konečný typ založený na zjišťování i interaktivních změnách je generován aktivitou čištění. Tato nastavení mají následující významy:
Správně: Toto je hodnota, která patří do domény a neobsahuje žádné chyby syntaxe. Například "Chicago" v doméně Města je správné.
Chyba: Jedná se o hodnotu, která patří do domény, ale je to nesprávná hodnota. Například "Shicago" místo "Chicago" v doméně města je chyba. DQS označí hodnotu jako chybnou, zjistí chybu syntaxe a přidruženou opravu v procesu zjišťování. Mezi chyby syntaxe patří překlepy.
Neplatný: Toto je hodnota, která nepatří do domény a nemá opravu. Například hodnota 12345 v doméně Města je neplatná. DQS označí hodnotu jako neplatnou, pokud selže pravidlo domény.
Typ hodnoty můžete ručně změnit na jednu ze dvou dalších hodnot. DQS nevynucuje v ručních operacích sémantiku platnosti a chyb. Opravu neplatné hodnoty můžete zadat beze změny jejího stavu. Hodnotu můžete označit jako neplatnou, i když neselhala doménové pravidlo. Hodnotu můžete označit jako chybnou, i když proces zjišťování neukazoval, že obsahuje chybu syntaxe. Můžete také odebrat opravu chybové hodnoty, která je označena jako Správná, aniž byste změnili její stav.
Když provádíte interaktivní čištění dat na stránce Spravovat a zobrazit výsledky v rámci aktivity Čištění, jsou neplatné a chybové hodnoty zahrnuté na kartě Neplatné na stránce Spravovat a zobrazit výsledky.
Zobrazení odpovídajících hodnot
Zobrazení můžete upravit následujícím způsobem:
Filtr požadované výsledky v tabulce na základě jejich stavu tak, že vyberete stav v rozevíracím seznamu Filtr.
Najděte data, která chcete zkontrolovat nebo upravit, zadáním jednoho nebo více písmen do vyhledávacího pole Najít. Zvýrazní se tak písmena všude, kde se objeví v libovolné zobrazené hodnotě.
Chcete-li omezit hodnoty zobrazené v tabulce pouze na hodnoty zjištěné v aktuální relaci, nikoli předchozí relace, klikněte na Zobrazit pouze nové.
Kliknutím na tlačítko Rozbalit vše zobrazte všechny hodnoty v libovolné skupině synonym v případě, že je aktuální stav sbalený.
Kliknutím na tlačítko Sbalit vše skryjete všechny kromě úvodní hodnoty v libovolné skupině synonym při rozbalení aktuálního stavu.
Kliknutím na tlačítko Zobrazit nebo skrýt panel Historie změn hodnot domény zobrazíte vyskakovací okno s náhledem ve spodní části tabulky hodnot, které ukazuje nedávné změny v kolekci hodnot domény.
Statistika profileru
Karta Profiler poskytuje statistiky, které označují kvalitu zdrojových dat. Tyto statistiky neměří kvalitu znalostní báze. Profilace ve zjišťování znalostí poskytuje přehled o úplnosti a jedinečnosti. Profilace při zjišťování znalostí neměří přesnost. Profilace pro správu znalostí vám pomůže vyhodnotit, do jaké míry je zdroj dat cenný pro vytváření a rozšiřování znalostí ve znalostní bázi.
Karta profileru poskytuje následující statistiky pro proces zjišťování podle pole a domény:
záznamy: Kolik záznamů v ukázce dat bylo zjištěno
celkové hodnoty: Kolik celkových hodnot bylo nalezeno pro každé pole a celkem
nové hodnoty: Kolik z celkových hodnot pro každé pole a všechna mapovaná pole byly od posledního procesu zjišťování nové a jejich procento celkových hodnot
jedinečných hodnot: Kolik z celkových hodnot pro každé pole a všechna mapovaná pole byly jedinečné a jejich procento celkových hodnot
nové jedinečné hodnoty: Kolik jedinečných hodnot pro každé pole a všechna mapovaná pole byly od posledního procesu zjišťování nové a jejich procento celkových hodnot
Platné v hodnotách domény: Kolik z celkových hodnot pro každé pole a všechna mapovaná pole byly platné a jejich procento celkových hodnot
Statistiky polí zahrnují následující:
Pole: Název pole ve zdrojové databázi
Doména: Název domény, která se mapuje na pole
Nová: Počet nových hodnot a procento nových hodnot v porovnání s existujícími hodnotami v poli
Jedinečné: Počet jedinečných záznamů v poli a jejich procento z celkového počtu
Platné v doméně: Počet platných hodnot domény a jejich procento z celkového počtu domén
Úplnost: Úplnost každého zdrojového pole, které je namapováno pro porovnávací cvičení
Profilace při zjišťování znalostí poskytuje přehled o úplnosti. Pokud profilace říká, že pole je relativně neúplné, můžete ho odebrat ze znalostní báze projektu kvality dat. Profilace nemusí poskytovat spolehlivou statistiku úplnosti pro složené domény. Pokud potřebujete statistiku úplnosti, použijte místo složených domén jednotlivé domény. Pokud chcete použít složené domény, můžete vytvořit jednu znalostní bázi s jednou doménou pro profilaci, určit úplnost a vytvořit další doménu se složenou doménou pro proces čištění. Například profilace může zobrazit 95% úplnost záznamů adres pomocí složené domény, ale pro jeden ze sloupců může být mnohem vyšší úroveň neúplnosti, například sloupec PSČ. V tomto příkladu můžete chtít změřit úplnost sloupce PSČ s jednou doménou. Profilace bude pravděpodobně poskytovat spolehlivé statistiky přesnosti pro složené domény, protože můžete měřit přesnost více sloupců společně. Hodnota těchto dat je ve složené agregaci, takže můžete chtít změřit přesnost složenou doménou.
Statistiky se zobrazují na kartě Profiler v následujících fázích:
Ve fázi Předzpracování záznamů načte DQS data a indexuje je. To se provádí záznam po záznamu nebo dávka po dávce, takže průběh může být zobrazován podle záznamů. Během provádění tohoto kroku lze vygenerovat většinu profilových dat, s výjimkou hodnot platných v doméně .
Ve fázi Spuštění pravidel domény se sloupec Platná v doméně zaplní, protože všechna pravidla domény jsou provedena jako atomická jednotka pro každou hodnotu domény.
Ve fázi Probíhající zjišťování se na kartě Profiler neaktualizují žádná nová data. Všechny chyby syntaxe, ke kterým došlo, najdete v dalším kroku průvodce, ve fázi Správa hodnot domény.
U aktivity zjišťování znalostí mají následující podmínky za následek oznámení:
Pole neobsahuje žádné nové hodnoty; doporučuje se ho odstranit z mapování.
Pole obsahuje několik nových hodnot; Možná ho budete chtít odstranit z mapování.
Pole je prázdné; doporučuje se ho odstranit z mapování.
Skóre úplnosti pole je velmi nízké; Možná ho budete chtít odstranit z mapování.
Všechny hodnoty v poli jsou neplatné; měli byste ověřit mapování a relevantnost pravidel domény pro obsah pole.
V poli je málo platných hodnot; měli byste ověřit mapování a relevantnost pravidel domény k obsahu pole.
Další informace o profilaci naleznete v tématu Profilace dat a oznámení v DQS.