Spuštění odpovídajícího projektu

Článek
03/05/2025

platí pro:SQL Server

Toto téma popisuje, jak provádět porovnávání dat ve službě Data Quality Services (DQS). Proces porovnávání identifikuje clustery odpovídajících záznamů na základě odpovídajících pravidel v zásadách párování, určí jeden záznam z každého clusteru jako přeživšího na základě pravidla přeživšího a exportuje výsledky. DQS provádí proces párování, také nazývaný odstranění duplicit, v počítačem asistovaném procesu, ale pravidla párování vytváříte interaktivně a vybíráte pravidlo pro přetrvání z několika možností, takže máte kontrolu nad procesem párování.

Porovnávání se provádí ve třech fázích: proces mapování, ve kterém identifikujete zdroj dat a mapujete domény ke zdroji dat, proces párování, ve kterém spustíte analýzu párování, a proces přežití a exportu, ve kterém určíte pravidlo přežití a exportujete výsledky párování. Každý z těchto procesů se provádí na samostatné stránce průvodce odpovídající aktivitou, který umožňuje přecházet zpět na různé stránky, znovu spustit proces a zavřít konkrétní odpovídající proces a pak se vrátit do stejné fáze procesu. DQS poskytuje statistiky o zdrojových datech, odpovídajících pravidlech a odpovídajících výsledcích, které vám umožní činit informovaná rozhodnutí o párování a upřesňovat odpovídající proces.

Musíte se připravit na párování vytvořením párovací politiky s jedním nebo více párovacími pravidly a spuštěním této politiky na ukázková data. Odpovídající proces projektu je oddělený od procesu odpovídajících zásad a znalostní báze není naplněna odpovídajícími znalostmi získanými z odpovídajícího projektu. Další informace o vytvoření odpovídající zásady naleznete v tématu Vytvoření odpovídající zásady.

Než začnete

Požadavky

Musíte vytvořit znalostní bázi s odpovídajícími zásadami, které se skládají z jednoho nebo více odpovídajících pravidel.
Pokud jsou zdrojová data, která se mají shodovat, v souboru Excel, musí být aplikace Microsoft Excel nainstalována na počítači klienta kvality dat. Jinak nebudete moct vybrat excelové soubory ve fázi mapování. Soubory vytvořené aplikací Microsoft Excel mohou mít příponu .xlsx, .xlsnebo .csv. Pokud se používá 64bitová verze Aplikace Excel, jsou podporovány pouze soubory aplikace Excel 2003 (.xls). Soubory Excelu 2007 nebo 2010 (.xlsx) nejsou podporované. Pokud používáte 64bitovou verzi Excelu 2007 nebo 2010, uložte soubor jako soubor .xls nebo .csv nebo nainstalujte 32bitovou verzi Excelu.

Bezpečnost

Dovolení

Ke spuštění odpovídajícího projektu musíte mít dqs_kb_editor nebo roli dqs_administrator v databázi DQS_MAIN.

První krok: Spuštění odpovídajícího projektu

V projektu kvality dat, který vytvoříte v klientské aplikaci DQS, provedete odpovídající aktivitu.

Spusťte klienta kvality dat. Informace o tom najdete v tématu Spuštění klientské aplikace pro kvalitu dat.
Na domovské obrazovce Klienta kvality dat klikněte na Nový projekt kvality dat pro provedení shod v novém projektu kvality dat. Zadejte název projektu kvality dat, zadejte popis a vyberte znalostní bázi, kterou chcete použít pro porovnávání v Použít znalostní bázi. Klikněte na Odpovídající pro aktivitu. Klikněte na Další a přejděte do fáze mapování.
Kliknutím na Otevřít projekt kvality dat proveďte porovnávání v existujícím projektu kvality dat. Vyberte projekt a klikněte na Další. (Nebo můžete kliknout na projekt v části Projekt pro zvýšení kvality dat.) Pokud otevřete odpovídající projekt, který byl zavřený, přejdete do fáze, ve které byla uzavřena odpovídající aktivita projektu (jak je uvedeno ve sloupci State v tabulce projektu nebo v názvu projektu v části Poslední projekt kvality dat). Pokud otevřete odpovídající projekt, který byl dokončen, přejdete na stránku Export (a nemůžete se vrátit na předchozí obrazovky).

Fáze mapování

Ve fázi mapování identifikujete zdroj dat, na kterých spustíte odpovídající analýzu, a namapujete zdrojové sloupce na domény, aby byly domény dostupné pro odpovídající aktivitu.

Na stránce Map ponechte zdroj dat jako SQL Server, vyberte databázi, na které chcete provést porovnávání, a poté vyberte tabulku. Zdrojová databáze musí být ve stejné instanci SQL Serveru jako server DQS. Jinak se nezobrazí v rozevíracím seznamu.
Chcete-li spustit porovnávání s daty v Excelové tabulce, vyberte Excelový soubor pro zdroj dat, klikněte na Procházet a vyberte Excelový soubor a ponechte Použít první řádek jako hlavičku, pokud je to vhodné. Ve sešituvyberte list v Excel souboru, který bude zdrojem dat. Aby bylo možné vybrat excelový soubor, musí být aplikace Excel nainstalována na počítači klienta kvality dat. Pokud není aplikace Excel nainstalována v počítači Klienta pro kvalitu dat, tlačítko Procházet nebude k dispozici a pod tímto textovým polem se zobrazí oznámení, že aplikace Excel není nainstalovaná.
V části Mapovánívyberte pole ve zdroji dat pro Sloupec zdrojea pak vyberte doménu odpovídající. Opakujte pro všechny domény, které používáte v odpovídajícím procesu. Každá doména definovaná v odpovídajících zásadách musí být namapována na příslušný zdrojový sloupec. Na stránce Mapa se zobrazí domény definované v odpovídajících zásadách a pravidla v odpovídajících zásadách v pravém podokně.

Poznámka

Zdrojová data můžete mapovat na doménu DQS pouze v případě, že je zdrojový datový typ podporovaný v DQS a odpovídá datovému typu domény DQS. Informace o podporovaných datových typech v DQS naleznete v tématu Podporované sql Server a datové typy SSIS pro domény DQS.
Kliknutím na ovládací prvek plus (+) přidáte řádek do tabulky Mapování nebo na ovládací prvek minus (-) odeberete řádek.
Kliknutím na Náhled zdroje dat zobrazíte data v tabulce nebo zobrazení SQL Serveru, které jste vybrali, nebo na listu aplikace Excel, který jste vybrali.
Kliknutím na Zobrazit nebo vybrat složené domény zobrazíte seznam složených domén dostupných ve znalostní bázi a vyberete podle potřeby mapování.
Kliknutím na Další přejděte do odpovídající fáze.

Poznámka

Kliknutím na Zavřít uložte fázi odpovídajícího projektu a vraťte se na domovskou stránku DQS. Při příštím otevření tohoto projektu bude pokračovat ze stejné fáze. Kliknutím na Zrušit ukončíte párovací aktivitu, čímž přijdete o svou práci, a vrátíte se na domovskou stránku DQS.

Fáze párování

V této fázi provedete proces porovnávání s asistencí počítače, který ukazuje, kolik shod existuje ve zdrojových datech na základě odpovídajících pravidel. Tento proces vygeneruje odpovídající tabulku výsledků zobrazující clustery, které DQS identifikoval, každý záznam v clusteru s jeho ID záznamu a odpovídajícím skóre, a počátečním záznamem clusteru. Počáteční záznam v clusteru je vybrán náhodně. Záznam, který zůstane po sloučení, určíte tak, že zvolíte pravidlo přežití na stránce Export, když spouštíte projekt shody. Každý další řádek v clusteru se považuje za shodu; v tabulce výsledků je uvedeno odpovídající skóre (ve srovnání s hlavním záznamem). Číslo clusteru je stejné jako ID záznamu pro počáteční záznam v clusteru.

U shodných výsledků můžete filtrovat data, která chcete, a odmítnout shody, které nechcete. Data profilace pro odpovídající proces můžete zobrazit jako celek, specifika odpovídajících pravidel, která se použijí, a statistiky o odpovídajících výsledcích jako celku. Odpovídající proces může identifikovat překrývající se nebo nepřekrývající se clustery a pokud se spouští vícekrát, je možné je spouštět na datech nově zkopírovaných ze zdroje a znovu indexovat nebo u předchozích dat.

Na stránce Odpovídajícívyberte Překrývající se clustery z rozevíracího seznamu, aby se při provádění shody zobrazily kontingenční záznamy a následující záznamy pro všechny clustery, a to i v případě, že skupiny clusterů mají společné záznamy. Vyberte Nepřekrývající se clustery, aby se při provádění párování zobrazily clustery, které mají společné záznamy jako jeden cluster.
Kliknutím na Znovu načíst data ze zdroje (výchozí) zkopírujte data ze zdroje dat do pracovní tabulky a znovu je indexujte při spuštění projektu slučování. Kliknutím na Spustit na předchozích datech spusťte odpovídající projekt bez kopírování dat do pracovní tabulky a bez jejich opětovného indexování. Provést u předchozích dat je pro první spuštění odpovídajícího projektu zakázáno, nebo pokud změníte mapování na stránce mapy a potom v následujícím automaticky otevírané nabídce stiskněte Ano. V obou těchto případech musíte znovu indexovat. Pokud se odpovídající projekt nezměnil, není nutné ho znovu indexovat. Práce s předchozími daty může zlepšit výkon.
Klikněte na Zahájit pro zahájení procesu porovnávání vybraného zdroje dat.
Pokud chcete zastavit odpovídající projekt a zahodit výsledky, klikněte na Zastavit.
Po dokončení odpovídajícího procesu ověřte, že jsou v tabulce Odpovídající výsledky clustery vhodné, a prohlédněte si statistiky na kartách Profiler a Odpovídající výsledky, abyste dosáhli požadovaných výsledků. Pokud chcete zobrazit odpovídající záznamy, vyberte Matched pro Filter nebo zobrazte chybějící záznamy tak, že vyberete Unmatched.
Pokud máte v zásadách párování více odpovídajících pravidel, klikněte na kartu Odpovídající pravidla a identifikujte ikonu pro každé pravidlo. Poté ověřte, které pravidlo identifikovalo záznam jako shodu, a to tak, že určíte pravidlo ve sloupci Pravidlo v tabulce Odpovídající výsledky.
Pokud v tabulce vyberete záznam, který není kontingenční, a kliknete na ikonu Zobrazit podrobnosti (nebo na záznam dvakrát kliknete), DQS zobrazí vyskakovací okno Podrobnosti o skóre shody, které zobrazí vybraný záznam a jeho kontingenční záznam (a hodnoty ve všech jejich polích), skóre mezi nimi a podrobný přehled příspěvků ke skóre shody jednotlivých polí. Dvojité kliknutí na záznam kontingenční tabulky nezobrazí vyskakovací okno.
Kliknutím na ikonu Sbalit všechny sbalte záznamy zobrazené v tabulce Odpovídající výsledky tak, aby zahrnovaly pouze hlavní záznam, nikoli duplicitní záznamy. Kliknutím na Rozbalit vše rozbalte záznamy zobrazené v tabulce Odpovídající výsledky tak, aby zahrnovaly všechny duplicitní záznamy.
Pokud chcete záznam z odpovídajících výsledků odmítnout, zaškrtněte u záznamu políčko Odmítnuto.
Pokud chcete změnit minimální odpovídající skóre, které určuje úroveň shody, kterou musí mít záznam, aby byl zobrazen, vyberte ikonu Min. Odpovídající skóre nad pravou stranou tabulky a zadejte vyšší číslo. Minimální odpovídající skóre je ve výchozím nastavení nastaveno na 80%. Klikněte na Aktualizovat, chcete-li změnit obsah tabulky.
Po dokončení analýzy se tlačítko Start změní na tlačítko Restartovat. Klikněte na Restart, abyste znovu spustili projekt analýzy. Výsledky z předchozí analýzy se ale zatím neuložily, takže kliknutím na Restartovat dojde ke ztrátě předchozích dat. Chcete-li pokračovat, klikněte v místní nabídce na Ano. Při spuštění analýzy neopusťte stránku nebo proces analýzy se ukončí.
Klikněte na Další pro pokračování do fáze udržitelnosti a exportu.

Fáze přežití a exportu

V procesu přeživších určuje služba Data Quality Services přeživší záznam pro každý shluk, který nahradí ostatní záznamy, jež se s ním v shluku shodují. Poté exportuje výsledky párování a/nebo přežití do tabulky v databázi SQL Serveru, do souboru .csv nebo do souboru Excel.

Přežití je volitelné. Výsledky můžete exportovat bez provádění konsolidace záznamů, v takovém případě by DQS použil výchozí záznam, který byl určen v analýze párování. Pokud jsou dva nebo více záznamů v clusteru v souladu s pravidlem přeživšího, proces přežití vybere nejnižší ID záznamu jako přeživší z konfliktních záznamů. Můžete exportovat přeživší do různých souborů nebo tabulek pomocí různých pravidel přeživších.

Na stránce Export vyberte cíl, do kterého chcete exportovat odpovídající data v typu cíle: SQL Server, soubor CSVnebo Excelový soubor.

Důležitý

Pokud používáte 64bitovou verzi aplikace Excel, nemůžete do excelového souboru exportovat odpovídající data; můžete exportovat pouze do databáze SQL Serveru nebo do .csv souboru.
Pokud jste vybrali SQL Server pro cílový typ, vyberte databázi, do které chcete exportovat výsledky, v poli Název databáze.

Důležitý

Cílová databáze musí být ve stejné instanci SQL Serveru jako server DQS. Jinak se nezobrazí v rozevíracím seznamu.
Zaškrtněte políčko Odpovídající výsledky k exportu odpovídajících výsledků (viz výše vysvětlení) do určené tabulky v databázi SQL Serveru nebo do určeného .csv nebo excelového souboru. Zaškrtněte políčko pro výstup Výsledky přežití, abyste exportovali výsledky přežití (viz vysvětlení výše) do určené tabulky v databázi SQL Server nebo do určeného .csv či Excel souboru.

Pro odpovídající výsledky se vyexportují následující položky:
- Seznam clusterů a odpovídajících záznamů v každém clusteru, včetně názvu pravidla a skóre. Záznam kontingenční tabulky bude označen jako "Pivot". Clustery se zobrazí jako první v seznamu exportů.
- Seznam neseřazených záznamů se sloupci Skóre a Název pravidla s hodnotou NULL. Tyto záznamy se za clustery připojí k seznamu exportu.
Výsledky přeživších se vyexportují takto:
- Seznam záznamů přeživších určený procesem přežití podle pravidla přežití. Tyto záznamy se zobrazí jako první v seznamu exportu.
- Seznam chybějících záznamů, které nejsou zahrnuté v clusterech odpovídajících záznamů. Tyto záznamy se připojí za výsledky přeživších.
Pokud jste vybrali SQL Server pro Cílový typ, zadejte názvy tabulek, do kterých chcete exportovat výsledky, do pole Název tabulky. Pokud exportujete odpovídající výsledky i výsledky přeživších, musí mít cílové tabulky různé názvy, které jsou pro databázi jedinečné.
Pokud jste vybrali soubor CSV pro cílový typ, zadejte soubor a cestu k souboru CSV, do kterého chcete exportovat název souboru CSV.
Pokud jste vybrali soubor aplikace Excel pro cílový typ, zadejte název a cestu Excel souboru, do kterého chcete exportovat, do názvu souboru aplikace Excel. Pokud používáte 64bitovou verzi aplikace Excel, nemůžete exportovat do excelového souboru.
Vyberte pravidlo přeživších následujícím způsobem:
- Vyberte otočný záznam (výchozí) a identifikujte přeživší záznam jako počáteční otočný záznam zvolený libovolně DQS.
- Vyberte Nejúplnější a nejdelší záznam k identifikaci záznamu, který přežije jako záznam s největším počtem vyplněných polí, a v každém poli má největší počet termínů. Všechna zdrojová pole jsou zaškrtnutá, i ta pole, která nebyla namapována na doménu na stránce map.
- Vyberte Nejúplnější záznam a identifikujte záznam, který přežije jako záznam s největším počtem vyplněných polí. Vyplněné pole obsahuje alespoň jednu hodnotu (řetězec, číslice nebo obojí). Všechna zdrojová pole jsou zaškrtnutá, i ta pole, která nebyla namapována na doménu na stránce Mapa. Vyplněné pole obsahuje alespoň jednu hodnotu (řetězec, číslice nebo obojí).
- Vyberte nejdelší záznam, abyste identifikovali záznam, který přežije, jako záznam s největším počtem termínů ve zdrojových polích. Aby bylo možné určit délku každého záznamu, DQS ověří délku termínů ve všech zdrojových polích, a to i těch polí, která nebyla namapována na doménu na stránce Map.
Zobrazte statistiky na záložce Profiler, abyste se ujistili, že dosahujete požadovaných výsledků.
Kliknutím na Exportovat výsledky exportujte. Zobrazí se dialogové okno Odpovídající export, které zobrazuje průběh a výsledky exportu.
- Pokud jste jako cíl dat vybrali SQL Serveru, vytvoří se ve vybrané databázi nová tabulka se zadaným názvem.
- Pokud jste jako cíl dat vybrali soubor CSV, soubor .csv se vytvoří v umístění na serveru pro kontrolu kvality dat s názvem souboru, který jste zadali dříve v poli název souboru CSV.
- Pokud jste jako cíl dat vybrali Excelový soubor, vytvoří se .xlsx soubor na umístění na počítači se serverem pro kvalitu dat s názvem souboru, který jste zadali dříve v poli Název Excelového souboru.
Ověřte, zda byl export úspěšně dokončen, a potom klepněte na tlačítko Zavřít.
Kliknutím na Dokončit dokončete odpovídající projekt.

Poznámka

Pokud jste dokončili odpovídající projekt a pak ho znovu použijete, využije znalostní bázi tak, jak byla v době publikace. Od dokončení projektu nebude používat žádné změny, které jste provedli ve znalostní bázi. Pokud chcete tyto změny použít nebo použít novou znalostní bázi, budete muset vytvořit nový odpovídající projekt. Pokud jste vytvořili, ale nedokončili projekt shody, budou všechny změny, které jste publikovali do zásad shody, použity, pokud v projektu spustíte shodu.

Zpracovat: Po spuštění odpovídajícího projektu

Po spuštění odpovídajícího projektu můžete změnit odpovídající zásady ve znalostní bázi a vytvořit a spustit další odpovídající projekt na základě aktualizované odpovídající zásady. Další informace naleznete v tématu Vytvoření odpovídající zásady.

Karty profilování a výsledků

Karty Profiler a Výsledky obsahují statistiky pro proces porovnání.

Karta profileru

Kliknutím na záložku Profiler zobrazte statistiky zdrojové databáze a pro každé pole zahrnuté v pravidle politiky. Statistiky budou aktualizovány při spuštění pravidla zásad. Profilace vám pomůže vyhodnotit efektivitu procesu odstranění duplicit, což vám pomůže určit, do jaké míry může proces zlepšit kvalitu dat. Přesnost při profilaci není pro odpovídající projekt důležitá.

Statistika zdrojové databáze zahrnuje následující:

Záznamy: Celkový počet záznamů v databázi
celkový počet hodnot: Celkový počet hodnot v polích
nové hodnoty: Celkový počet hodnot, které jsou od předchozího spuštění nové, a jejich procento celku
jedinečné hodnoty: Celkový počet jedinečných hodnot v polích a jejich procento celku
nové jedinečné hodnoty: Celkový počet jedinečných hodnot, které jsou v polích nové, a jejich procento celku

Statistiky polí zahrnují následující:

Pole: Název pole, které bylo součástí mapování.
Doména: Název domény, která byla namapována na pole.
Nové: Počet nalezených nových shod a jejich procento z celku
Jedinečné: Počet jedinečných záznamů v poli a jejich procento z celkového počtu
Úplnost: Procento, do kterého je spuštění pravidla dokončeno.

Oznámení o shodě zásad

U odpovídající aktivity zásad mají následující podmínky za následek oznámení:

Pole je prázdné ve všech záznamech; doporučuje se ho odstranit z mapování.
Skóre úplnosti pole je velmi nízké; Možná ho budete chtít odstranit z mapování.
Všechny hodnoty v poli jsou neplatné; měli byste ověřit mapování a relevantnost pravidel domény pro obsah pole.
V poli je málo platných hodnot; měli byste ověřit mapování a relevantnost pravidel domény vůči obsahu pole.
V tomto poli je vysoká úroveň jedinečnosti. Použití tohoto pole v politice párování může snížit počet nalezených shod.

Karta Pravidla shody

Kliknutím na tuto kartu zobrazíte seznam pravidel v odpovídajících zásadách a podmínkách v pravidle.

Seznam pravidel
Zobrazí seznam všech odpovídajících pravidel v odpovídajících zásadách. Vyberte jedno z pravidel pro zobrazení podmínek daného pravidla v tabulce Odpovídající pravidlo.

Tabulka pravidel pro shodu
Zobrazí každou podmínku ve vybraném pravidle, včetně domény, hodnoty podobnosti, váhy a výběru předpokladů.

Záložka Shodné výsledky

Kliknutím na kartu Odpovídající výsledky zobrazíte statistiky pro analýzu zdroje dat pomocí znalostí vybraných pro projekt a odpovídajícího pravidla nebo pravidel v dané znalostní bázi. Statistiky zahrnují následující:

Celkový počet záznamů v databázi
Celkový počet odpovídajících záznamů v databázi
Počet záznamů v databázi, které nejsou považovány za duplicity
Počet zjištěných clusterů
Průměrná velikost clusteru (počet duplicitních záznamů vydělený počtem clusterů)
Nejmenší počet duplicit v clusteru
Největší počet duplicit v clusteru

Sdílet prostřednictvím