Een overeenkomend project uitvoeren
van toepassing op:SQL Server-
In dit onderwerp wordt beschreven hoe u gegevens kunt vergelijken in DQS (Data Quality Services). Het proces van het matchen identificeert clusters van overeenkomende records op basis van matchingsregels in het matchingsbeleid, wijst één record per cluster aan als de overlevende op basis van een overlevingsregel, en exporteert de resultaten. DQS voert het afstemmingsproces, ook wel deduplicatie genoemd, uit in een computerondersteund proces, maar u stelt de overeenkomende regels interactief op en u selecteert de overlevingsregel uit meerdere opties, zodat u het afstemmingsproces bepaalt.
Het vergelijken wordt uitgevoerd in drie fasen: een toewijzingsproces waarin u de gegevensbron identificeert en domeinen toewijst aan de gegevensbron, een matchingsproces waarin u de matchinganalyse uitvoert, en een overlevings- en exportproces waarin u de overlevingsregel aanwijst en de matchingsresultaten exporteert. Elk van deze processen wordt uitgevoerd op een afzonderlijke pagina van de wizard Overeenkomende activiteit, zodat u heen en weer naar verschillende pagina's kunt gaan, het proces opnieuw kunt uitvoeren en een specifiek overeenkomend proces wilt sluiten en vervolgens kunt terugkeren naar dezelfde fase van het proces. DQS biedt u statistieken over de brongegevens, de overeenkomende regels en de overeenkomende resultaten waarmee u weloverwogen beslissingen kunt nemen over overeenkomende overeenkomsten en het overeenkomende proces kunt verfijnen.
Je moet je voorbereiden op afstemming door een afstemmingsbeleid te maken met een of meer afstemmingsregels en de policy toe te passen op voorbeeldgegevens. Het overeenkomende projectproces staat los van het overeenkomende beleidsproces en een knowledge base wordt niet gevuld met overeenkomende kennis die is opgedaan uit het overeenkomende project. Zie Een overeenkomend beleid makenvoor meer informatie over het maken van een overeenkomend beleid.
Voordat u begint
Voorwaarden
U moet een knowledge base hebben gemaakt met een overeenkomend beleid dat bestaat uit een of meer overeenkomende regels.
Microsoft Excel moet worden geïnstalleerd op de Data Quality Client-computer, als de brongegevens die moeten worden afgestemd zich in een Excel-bestand bevinden. Anders kunt u het Excel-bestand niet selecteren tijdens de toewijzingsfase. De bestanden die door Microsoft Excel zijn gemaakt, kunnen een uitbreiding hebben van .xlsx, .xlsof .csv. Als de 64-bits versie van Excel wordt gebruikt, worden alleen Excel 2003-bestanden (.xls) ondersteund; Excel 2007- of 2010-bestanden (.xlsx) worden niet ondersteund. Als u een 64-bits versie van Excel 2007 of 2010 gebruikt, slaat u het bestand op als een .xls-bestand of een .csv-bestand of installeert u in plaats daarvan een 32-bits versie van Excel.
Veiligheid
Machtigingen
U moet de dqs_kb_editor of de dqs_administrator rol in de DQS_MAIN-database hebben om een overeenkomend project uit te voeren.
Eerste stap: een overeenkomend project starten
U voert de overeenkomende activiteit uit in een gegevenskwaliteitsproject dat u in de DQS-clienttoepassing maakt.
Start de client voor gegevenskwaliteit. Zie De clienttoepassing voor gegevenskwaliteit uitvoerenvoor meer informatie hierover.
Klik in het beginscherm van de Data Quality Client op New Data Quality Project om afstemming uit te voeren in een nieuw gegevenskwaliteitsproject. Voer een naam in voor het gegevenskwaliteitsproject, voer een beschrijving in en selecteer de kennisbank die u wilt gebruiken voor het matchen in Gebruik kennisbank. Klik op overeenkomende voor de activiteit. Klik op Volgende om door te gaan naar de toewijzingsfase.
Klik op Open gegevenskwaliteitsproject om overeenkomsten te zoeken in een bestaand gegevenskwaliteitsproject. Selecteer het project en klik vervolgens op Volgende. (U kunt ook klikken op een project onder Recent gegevenskwaliteitsproject.) Als u een overeenkomend project opent dat is gesloten, gaat u verder met de fase waarin de overeenkomende projectactiviteit is gesloten (zoals aangegeven door de kolom State in de projecttabel of in de projectnaam onder Recent gegevenskwaliteitsproject). Als u een overeenkomend project opent dat is voltooid, gaat u naar de pagina Exporteren (en kunt u niet teruggaan naar vorige schermen).
Kaartfase
In de toewijzingsfase identificeert u de bron van de gegevens waarop u de overeenkomende analyse uitvoert en wijst u bronkolommen toe aan domeinen om de domeinen beschikbaar te maken voor de overeenkomende activiteit.
Op de pagina Map, om overeenkomstige verwerking op een database uit te voeren, laat u Gegevensbron als SQL Serverstaan, selecteert u de database waarop u de overeenkomstige verwerking wilt uitvoeren en selecteert u vervolgens de tabel. De brondatabase moet aanwezig zijn in hetzelfde SQL Server-exemplaar als de DQS-server. Anders wordt deze niet weergegeven in de vervolgkeuzelijst.
Om overeenstemming te verkrijgen op gegevens in een Excel-spreadsheet, selecteert u Excel-bestand voor gegevensbron, klikt u op Bladeren, selecteert u het Excel-bestand, en laat u Eerste rij gebruiken als koptekst geselecteerd, indien van toepassing. Selecteer in Werkbladhet werkblad in het Excel-bestand dat de bron van de gegevens is. Excel moet zijn geïnstalleerd op de clientcomputer van Data Quality om een Excel-bestand te selecteren. Als Excel niet is geïnstalleerd op de clientcomputer voor gegevenskwaliteit, is de knop Bladeren niet beschikbaar en krijgt u onder dit tekstvak een melding dat Excel niet is geïnstalleerd.
Selecteer onder -toewijzingeneen veld in de gegevensbron voor -bronkolomen selecteer vervolgens het bijbehorende domein. Herhaal dit voor alle domeinen die u in het overeenkomende proces gebruikt. Elk domein dat is gedefinieerd in het overeenkomende beleid, moet worden toegewezen aan de juiste bronkolom. Op de Kaartpagina worden de domeinen weergegeven die zijn gedefinieerd in het overeenstemmingsbeleid, evenals de regels van dit beleid in het rechterdeelvenster.
Notitie
U kunt de brongegevens alleen toewijzen aan een DQS-domein als het brongegevenstype wordt ondersteund in DQS en overeenkomt met het gegevenstype DQS-domein. Zie Ondersteunde SQL Server- en SSIS-gegevenstypen voor DQS-domeinenvoor informatie over ondersteunde gegevenstypen in DQS.
Klik op de plus (+) knop om een rij toe te voegen aan de tabel Toewijzingen of op de min (-) knop om een rij te verwijderen.
Klik op Voorbeeld van gegevensbron om de gegevens weer te geven in de SQL Server-tabel of -weergave die u hebt geselecteerd, of het Excel-werkblad dat u hebt geselecteerd.
Klik op de knop Weergave/Selecteer Samengestelde Domeinen om een lijst weer te geven van de samengestelde domeinen die beschikbaar zijn in de kennisbank en selecteer deze indien nodig voor koppeling.
Klik op Volgende om door te gaan naar de overeenkomende fase.
Notitie
Klik op sluiten om de fase van het overeenkomende project op te slaan en terug te keren naar de startpagina van DQS. De volgende keer dat u dit project opent, begint het vanaf dezelfde fase. Klik op annuleren om de overeenkomende activiteit te beëindigen, uw werk te verliezen en terug te keren naar de startpagina van DQS.
Overeenkomende fase
In deze fase voert u een computergestuurd overeenkomend proces uit dat laat zien hoeveel overeenkomsten er zijn in de brongegevens op basis van de overeenkomende regels. Dit proces genereert een overeenkomende resultatentabel met de clusters die DQS heeft geïdentificeerd, elke record in het cluster met de record-id en de overeenkomende score en de eerste voorlooprecord voor het cluster. De leidende record in het cluster wordt willekeurig geselecteerd. U bepaalt het overblijvende record door de overlevingsregel te selecteren op de pagina Export wanneer u het overeenkomende project uitvoert. Elke extra rij in een cluster wordt beschouwd als een overeenkomst; de overeenkomende score (vergeleken met de voorlooprecord) wordt weergegeven in de resultatentabel. Het clusternummer is hetzelfde als de record-id voor de voorlooprecord in het cluster.
In de overeenkomende resultaten kunt u filteren op de gewenste gegevens en overeenkomsten weigeren die u niet wilt. U kunt profileringsgegevens weergeven voor het overeenkomende proces als geheel, details over de toegepaste overeenkomende regels en statistieken over de overeenkomende resultaten als geheel. Het overeenkomende proces kan overlappende of niet-overlappende clusters identificeren en als ze meerdere keren worden uitgevoerd, kunnen worden uitgevoerd op gegevens die zojuist zijn gekopieerd uit de bron en opnieuw geïndexeerd, of op eerdere gegevens.
Selecteer op de pagina MatchingOverlappende clusters in de vervolgkeuzelijst om de draaipuntrecords en de volgende records weer te geven voor alle clusters wanneer clusterovereenkomsten worden uitgevoerd, zelfs als groepen clusters records gemeen hebben. Selecteer Niet-overlappende clusters om clusters met gemeenschappelijke records als aparte eenheden weer te geven wanneer de matching-procedure wordt uitgevoerd.
Klik op Gegevens opnieuw laden uit de bron (de standaardinstelling) om gegevens uit de gegevensbron te kopiëren naar de faseringstabel en deze opnieuw te indexeren wanneer u het overeenkomende project uitvoert. Klik op Uitvoeren op vorige gegevens om een overeenkomend project uit te voeren zonder de gegevens naar de faseringstabel te kopiëren en de gegevens opnieuw te indexeren. Uitvoeren op eerdere gegevens is uitgeschakeld voor de eerste uitvoering van het matchingsproject of als u de mapping wijzigt op de pagina Mapping en vervolgens drukt u op Ja in de volgende pop-up. In beide gevallen moet u opnieuw indexeren. Het is niet nodig om opnieuw te indexeren als het overeenkomende project niet is gewijzigd. Het uitvoeren van eerdere gegevens kan helpen bij de prestaties.
Klik op Start om matching uit te voeren op de geselecteerde gegevensbron.
Klik op stoppen als u het overeenkomende project wilt stoppen en de resultaten wilt verwijderen.
Nadat het overeenstemmingsproces is voltooid, controleert u of de clusters in de tabel Overeenstemmingsresultaten geschikt zijn, en bekijkt u de statistieken in de tabbladen Profiler en Overeenstemmingsresultaten om ervoor te zorgen dat u de resultaten bereikt die u nodig hebt. Bekijk de overeenkomende records door overeenkomende te selecteren voor filter of niet-overeenkomende records weer te geven door niet-overeenkomendete selecteren.
Als u meerdere overeenkomende regels in het overeenkomende beleid hebt, klikt u op het tabblad Overeenkomende regels om het pictogram voor elke regel te identificeren en controleert u welke regel een record heeft geïdentificeerd als overeenkomst door de regel in de kolom Regel van de overeenkomende resultaten tabel te identificeren.
Als u een niet-draaitabelrecord in de tabel selecteert en op het pictogram Details weergeven (of dubbelklikt op het record), zal DQS een Matching Score-details pop-up weergeven die het dubbelgeklikte record en het bijbehorende draaitabelrecord (en de waarden in al hun velden) toont, evenals de score ertussen en een uitgebreide weergave van de bijdragen aan de overeenkomende score van elk veld. Als u dubbelklikt op een draairecord, wordt het pop-upvenster niet weergegeven.
Klik op het pictogram Alles samenvouwen in de tabel Overeenkomende resultaten om de records samen te vouwen en alleen de hoofdrecord op te nemen, niet de dubbele records. Klik op Alles uitvouwen om de weergegeven records in de tabel Overeenkomende resultaten uit te vouwen en alle dubbele records op te nemen.
Als u een record uit de overeenkomende resultaten wilt weigeren, klikt u op het selectievakje Afgewezen voor de record.
Als u de minimale matchingsscore wilt wijzigen die bepaalt of een record wordt weergegeven, selecteert u het pictogram Min. Matching Score bovenaan de rechterkant van de tabel en voert u een hoger getal in. De minimale overeenkomende score is standaard ingesteld op 80%. Klik op Vernieuwen om de inhoud van de tabel te wijzigen.
Nadat de analyse is voltooid, verandert de knop Start in een knop Opnieuw opstarten. Klik op Start opnieuw om het analyseproject opnieuw uit te voeren. De resultaten van de vorige analyse zijn echter nog niet opgeslagen, dus als u klikt op Opnieuw opstarten, gaan eerdere gegevens verloren. Als u wilt doorgaan, klikt u op Ja in het pop-upvenster. Wanneer de analyse wordt uitgevoerd, verlaat de pagina niet, anders wordt het analyseproces beëindigd.
Klik op Volgende om door te gaan naar de overlevings- en exportfase.
Overlevings- en exportfase
In het survivorship-proces bepaalt Data Quality Services een overlevend record voor elk cluster, dat de andere records binnen het cluster vervangt. Vervolgens worden de overeenkomende en/of overlevende resultaten geëxporteerd naar een tabel in de SQL Server-database, een .csv-bestand of een Excel-bestand.
Voortbestaan is optioneel. U kunt de resultaten exporteren zonder overlevenden uit te voeren. In dat geval gebruikt DQS de draairecord die is aangewezen in de overeenkomende analyse. Als twee of meer records in een cluster voldoen aan de regel voor overleving, selecteert het overlevingsproces de laagste record-id van de conflicterende records als overlevende. U kunt overlevenden exporteren naar verschillende bestanden of tabellen met behulp van verschillende overlevendenregels.
Selecteer op de pagina Exporteren het doel waarnaar u de overeenkomende gegevens wilt exporteren in doeltype: SQL Server-, CSV-bestandof Excel-bestand.
Belangrijk
Als u een 64-bits versie van Excel gebruikt, kunt u de overeenkomende gegevens niet exporteren naar een Excel-bestand; u kunt alleen exporteren naar een SQL Server-database of naar een .csv-bestand.
Als u SQL Server- hebt geselecteerd voor doeltype, selecteert u de database waarnaar u de resultaten wilt exporteren in databasenaam.
Belangrijk
De doeldatabase moet aanwezig zijn in hetzelfde SQL Server-exemplaar als de DQS-server. Anders wordt deze niet weergegeven in de vervolgkeuzelijst.
Schakel het selectievakje in voor overeenkomende resultaten om overeenkomende resultaten te exporteren (zie hierboven voor een uitleg) naar de aangewezen tabel in een SQL Server-database of naar het aangewezen .csv- of Excel-bestand. Schakel het selectievakje in voor resultaten van overlevenden om resultaten van overlevenden te exporteren (zie hierboven voor een uitleg) naar de aangewezen tabel in een SQL Server-database of naar het aangewezen .csv- of Excel-bestand.
Het volgende wordt geëxporteerd voor overeenkomende resultaten:
Een lijst met clusters en de overeenkomende records in elk cluster, inclusief de regelnaam en de score. De pivot-record wordt gemarkeerd als "Pivot". De clusters worden eerst weergegeven in de exportlijst.
Een lijst met de niet-overeenkomende records, met NULL in de kolommen Score en Rule Name. Deze records worden toegevoegd aan de exportlijst na de clusters.
Het volgende wordt geëxporteerd voor resultaten voor overlevingsanalyses:
Een lijst met de overlevingsrecords zoals vastgesteld door het overlevingsproces volgens de overlevingsregel. Deze records worden eerst weergegeven in de exportlijst.
Een lijst met niet-overeenkomende records die niet zijn opgenomen in de clusters met overeenkomende records. Deze records worden toegevoegd na de resultaten van de overlevenden.
Als u SQL Server- hebt geselecteerd voor doeltype, voert u de naam in van de tabellen waarnaar u de resultaten wilt exporteren in tabelnaam. Als u zowel overeenkomende resultaten als resultaten van overlevenden exporteert, moeten de doeltabellen verschillende namen hebben die uniek zijn voor de database.
Als u CSV-bestand hebt geselecteerd voor doeltype, voert u het bestand en pad in voor het CSV-bestand waarnaar u wilt exporteren in CSV-bestandsnaam.
Als u Excel-bestand voor doeltypehebt geselecteerd, voert u het bestand en pad in voor het Excel-bestand waarnaar u wilt exporteren in Excel-bestandsnaam. U kunt niet exporteren naar een Excel-bestand als u een 64-bits versie van Excel gebruikt.
Selecteer de regel voor overlevenden als volgt:
Selecteer pivotrecord (de standaardoptie) om de blijvende record te identificeren als de eerste pivotrecord die willekeurig door DQS is gekozen.
Selecteer meest complete en langste record om het overlevende record te identificeren als het record met het grootste aantal ingevulde velden en het grootste aantal termen in elk veld heeft. Alle bronvelden worden gecontroleerd, zelfs die velden die niet zijn toegewezen aan een domein op de pagina Kaart.
Selecteer Meest volledige record om de overblijvende record te identificeren als die met het grootste aantal ingevulde velden. Een ingevuld veld bevat ten minste één waarde (tekenreeks, numeriek of beide). Alle bronvelden worden gecontroleerd, zelfs die velden die niet zijn toegewezen aan een domein op de kaartpagina. Een ingevuld veld bevat ten minste één waarde (tekenreeks, numeriek of beide).
Selecteer Langste record om het overgebleven record te identificeren als het record met het grootste aantal termen in de bronvelden. Als u de lengte van elke record wilt bepalen, controleert DQS de lengte van de termen in alle bronvelden, zelfs de velden die niet zijn toegewezen aan een domein op de pagina Kaart.
Bekijk de statistieken op het tabblad Profiler om ervoor te zorgen dat u de gewenste resultaten bereikt.
Klik op Exporteren om de resultaten te exporteren. Hiermee wordt een dialoogvenster Overeenkomende export weergegeven waarin de voortgang en vervolgens de resultaten van de export worden weergegeven.
Als u SQL Server als de gegevensbestemming hebt geselecteerd, wordt er een nieuwe tabel met de opgegeven naam gemaakt in de geselecteerde database.
Als u CSV-bestand als de gegevensbestemming hebt geselecteerd, wordt er een .csv bestand gemaakt op de computer van de Data Quality Server met de bestandsnaam die u eerder hebt opgegeven in het csv-bestandsnaam vak.
Als u Excel-bestand als de gegevensbestemming hebt geselecteerd, wordt er een .xlsx bestand gemaakt op de computer van de Data Quality Server met de bestandsnaam die u eerder hebt opgegeven in het Excel-bestandsnaam vak.
Controleer of de export is voltooid en klik vervolgens op sluiten.
Klik op Voltooien om het overeenkomende project af te ronden.
Notitie
Als u een overeenkomend project hebt voltooid en vervolgens opnieuw gebruikt, wordt de kennisbasis gebruikt die aanwezig was toen het werd gepubliceerd. Er worden geen wijzigingen gebruikt die u in de Knowledge Base hebt aangebracht sinds u het project hebt voltooid. Als u deze wijzigingen wilt gebruiken of een nieuwe knowledge base wilt gebruiken, moet u een nieuw overeenkomend project maken. Als u daarentegen een overeenkomend project hebt gemaakt, maar niet hebt voltooid, worden wijzigingen die u hebt gepubliceerd in het overeenkomende beleid, gebruikt als u overeenkomsten uitvoert in het project.
Opvolgen: Na het uitvoeren van een overeenkomend project
Nadat u een overeenkomend project hebt uitgevoerd, kunt u het overeenkomende beleid in de Knowledge Base wijzigen en een ander overeenkomend project maken en uitvoeren op basis van het bijgewerkte overeenkomende beleid. Zie Een overeenkomend beleid makenvoor meer informatie.
Profiler- en resultatentabbladen
De tabbladen Profiler en Resultaten bevatten statistieken voor het proces van overeenkomen.
Tabblad Profiler
Klik op het tabblad Profiler om statistieken weer te geven voor de brondatabase en voor elk veld dat is opgenomen in de beleidsregel. De statistieken worden bijgewerkt wanneer de beleidsregel wordt uitgevoerd. Profilering helpt u bij het beoordelen van de effectiviteit van het ontdubbelingsproces, zodat u kunt bepalen in hoeverre het proces de kwaliteit van de gegevens kan verbeteren. Nauwkeurigheid in profilering is niet belangrijk voor een overeenkomend project.
De statistieken van de brondatabase bevatten het volgende:
Records: het totale aantal records in de database
totaalwaarden: het totale aantal waarden in de velden
Nieuwe waarden: het totale aantal waarden dat nieuw is sinds de vorige uitvoering en het percentage van het gehele
unieke waarden: het totale aantal unieke waarden in de velden en het percentage van het geheel
Nieuwe unieke waarden: het totale aantal unieke waarden dat nieuw is in de velden en het percentage van het geheel
De veldstatistieken omvatten het volgende:
veld: Naam van het veld dat in de toewijzingen is opgenomen.
Domein: naam van het domein dat is toegewezen aan het veld.
Nieuwe: het aantal gevonden nieuwe overeenkomsten en het percentage van het totaal
Unieke: het aantal unieke records in het veld en het percentage van het totaal
Volledigheid: Het percentage dat aangeeft hoe volledig de regeluitvoering is.
Overeenkomende beleidsmeldingen
Voor de overeenkomende beleidsactiviteit resulteren de volgende voorwaarden in meldingen:
Het veld is leeg bij alle records; het wordt aanbevolen om deze uit de koppeling te verwijderen.
De volledigheidsscore van het veld is zeer laag; u kunt overwegen deze uit de mapping te verwijderen.
Alle waarden in een veld zijn ongeldig; controleer de toewijzing en de relevantie van domeinregels op de inhoud van het veld.
Er is een lage hoeveelheid geldige waarden in het veld; u dient de toewijzing en de relevantie van domeinregels voor de inhoud van het veld te controleren.
Er is een hoog niveau van uniekheid in dit veld. Als u dit veld in het afstemmingsbeleid gebruikt, kan dit de hoeveelheid overeenkomende resultaten verminderen.
Tabblad Overeenkomende regels
Klik op dit tabblad om een lijst weer te geven met de regels in het overeenkomende beleid en de voorwaarden in een regel.
lijst met regels
Geeft een lijst weer met alle overeenkomende regels in het overeenkomende beleid. Selecteer een van de regels om de voorwaarden binnen de geselecteerde regel in de tabel Overeenkomende regels weer te geven.
overeenkomende regeltabel
Geeft elke voorwaarde in de geselecteerde regel weer, inclusief domein, overeenkomsten, gewicht en vereiste selectie.
Tabblad Overeenkomende resultaten
Klik op het tabblad overeenkomende resultaten om statistieken weer te geven voor de analyse van de gegevensbron met behulp van de kennis die is geselecteerd voor het project en de overeenkomende regel of regels in die knowledge base. De statistieken omvatten het volgende:
Het totale aantal records in de database
Het totale aantal overeenkomende records in de database
Het aantal records in de database dat niet als duplicaten wordt beschouwd
Het aantal gedetecteerde clusters
De gemiddelde clustergrootte (aantal dubbele records gedeeld door het aantal clusters)
Het minste aantal duplicaten in een cluster
Het grootste aantal duplicaten in een cluster