Delen via


Gegevens opschonen met behulp van DQS (interne) kennis

van toepassing op:SQL Server-

In dit onderwerp wordt beschreven hoe u uw gegevens opschoont met behulp van een gegevenskwaliteitsproject in DQS (Data Quality Services). Gegevensopschoning wordt uitgevoerd op uw brongegevens met behulp van een knowledge base die is ingebouwd in DQS op basis van een gegevensset van hoge kwaliteit. Zie Een Knowledge Base bouwenvoor meer informatie.

Gegevens opschonen wordt uitgevoerd in vier fasen: een toewijzing fase waarin u de gegevensbron identificeert die moet worden opgeschoond, en deze toewijst aan vereiste domeinen in een kennisbank, een computerondersteunde opschoning fase waarin DQS de kennisbank toepast op de gegevens die moeten worden opgeschoond en stelt wijzigingen aan in de brongegevens, een interactieve opschoning fase waarin gegevensstewards de gegevenswijzigingen kunnen analyseren en de gegevenswijzigingen kunnen accepteren/verwerpen, en ten slotte de export fase waarmee u de opgeschoonde gegevens kunt exporteren. Elk van deze processen wordt uitgevoerd op een afzonderlijke pagina van de wizard voor opschoningsactiviteiten, zodat u heen en weer naar verschillende pagina's kunt gaan, het proces opnieuw kunt uitvoeren en een specifiek opschoningsproces wilt sluiten en vervolgens kunt terugkeren naar dezelfde fase van het proces. DQS biedt u statistieken over de brongegevens en de opschoningsresultaten waarmee u weloverwogen beslissingen kunt nemen over het opschonen van gegevens.

Voordat u begint

Voorwaarden

  • U moet de juiste drempelwaarden voor de opschoningsactiviteit hebben opgegeven. Voor meer informatie hierover, zie Drempelwaarden configureren voor opschoning en matching.

  • Er moet een DQS-knowledge base beschikbaar zijn op de Server voor gegevenskwaliteit waarmee u uw brongegevens wilt vergelijken en opschonen. Daarnaast moet de knowledge base kennis bevatten over het type gegevens dat u wilt opschonen. Als u bijvoorbeeld uw brongegevens wilt opschonen die AMERIKAANSE adressen bevatten, moet u een knowledge base hebben die is gemaakt op basis van voorbeeldgegevens van hoge kwaliteit voor Amerikaanse adressen.

  • Microsoft Excel moet zijn geïnstalleerd op de clientcomputer voor gegevenskwaliteit als de brongegevens die moeten worden opgeschoond zich in een Excel-bestand bevinden. Anders kunt u het Excel-bestand niet selecteren in de toewijzingsfase. De bestanden die door Microsoft Excel zijn gemaakt, kunnen een uitbreiding hebben van .xlsx, .xlsof .csv. Als de 64-bits versie van Excel wordt gebruikt, worden alleen Excel 2003-bestanden (.xls) ondersteund; Excel 2007- of 2010-bestanden (.xlsx) worden niet ondersteund. Als u een 64-bits versie van Excel 2007 of 2010 gebruikt, slaat u het bestand op als een .xls-bestand of een .csv-bestand of installeert u in plaats daarvan een 32-bits versie van Excel.

Veiligheid

Machtigingen

U moet de rol dqs_kb_editor of dqs_kb_operator hebben voor de DQS_MAIN-database om gegevens op te schonen.

Een project voor het opschonen van gegevenskwaliteit maken

U moet een gegevenskwaliteitsproject gebruiken om gegevens op te schonen. Maak een project voor het opschonen van gegevenskwaliteit:

  1. Volg stap 1-3 in het onderwerp Een project voor gegevenskwaliteit maken.

  2. Selecteer in stap 3.d de Cleansing-activiteit.

  3. Klik op maken om een opschoningsproject voor gegevenskwaliteit te maken.

Hiermee maakt u een opschoningsproject voor gegevenskwaliteit en opent u de Kaart pagina van de wizard voor het opschonen van gegevenskwaliteit.

Toewijzingsfase

In de koppelingsfase geeft u de verbinding met de brongegevens op die moeten worden opgeschoond en koppelt u de kolommen in de brongegevens aan de juiste domeinen in de geselecteerde kennisbank.

  1. Selecteer op de pagina Map van de assistent Gegevenskwaliteit opschonen de brongegevens die u wilt opschonen: SQL Server- of Excel-bestand:

    1. SQL Server-: selecteer DQS_STAGING_DATA als de brondatabase als u de brongegevens naar deze database hebt gekopieerd en selecteer vervolgens de juiste tabel/weergave die de brongegevens bevat. Selecteer anders de brondatabase en de juiste tabel/weergave. Uw brondatabase moet aanwezig zijn in hetzelfde SQL Server-exemplaar als de Data Quality Server die beschikbaar moet zijn in de vervolgkeuzelijst Database.

    2. Excel-bestand: klik op Bladerenen selecteer het Excel-bestand met de gegevens die moeten worden opgeschoond. Microsoft Excel moet zijn geïnstalleerd op de clientcomputer voor gegevenskwaliteit om een Excel-bestand te selecteren. Anders is de knop Bladeren niet beschikbaar en krijgt u onder dit tekstvak een melding dat Microsoft Excel niet is geïnstalleerd. Houd het selectievakje Eerste rij als koptekst gebruiken ingeschakeld als de eerste rij van het Excel-bestand koptekstgegevens bevat.

  2. Onder Toewijzingenwijs je de kolommen van je brongegevens toe aan de juiste domeinen in de knowledge base. Selecteer een bronkolom uit de keuzelijst in de kolom Bronkolom en selecteer vervolgens een domein uit de keuzelijst in de kolom Domein in dezelfde rij. Herhaal deze stap om alle kolommen in uw brongegevens aan de juiste domeinen in de kennissystemen toe te wijzen. Indien nodig kunt u op het pictogram Een kolomtoewijzing toevoegen klikken om rijen toe te voegen aan de toewijzingstabel.

    Notitie

    U kunt uw brongegevens alleen toewijzen aan een DQS-domein voor het uitvoeren van gegevensopschoning als het brongegevenstype wordt ondersteund in DQS en overeenkomt met het gegevenstype DQS-domein. Zie Ondersteunde SQL Server- en SSIS-gegevenstypen voor DQS-domeinenvoor informatie over ondersteunde brongegevenstypen.

  3. Klik op het pictogram Voorbeeld van gegevensbron om de gegevens weer te geven in de SQL Server-tabel of -weergave die u hebt geselecteerd, of het Excel-werkblad dat u hebt geselecteerd.

  4. Klik op Weergave/Selecteer Samengestelde Domeinen om een lijst weer te geven met de samengestelde domeinen die zijn toegewezen aan een bronkolom. Deze knop is alleen beschikbaar als u ten minste één samengesteld domein hebt toegewezen aan een bronkolom.

  5. Klik op Volgende om door te gaan naar de computer-ondersteunde reinigingsfase ( pagina opschonen).

Computer-Assisted opschoningsfase

In de computerfase voert u een geautomatiseerd proces voor het opschonen van gegevens uit dat brongegevens analyseert op basis van de toegewezen domeinen in de knowledge base en gegevenswijzigingen aanbrengt/voorstelt.

  1. Klik op Start op de pagina Opschonen van de wizard gegevenskwaliteit om het computergestuurde opschoningsproces uit te voeren. DQS maakt gebruik van geavanceerde algoritmen en betrouwbaarheidsniveaus op basis van de drempelwaarden die zijn opgegeven om uw gegevens te analyseren op basis van de geselecteerde knowledge base en schoon deze vervolgens op. Zie Computer-assisted Cleansing in Gegevensopschoningvoor gedetailleerde informatie over hoe computerondersteunde opschoning plaatsvindt in DQS.

    Belangrijk

    • Nadat de gegevensanalyse is voltooid, verandert de knop Start in een knop Opnieuw opstarten. Als de resultaten van de vorige analyse nog niet zijn opgeslagen, zal het klikken op Opnieuw opstarten ervoor zorgen dat de eerdere gegevens verloren gaan. Wanneer de analyse wordt uitgevoerd, moet u de pagina niet verlaten, anders wordt het analyseproces beëindigd.

    • Als de knowledge base die wordt gebruikt voor het opschoningsproject is bijgewerkt en gepubliceerd nadat het opschoningsproject is gemaakt, klikt u op Start wordt u gevraagd of u de meest recente Knowledge Base wilt gebruiken voor het opschonen. Dit kan meestal gebeuren als u een project voor gegevenskwaliteit hebt gemaakt met behulp van een knowledge base, het opschoningsproject halverwege hebt gesloten door te klikken op sluiten en vervolgens het project voor gegevenskwaliteit opnieuw hebt geopend op een later tijdstip om opschoning uit te voeren. Ondertussen is de knowledge base die in het opschoningsproject wordt gebruikt, bijgewerkt en gepubliceerd.

      Als de knowledge base die voor het opschoningsproject is gebruikt, is bijgewerkt en gepubliceerd na de laatste keer dat u de computer-ondersteunde opschoning hebt uitgevoerd, klikt u op Opnieuw opstarten wordt u gevraagd of u de meest recente knowledge base wilt gebruiken voor het opschonen.

      Klik in beide gevallen op Ja om de bijgewerkte kennisbank te gebruiken voor de computerondersteunde opschoning. Als er conflicten zijn tussen huidige toewijzingen en de bijgewerkte Knowledge Base (zoals domeinen zijn verwijderd of domeingegevenstype is gewijzigd), wordt u ook gevraagd om de huidige toewijzingen op te lossen voor het gebruik van de bijgewerkte Knowledge Base. Als u op Ja klikt, gaat u naar de pagina Toewijzing waar u de toewijzingen kunt herstellen voordat u doorgaat met de computerondersteunde opschoning.

  2. Tijdens de computergestuurde opschoonfase kunt u de profiler inschakelen door te klikken op het tabblad Profiler om realtime gegevensprofilering en meldingen weer te geven. Zie Profiler Statisticsvoor meer informatie.

  3. Als u niet tevreden bent met de resultaten, klikt u op Vorige om terug te keren naar Kaart, wijzig indien nodig een of meer toewijzingen, keer terug naar Opschonen en klik dan op Opnieuw opstarten.

  4. Nadat het computergestuurde opschoningsproces is voltooid, klikt u op Volgende om door te gaan naar de interactieve opschoningsfase (pagina Resultaten beheren en weergeven).

Interactieve opschoningsfase

In de interactieve opschoningsfase ziet u de wijzigingen die DQS heeft voorgesteld en bepaalt u of u ze wilt implementeren of niet door de wijzigingen goed te keuren of af te wijzen. In het linkerdeelvenster van de Resultaten beheren en weergeven pagina toont DQS een lijst van alle domeinen die u eerder tijdens de toewijzingsfase hebt toegewezen, samen met het aantal waarden in de brongegevens dat tijdens de computerondersteunde opschoning voor elk domein is geanalyseerd. In het rechterdeelvenster van de Resultaten beheren en weergeven pagina, op basis van naleving van de domeinregels, syntaxisfoutregels en geavanceerde algoritmen, categoriseert DQS de gegevens onder vijf tabbladen met behulp van het betrouwbaarheidsniveau. Het betrouwbaarheidsniveau geeft de mate van zekerheid aan van DQS voor de correctie of suggestie en is gebaseerd op de volgende drempelwaarden:

  • drempelwaarde voor automatische correctie: elke waarde met een betrouwbaarheidsniveau boven deze drempelwaarde wordt automatisch gecorrigeerd door DQS. De gegevensbeheerder kan de wijziging echter ongedaan maken tijdens interactieve opschoning. U kunt de drempelwaarde voor automatische correctie opgeven op het tabblad Algemene instellingen in het scherm Configuratie. Zie voor meer informatie Drempelwaarden configureren voor opschonen en matchen.

  • drempelwaarde voor automatische suggestie: elke waarde met een betrouwbaarheidsniveau boven deze drempelwaarde, maar onder de drempelwaarde voor automatische correctie, wordt voorgesteld als vervangingswaarde. DQS brengt de wijziging alleen aan als de gegevenssteward deze goedkeurt. U kunt de drempelwaarde voor automatische suggesties opgeven op het tabblad Algemene instellingen in het scherm Configuratie. Voor meer informatie, zie Configureer de Drempelwaarden voor Opschoning en Overeenkomende Waarden.

  • Overige: elke waarde onder de drempelwaarde voor automatische suggesties blijft ongewijzigd door DQS.

Op basis van het betrouwbaarheidsniveau worden de waarden weergegeven onder de volgende vijf tabbladen:

Tabblad Beschrijving
voorgestelde Geeft de domeinwaarden weer waarvoor DQS de voorgestelde waarden heeft gevonden die een betrouwbaarheidsniveau hoger hebben dan de drempelwaarde voor automatische suggesties waarde, maar lager dan de drempelwaarde voor automatische correctie van waarde.

De voorgestelde waarden worden weergegeven in de kolom Correct Naar tegenover de oorspronkelijke waarde. U kunt op het keuzerondje in de kolom Goedkeuren of Afwijzen klikken naast een waarde in het bovenste raster om de suggestie voor alle gevallen van die waarde te accepteren of af te wijzen. In dit geval wordt de geaccepteerde waarde verplaatst naar het tabblad Gecorrigeerde en wordt de geweigerde waarde verplaatst naar het tabblad Ongeldige.
Nieuwe Geeft het geldige domein weer waarvoor DQS onvoldoende informatie heeft en kan daarom niet worden toegewezen aan een ander tabblad. Verder bevat dit tabblad ook waarden met een betrouwbaarheidsniveau dat kleiner is dan de drempelwaarde voor automatische suggesties van waarde, maar die hoog genoeg zijn om als geldig te worden gemarkeerd.

Als u denkt dat de waarde juist is, klikt u op het keuzerondje in de kolom Goedkeuren. Klik anders op het keuzerondje in de kolom Weigeren. De geaccepteerde waarde wordt verplaatst naar het tabblad Correct en de geweigerde waarde wordt verplaatst naar het tabblad Ongeldig. U kunt ook handmatig de juiste waarde typen als vervanging voor de oorspronkelijke waarde in de kolom Corrigeren naar en klik vervolgens op het keuzerondje in de kolom Goedkeuren om de wijziging te accepteren. In dit geval wordt de waarde verplaatst naar het tabblad Gecorrigeerde.
ongeldige Geeft de domeinwaarden weer die zijn gemarkeerd als ongeldig in het domein in de Knowledge Base of waarden waarvoor een domeinregel is mislukt. Dit tabblad bevat ook waarden die zijn geweigerd door de gebruiker in een van de andere vier tabbladen.

Als u echter denkt dat de waarde juist is, klikt u op het keuzerondje in de kolom Goedkeuren. De geaccepteerde waarde wordt verplaatst naar het tabblad Juist. U kunt de juiste waarde ook handmatig typen als vervanging voor de oorspronkelijke waarde in de kolom Corrigeren naar, en daarna het keuzerondje in de kolom Goedkeuren aanklikken om de aanpassing te accepteren. In dit geval wordt de waarde verplaatst naar het tabblad Gecorrigeerde.
Gecorrigeerde. Geeft de domeinwaarden weer die door DQS worden gecorrigeerd tijdens het geautomatiseerde opschoningsproces, omdat DQS een correctie heeft gevonden voor de waarde met een betrouwbaarheidsniveau boven de drempelwaarde voor automatische correctie.

De gecorrigeerde waarden worden weergegeven in de kolom Correct Naar tegenover de oorspronkelijke waarde. Standaard wordt het keuzerondje in de kolom Goedkeuren geselecteerd op basis van de waarde. Indien nodig kunt u de voorgestelde correctie weigeren door op het keuzerondje in de kolom Weigeren te klikken om deze te verplaatsen naar het tabblad Ongeldige, of handmatig de juiste waarde in de kolom Correct naar te typen. Klik vervolgens op het keuzerondje in de kolom Goedkeuren om de wijziging te accepteren. en verplaats deze naar het tabblad Gecorrigeerd.
juiste Geeft de domeinwaarden weer die juist zijn gevonden. De waarde komt bijvoorbeeld overeen met een domeinwaarde. Dit tabblad bevat ook waarden die door de gebruiker zijn goedgekeurd door te klikken op het keuzerondje in de kolom Goedkeuring in de tabbladen Nieuw en Ongeldig.

Standaard wordt het keuzerondje in de kolom Goedkeuren geselecteerd op elke waarde. Als u echter denkt dat een waarde op dit tabblad onjuist is, kunt u op het keuzerondje in de kolom Weigeren kolom tegen de waarde klikken om deze naar het tabblad Ongeldig te verplaatsen, of handmatig de juiste waarde typen als vervanging voor de waarde in de kolom Juist aan kolom ten opzichte van de waarde, en klik vervolgens op het keuzerondje in de kolom Goedkeuren om de wijziging te accepteren en naar het tabblad Gecorrigeerde te gaan.

De gegevens interactief opschonen:

  1. Klik op de Beheer en bekijk resultaten pagina van de wizard voor het opschonen van gegevenskwaliteit op een domeinnaam in het linkerdeelvenster.

  2. Controleer de domeinwaarden onder de vijf tabbladen en voer de juiste actie uit zoals eerder is uitgelegd.

    • In het rechterbovenhoekvenster ziet u de volgende informatie voor elke waarde in het geselecteerde domein: oorspronkelijke waarde, aantal exemplaren (records), een vak om een andere (juiste) waarde op te geven, het betrouwbaarheidsniveau (niet beschikbaar voor de waarden onder het tabblad Correct), de reden voor de actie DQS op de waarde en de optie om de correcties en suggesties voor de waarde goed te keuren en af te wijzen.

      Fooi

      U kunt alle termen in het geselecteerde domein goedkeuren of afwijzen in het rechterbovenpaneel door te klikken op het pictogram Alle Termen Goedkeuren of Alle Termen Afwijzen. U kunt ook met de rechtermuisknop in het geselecteerde domein op een waarde klikken en op Alle accepteren of Alle weigeren in het snelmenu.

    • In het onderste deelvenster worden afzonderlijke exemplaren van de domeinwaarde weergegeven die in het rechterbovenste deelvenster is geselecteerd. De volgende informatie wordt weergegeven: een vak om een andere (juiste) waarde op te geven, het betrouwbaarheidsniveau (niet beschikbaar voor de waarden op het tabblad Correct), de reden voor de DQS-actie met betrekking tot de waarde, de optie om correcties en suggesties goed te keuren of af te wijzen, en de oorspronkelijke waarde.

  3. Als u de functie Spellingcontrole voor een domein hebt ingeschakeld tijdens het aanmaken, worden rode golvende onderstrepingstekens weergegeven voor dergelijke domeinwaarden die worden geïdentificeerd als mogelijke fouten. Het onderstrepingsteken wordt weergegeven voor de volledige waarde. Als 'New York' bijvoorbeeld onjuist is gespeld als 'Neu York', toont de spellingcontrole een rode onderstreping onder 'Neu York', en niet alleen onder 'Neu'. Als u met de rechtermuisknop op de waarde klikt, ziet u voorgestelde correcties. Als er meer dan 5 suggesties zijn, kunt u klikken op Meer suggesties in het contextmenu om de rest ervan weer te geven. Net als bij de foutweergave zijn de suggesties vervangingen voor de hele waarde. 'New York' wordt bijvoorbeeld weergegeven als een suggestie in het vorige voorbeeld, en niet alleen 'Nieuw'. U kunt een van de suggesties kiezen of een waarde toevoegen aan de woordenlijst die voor die waarde moet worden weergegeven. Waarden worden opgeslagen in woordenlijst op gebruikersaccountniveau. Wanneer u een suggestie selecteert in het contextmenu voor de spellingcontrole, wordt de geselecteerde suggestie toegevoegd aan de kolom "Corrigeren naar". Als u echter een suggestie selecteert in de kolom Corrigeren naar, wordt de waarde in de kolom vervangen door de geselecteerde suggestie.

    De spellingfunctie is standaard ingeschakeld in de interactieve opschoningsfase. U kunt de speller uitschakelen in de interactieve opschoningsfase door te klikken op het pictogram Speller inschakelen/uitschakelen of door met de rechtermuisknop in het domeinwaarden-gebied te klikken en vervolgens op Speller in het snelmenu te klikken. Als u het weer wilt inschakelen, doet u hetzelfde.

    Notitie

    De spellingfunctie is alleen beschikbaar in het bovenste deelvenster (domeinwaarden). Bovendien kunt u de spellingfunctie voor samengestelde domeinen niet in- of uitschakelen. De onderliggende domeinen in een samengesteld domein, die van het type tekenreeks zijn en die zijn ingeschakeld voor de spellingfunctie, hebben standaard de spellingfunctie ingeschakeld in de interactieve opschoningsfase.

  4. Tijdens de interactieve opschoningsfase kunt u de profiler inschakelen door op het tabblad Profiler te klikken om realtime gegevensprofilering en meldingen weer te geven. Zie Profiler Statisticsvoor meer informatie.

  5. Nadat u alle domeinwaarden hebt gecontroleerd, klikt u op Volgende om door te gaan naar de exportfase.

Exportfase

In de exportfase geeft u de parameters op voor het exporteren van uw opgeschoonde gegevens: wat en waar u wilt exporteren.

  1. Selecteer op de pagina Exporteren van de wizard Gegevenskwaliteit opschonen het doeltype voor het exporteren van uw opgeschoonde gegevens: SQL Server, CSV-bestandof Excel-bestand.

    Belangrijk

    Als u een 64-bits versie van Excel gebruikt, kunt u uw opgeschoonde gegevens niet exporteren naar een Excel-bestand; u kunt alleen exporteren naar een SQL Server-database of naar een .csv-bestand.

    1. SQL Server-: selecteer DQS_STAGING_DATA als doeldatabase als u uw gegevens hier wilt exporteren en geef vervolgens een tabelnaam op die wordt gemaakt om de geëxporteerde gegevens op te slaan. Selecteer anders een andere database als u gegevens wilt exporteren naar een andere database en geef vervolgens een tabelnaam op die wordt gemaakt om uw geëxporteerde gegevens op te slaan. Uw doeldatabase moet aanwezig zijn in hetzelfde SQL Server-exemplaar als Data Quality Server om beschikbaar te zijn in de vervolgkeuzelijst Database.

    2. CSV-bestand: klik op Bladerenen geef de naam en locatie op van het .csv bestand waar u de opgeschoonde gegevens wilt exporteren. U kunt ook de bestandsnaam voor het .csv-bestand typen, samen met het volledige pad waar u de opgeschoonde gegevens wilt exporteren. Bijvoorbeeld 'c:\ExportedData.csv'. Het bestand wordt opgeslagen op de computer waarop Data Quality Server is geïnstalleerd.

    3. Excel-bestand: klik op Bladerenen geef de naam en locatie op van het Excel-bestand waar u de opgeschoonde gegevens wilt exporteren. U kunt ook de bestandsnaam voor het Excel-bestand typen, samen met het volledige pad waar u de opgeschoonde gegevens wilt exporteren. Bijvoorbeeld 'c:\ExportedData.xlsx'. Het bestand wordt opgeslagen op de computer waarop Data Quality Server is geïnstalleerd.

  2. Schakel het selectievakje Uitvoer standaardiseren in om de uitvoer te standaardiseren op basis van de uitvoerindeling die voor het domein is geselecteerd. Wijzig bijvoorbeeld de tekenreekswaarde naar hoofdletters of kapitaliseer de eerste letter van het woord. Zie de Formatteeruitvoer naar de-lijst in Stel Domeineigenschappen invoor informatie over het opgeven van het uitvoerformaat van een domein.

  3. Selecteer vervolgens de gegevensuitvoer: alleen de opgeschoonde gegevens exporteren of opgeschoonde gegevens exporteren, samen met de opschoningsinformatie.

    • Alleen gegevens: Klik op het selectievakje om alleen de opgeschoonde gegevens te exporteren.

    • Gegevens en opschooninformatie: Klik op het keuzerondje om de volgende gegevens voor elk domein te exporteren:

      • <Domein>_Source: de oorspronkelijke waarde in het domein.

      • <Domein>_Output: de waarden die zijn opgeschoond in het domein.

      • <Domein>_Reason: de opgegeven reden voor de correctie van de waarde.

      • <Domain>_Confidence: het betrouwbaarheidsniveau voor alle termen die zijn gecorrigeerd. Deze wordt weergegeven als de decimale waarde die gelijk is aan de corresponderende percentagewaarde. Een betrouwbaarheidsniveau van 95% wordt bijvoorbeeld weergegeven als .95000000.

      • <Domein>_Status: de status van de domeinwaarde na het opschonen van gegevens. Bijvoorbeeld Voorgestelde, Nieuwe, Ongeldige, gecorrigeerdeof Juiste.

      • recordstatus: naast het hebben van een statusveld voor elk toegewezen domein (<DomainName>_Status), wordt in het veld Recordstatus de status voor een record weergegeven. Als een van de statussen van het domein in de record is Nieuw of Correct, wordt de recordstatus ingesteld op Correct. Als een van de statussen van het domein in de record Voorgesteld, Ongeldigof Gecorrigeerdis, wordt de recordstatus ingesteld op de respectieve waarde. Als een van de status van het domein in de record bijvoorbeeld is Voorgestelde, wordt de recordstatus ingesteld op Voorgestelde.

        Notitie

        Als u de referentiegegevensservice gebruikt voor de opschoningsbewerking, zijn er ook aanvullende gegevens over de domeinwaarde beschikbaar voor het exporteren. Voor meer informatie, zie Gegevens opschonen met behulp van referentiegegevens (externe) kennis.

  4. Klik op exporteren om gegevens te exporteren naar de geselecteerde gegevensbestemming. Als u het volgende hebt geselecteerd:

    • SQL Server als de gegevensbestemming, wordt er een nieuwe tabel met de opgegeven naam gemaakt in de geselecteerde database.

    • CSV-bestand als gegevensbestemming: er wordt een .csv bestand aangemaakt op de computer van de Data Quality Server, op de locatie die u eerder hebt gespecificeerd, met de bestandsnaam die u hebt opgegeven in het veld CSV-bestand naam.

    • Excel-bestand als gegevensbestemming zal er een Excel-bestand worden aangemaakt op de Data Quality Server-computer, op de locatie die u eerder hebt opgegeven in het vak Excel-bestandsnaam.

  5. Klik op Voltooien om het gegevenskwaliteitsproject te sluiten.

Profiler-statistieken

Het tabblad Profiler bevat statistieken die de kwaliteit van de brongegevens aangeven. Profilering helpt u bij het beoordelen van de effectiviteit van de activiteit voor het opschonen van gegevens en u kunt mogelijk bepalen in hoeverre gegevensopschoning de kwaliteit van de gegevens kon verbeteren.

Het tabblad Profiler bevat de volgende statistieken voor de brongegevens, per veld en domein:

  • Records: Hoeveel records in het gegevensvoorbeeld zijn geanalyseerd voor de activiteit voor het opschonen van gegevens?

  • Juiste records: hoeveel records zijn correct bevonden?

  • gecorrigeerde records: hoeveel records zijn gecorrigeerd

  • Voorgestelde records: hoeveel records zijn voorgesteld

  • ongeldige records: hoeveel records zijn ongeldig

De veldstatistieken omvatten het volgende:

  • veld: naam van het veld in de brongegevens

  • domein: naam van het domein dat is toegewezen aan het veld

  • gecorrigeerde waarden: het aantal domeinwaarden dat is gecorrigeerd

  • Voorgestelde waarden: het aantal domeinwaarden dat is voorgesteld

  • volledigheid: de volledigheid van elk bronveld dat is toegewezen voor de opschoningsactiviteit

  • nauwkeurigheid: de nauwkeurigheid van elk bronveld dat is toegewezen voor de opschoningsactiviteit

DQS-profilering biedt twee dimensies voor gegevenskwaliteit: volledigheid (de mate waarin gegevens aanwezig zijn) en nauwkeurigheid (de mate waarin gegevens kunnen worden gebruikt voor het beoogde gebruik). Als profilering u vertelt dat een veld relatief onvolledig is, kunt u dit verwijderen uit de knowledge base van een gegevenskwaliteitsproject. Profilering biedt mogelijk geen betrouwbare volledigheidsstatistieken voor samengestelde domeinen. Als u volledigheidsstatistieken nodig hebt, gebruikt u één domeinen in plaats van samengestelde domeinen. Als u samengestelde domeinen wilt gebruiken, kunt u één knowledge base maken met één domeinen voor profilering, volledigheid bepalen en een ander domein maken met een samengesteld domein voor het opschoningsproces. Profilering kan bijvoorbeeld 95% volledigheid voor adresrecords weergeven met behulp van een samengesteld domein, maar er kan een veel hoger niveau van onvolledigheid zijn voor een van de kolommen, bijvoorbeeld een kolom met postcodes. In dit voorbeeld kunt u de volledigheid van de kolom postcode met één domein meten. Profilering biedt waarschijnlijk betrouwbare nauwkeurigheidsstatistieken voor samengestelde domeinen, omdat u de nauwkeurigheid voor meerdere kolommen samen kunt meten. De waarde van deze gegevens bevindt zich in de samengestelde aggregatie, dus u kunt de nauwkeurigheid meten met een samengesteld domein.

Nauwkeurigheidsstatistieken vereisen waarschijnlijk meer interpretatie als u geen referentiegegevensservice gebruikt. Als u een referentiegegevensservice gebruikt voor het opschonen van gegevens, hebt u een vertrouwensniveau in nauwkeurigheidsstatistieken. Zie Gegevens opschonen met behulp van referentiegegevens (externe) Kennisvoor meer informatie over het opschonen van gegevens met behulp van referentiegegevensservice.

Opschoonmeldingen

De volgende voorwaarden resulteren in meldingen:

  • Er zijn geen correcties of suggesties voor een veld. Mogelijk wilt u deze verwijderen uit de toewijzing, eerst kennisdetectie uitvoeren of een andere knowledge base gebruiken.

  • Er zijn relatief weinig correcties of suggesties voor een veld. Mogelijk wilt u deze verwijderen uit de mapping, eerst kennisontdekking uitvoeren of een andere kennisbank gebruiken.

  • Het nauwkeurigheidsniveau van het veld is zeer laag. U kunt het mapping controleren of overwegen eerst kennisontdekking uit te voeren.

Zie Gegevensprofilering en -meldingen in DQSvoor meer informatie over profilering.