Gegevens opschonen
van toepassing op:SQL Server-
Gegevensopschoning is het proces van het analyseren van de kwaliteit van gegevens in een gegevensbron, het handmatig goedkeuren/negeren van de suggesties door het systeem en het aanbrengen van wijzigingen in de gegevens. Het opschonen van gegevens in DQS (Data Quality Services) bevat een computerondersteund proces dat analyseert hoe gegevens voldoen aan de kennis in een knowledge base en een interactief proces waarmee de gegevenssteward resultaten van computergestuurde processen kan beoordelen en wijzigen om ervoor te zorgen dat de gegevens opschonen precies zoals ze willen.
De datasteward kan ook gegevens opschonen bij het verpakkingsproces van Integration Services. In dit geval zou de gegevenssteward het onderdeel DQS-opschoning gebruiken in Integration Services die automatisch gegevensopschoning uitvoert met behulp van een bestaande Knowledge Base. Voor meer informatie, zie DQS–opschoningstransformatie.
De functie voor het opschonen van gegevens in DQS heeft de volgende voordelen:
Identificeert onvolledige of onjuiste gegevens in uw gegevensbron (Excel-bestand of SQL Server-database) en corrigeert of waarschuwt u vervolgens voor de ongeldige gegevens.
Biedt twee stappen voor het opschonen van de gegevens: computergestuurde en interactieve. Het computergestuurde proces maakt gebruik van de kennis in een DQS-kennisbasis om de gegevens automatisch te verwerken en suggesties voor vervangingen of correcties te doen. De volgende stap, interactief, stelt de gegevenssteward in staat om de wijzigingen die door de DQS zijn voorgesteld tijdens de computerondersteunde opschoning goed te keuren, af te wijzen of te wijzigen.
Standaardiseert en verrijkt klantgegevens met behulp van domeinwaarden, domeinregels en referentiegegevens. Standaardeer bijvoorbeeld het gebruik van termen door 'St' te wijzigen in 'Straat', verrijk gegevens door ontbrekende elementen in te vullen door '1 Microsoft way Redmond 98006' te wijzigen in '1 Microsoft Way, Redmond, WA 98006'.
Biedt een eenvoudige, intuïtieve en consistente wizard-achtige interface voor de gebruiker om door gegevens te navigeren en fouten te inspecteren tussen een zeer grote set gegevens.
In de volgende afbeelding ziet u hoe gegevens opschonen wordt uitgevoerd in DQS:
Computerondersteunde opschoning
Het proces voor het opschonen van DQS-gegevens past de knowledge base toe op de gegevens die moeten worden opgeschoond en stelt wijzigingen in de gegevens voor. De data-steward heeft toegang tot elke voorgestelde wijziging, zodat hij of zij de wijzigingen kan beoordelen en corrigeren. Voor het opschonen van gegevens gaat de gegevenssteward als volgt te werk:
Maak een gegevenskwaliteitsproject, selecteer een knowledge base waarop u de brongegevens wilt analyseren en opschonen en selecteer de activiteit opschonen. Meerdere projecten voor gegevenskwaliteit kunnen dezelfde knowledge base gebruiken.
Geef de databasetabel/-weergave of een Excel-bestand op dat de brongegevens bevat die moeten worden opgeschoond. De database of het Excel-bestand kan hetzelfde zijn dat is gebruikt voor kennisdetectie, of het kan een andere database of een ander Excel-bestand zijn.
Notitie
Als u dezelfde gegevensbron selecteert voor kennisdetectie- en opschoningsactiviteiten, worden de gegevens niet gewijzigd. Het wordt aanbevolen om kennisdetectie uit te voeren op een voorbeeldgegevens en uw brongegevens later op te schonen op basis van de kennis die tijdens de activiteit voor kennisdetectie is gebouwd.
Koppel de gegevensvelden die moeten worden opgeschoond aan de juiste domeinen/samengestelde domeinen in de kennisbank. Als u een veld toe wijzen aan een samengesteld domein, vindt de toewijzing plaats tussen het veld en het samengestelde domein, en niet met de afzonderlijke domeinen in het samengestelde domein. Daarnaast wordt het opschonen van gegevens voor het toegewezen veld uitgevoerd op basis van de regels die zijn opgegeven voor het samengestelde domein en niet voor de afzonderlijke domeinen in het samengestelde domein. Zie voor meer informatie over samengestelde domeinen de DQS-kennisbanken en -domeinen: en.
Voer het computergestuurde opschoningsproces uit door te klikken op Start op de pagina Opschonen.
Het proces voor het opschonen van gegevens vindt de beste overeenkomst van gegevens met bekende gegevensdomeinwaarden. Het proces past kennis van gegevenskwaliteit toe op alle brongegevens, in tegenstelling tot het kennisdetectieproces, dat wordt uitgevoerd op een percentage van de voorbeeldgegevens.
Het computergeassisteerde proces geeft gegevenskwaliteitsinformatie weer in de client voor gegevenskwaliteit die voor het interactieve opschoningsproces wordt gebruikt. Afgezien van de naleving van de syntaxisfoutregels, gebruikt DQS ook referentiegegevens en geavanceerde algoritmen om gegevens te categoriseren met behulp van betrouwbaarheidsniveau. Het betrouwbaarheidsniveau geeft de mate van zekerheid aan van DQS voor de correctie of suggestie. Het betrouwbaarheidsniveau is gebaseerd op de volgende drempelwaarden:
Een drempelwaarde voor automatische correctie waarde waarboven DQS een wijziging voorstelt en aanbrengt, tenzij de gegevenssteward deze weigert. U kunt de drempelwaarde voor automatische correctie opgeven op het tabblad Algemene instellingen in het scherm Configuratie. Voor meer informatie, zie Drempelwaarden configureren voor opschoning en matchen.
Een drempelwaarde voor automatische suggestie waarde, onder de drempelwaarde voor automatische correctie, waarboven DQS een wijziging voorstelt en deze aanbrengen als de gegevenssteward deze goedkeurt. U kunt de drempelwaarde voor automatische suggesties opgeven op het tabblad Algemene instellingen in het scherm Configuratie. Voor meer informatie, zie Drempelwaarden configureren voor opschoning en matchen.
Elke waarde met een betrouwbaarheidsniveau onder de drempelwaarde voor automatische suggesties blijft ongewijzigd door DQS, tenzij de gegevenssteward een wijziging aangeeft.
Interactieve reiniging
Op basis van het computergestuurde opschoningsproces biedt DQS de gegevenssteward informatie die ze nodig hebben om een beslissing te nemen over het wijzigen van de gegevens. DQS categoriseert de gegevens onder de volgende vijf tabbladen:
Voorgestelde : waarden waarvoor DQS suggesties heeft gevonden die een betrouwbaarheidsniveau hoger hebben dan de drempelwaarde voor automatische suggestieswaarde, maar lager dan de drempelwaarde voor automatische correctie van waarde. Controleer deze waarden en keur ze goed of af. Nieuwe: geldige waarden waarvoor DQS onvoldoende informatie (suggestie) heeft en daarom niet kan worden toegewezen aan een ander tabblad. Verder bevat dit tabblad ook waarden met een betrouwbaarheidsniveau dat kleiner is dan de drempelwaarde voor automatische suggesties waarde, maar die hoog genoeg zijn om als geldig te worden gemarkeerd.
Ongeldige: waarden die zijn gemarkeerd als ongeldig in het domein in de Knowledge Base of waarden waarvoor een domeinregel of verwijzingsgegevens zijn mislukt. Dit tabblad bevat ook waarden die door de gebruiker worden geweigerd in een van de andere vier tabbladen tijdens het interactieve opschoningsproces.
gecorrigeerde: waarden die worden gecorrigeerd tijdens het geautomatiseerde opschoningsproces door DQS, omdat DQS een correctie heeft gevonden voor de waarde met een betrouwbaarheidsniveau boven de automatische correctie drempelwaarde van . Dit tabblad bevat ook waarden waarvoor de gebruiker tijdens interactieve opschoning een juiste waarde heeft opgegeven in de kolom Correct Naar en deze vervolgens heeft goedgekeurd door op het keuzerondje in de kolom Goedkeuren in een van de andere vier tabbladen te klikken.
Juiste: waarden die juist zijn gevonden. De waarde komt bijvoorbeeld overeen met een domeinwaarde. Indien nodig kunt u DQS-opschoning overschrijven door waarden onder dit tabblad te weigeren, of door een alternatief woord op te geven in de kolom Corrigeren naar en vervolgens op de radio knop in de kolom Accepteren te klikken. Dit tabblad bevat ook waarden die door de gebruiker zijn goedgekeurd tijdens interactieve opschoning door op het keuzerondje in de kolom Goedkeuren in het tabblad Nieuw of Ongeldige te klikken.
Notitie
In de tabbladen Voorgestelde, Gecorrigeerdeen Correcte, toont DQS de voornaamste waarde voor een domein, indien van toepassing, in de kolom Corrigeren naar ten opzichte van de desbetreffende domeinwaarde.
De data-steward gebruikt Data Quality Client om de wijzigingen te zien die DQS heeft voorgesteld en om te bepalen of ze moeten worden geïmplementeerd of niet. Ze kunnen controleren of de waarden die DQS heeft aangewezen als juist, in feite juist zijn. Ze kunnen controleren of wijzigingen die al door DQS zijn aangebracht, met een hoge mate van vertrouwen, daadwerkelijk zouden moeten worden uitgevoerd. De steward kan beslissen of automatische voorgestelde wijzigingen moeten worden goedgekeurd. En ze kunnen waarden controleren die niet zijn gewijzigd, voor het geval ze een wijziging willen aanbrengen die niet is gevonden door het door de computer ondersteunde proces.
DQS zal alle wijzigingen die de gegevenssteward heeft aangebracht samenvoegen met de resultaten van de computerondersteunde gegevensopschoning. Deze wijzigingen blijven bij het project; Ze worden echter niet toegevoegd aan de Knowledge Base. Tijdens het opschonen van gegevens is de bijbehorende kennisbank in alleen-lezen-modus.
Wanneer het proces voor het opschonen van gegevens is voltooid, kunt u ervoor kiezen om de verwerkte gegevens te exporteren naar een nieuwe tabel in een SQL Server-database, .csv-bestand of Excel-bestand. De brongegevens waarop opschoning wordt uitgevoerd, blijven behouden in de oorspronkelijke staat. De gegevenssteward kan de afzonderlijke opgeschoonde gegevens gebruiken om de werkelijke brongegevens te corrigeren.
In de volgende afbeelding ziet u hoe het opschonen van gegevens wordt uitgevoerd met behulp van de toepassing Data Quality Client:
Correctie van voorloopwaarde
Correctie van voorloopwaarden is van toepassing op domeinwaarden met synoniemen en de gebruiker wil een van de synoniemenwaarden gebruiken als de voorloopwaarde in plaats van anderen voor de consistente weergave van de waarde. 'New York', 'NYC' en 'big apple' zijn bijvoorbeeld synoniemen en de gebruiker wil 'New York' gebruiken als de belangrijkste waarde in plaats van 'NYC' en 'Big Apple'. DQS ondersteunt toonaangevende waardecorrectie tijdens het opschoningsproces om u te helpen uw gegevens te standaardiseren. De correctie van de aanloopwaarde wordt alleen uitgevoerd als het domein hiervoor was ingeschakeld toen het werd gemaakt. Standaard zijn alle domeinen ingeschakeld voor correctie van voorloopwaarden, tenzij u het selectievakje Voorloopwaarden gebruiken selectievakje hebt uitgeschakeld tijdens het maken van een domein. Zie Domeineigenschappen instellenvoor meer informatie over dit selectievakje.
Opgeschoonde gegevens standaardiseren
U kunt kiezen of u de opgeschoonde gegevens in de gestandaardiseerde indeling wilt exporteren op basis van de uitvoerindeling die is gedefinieerd voor domeinen. Tijdens het maken van een domein kunt u de opmaak selecteren die wordt toegepast wanneer de gegevenswaarden in het domein worden uitgevoerd. Zie de Uitvoer opmaken voor lijst in Eigenschappen van domein instellenvoor meer informatie over het opgeven van uitvoerindelingen voor een domein.
Tijdens het exporteren van de opgeschoonde gegevens op de pagina Exporteren in de wizard voor het opschonen van gegevenskwaliteit, geeft u op of de opgeschoonde gegevens moeten worden geëxporteerd in de gestandaardiseerde indeling door het selectievakje Uitvoer standaardiseren in te schakelen. De opgeschoonde gegevens worden standaard geëxporteerd in de gestandaardiseerde indeling, dat wil gezegd, het selectievakje is ingeschakeld. Zie Gegevens opschonen met DQS (Interne) Knowledgevoor meer informatie over het exporteren van de opgeschoonde gegevens.
Gerelateerde taken
Taakbeschrijving | Onderwerp |
---|---|
Beschrijft hoe u drempelwaarden configureert voor de opschoningsactiviteit. | Drempelwaarden configureren voor opschoning en samenvoegen |
Hierin wordt beschreven hoe u gegevens opschoont met behulp van kennis die is ingebouwd in DQS. | Gegevens opschonen met behulp van DQS -kennis (Intern) |
Hierin wordt beschreven hoe u gegevens opschoont met behulp van kennis van referentiegegevensservice. | Data opschonen met behulp van referentiegegevens (externe kennis) |
Hierin wordt beschreven hoe u een samengesteld domein opschoont. | gegevens opschonen in een samengesteld domein |