Rensa data med intern kunskap om DQS
gäller för:SQL Server
Det här avsnittet beskriver hur du rensar dina data med hjälp av ett datakvalitetsprojekt i Data Quality Services (DQS). Datarensning utförs på dina källdata med hjälp av en kunskapsbas som har skapats i DQS mot en datauppsättning av hög kvalitet. Mer information finns i Skapa en kunskapsbas.
Datarensning utförs i fyra steg: en mappning fas där du identifierar datakällan som ska rensas och mappar den till nödvändiga domäner i en kunskapsbas, en datorassisterad rensning fas där DQS tillämpar kunskapsbasen på de data som ska rensas och föreslår/gör ändringar i källdata, en interaktiv rensning fas där dataförvaltare kan analysera dataändringarna och acceptera/avvisa dataändringarna och slutligen exportera fas där du kan exportera rensade data. Var och en av dessa processer utförs på en separat sida i guiden för rensningsaktiviteter, så att du kan flytta fram och tillbaka till olika sidor, köra processen igen och stänga av en specifik rensningsprocess och sedan återgå till samma steg i processen. DQS ger dig statistik om källdata och rensningsresultat som gör att du kan fatta välgrundade beslut om datarensning.
Innan du börjar
Förutsättningar
Du måste ha angett lämpliga tröskelvärden för rensningsaktiviteten. Information om hur du gör det finns i Konfigurera tröskelvärden för rensning och matchning.
En DQS-kunskapsbas måste vara tillgänglig på datakvalitetsservern som du vill jämföra med och rensa dina källdata. Dessutom måste kunskapsbasen innehålla kunskap om vilken typ av data du vill rensa. Om du till exempel vill rensa källdata som innehåller amerikanska adresser måste du ha en kunskapsbas som har skapats mot en "högkvalitativ" exempeldata för amerikanska adresser.
Microsoft Excel måste installeras på datakvalitetsklientdatorn om källdata som ska rensas finns i en Excel-fil. Annars kan du inte välja Excel-filen i mappningsfasen. Filerna som skapas av Microsoft Excel kan ha ett tillägg av .xlsx, .xlseller .csv. Om 64-bitarsversionen av Excel används stöds endast Excel 2003-filer (.xls). Excel 2007- eller 2010-filer (.xlsx) stöds inte. Om du använder 64-bitarsversionen av Excel 2007 eller 2010 sparar du filen som en .xls fil eller en .csv fil eller installerar en 32-bitarsversion av Excel i stället.
Säkerhet
Behörigheter
Du måste ha rollen dqs_kb_editor eller dqs_kb_operator på DQS_MAIN-databasen för att kunna utföra datarensning.
Skapa ett projekt för rensning av datakvalitet
Du måste använda ett datakvalitetsprojekt för att utföra datarensning. Så här skapar du ett projekt för datakvalitetsrensning:
Följ steg 1–3 i avsnittet Skapa ett datakvalitetsprojekt.
I steg 3.d väljer du aktiviteten Cleansing.
Klicka på Skapa för att skapa ett projekt för datakvalitetsrensning.
Detta skapar ett projekt för datakvalitetsrensning och öppnar sidan Map i guiden rensa datakvalitet.
Kartläggningsfas
I mappningsfasen anger du anslutningen till källdata som ska rensas och mappar kolumnerna i källdata med lämpliga domäner i den valda kunskapsbasen.
På sidan Map i guiden rensa datakvalitet väljer du dina källdata som ska rensas: SQL Server- eller Excel-fil:
SQL Server-: Välj DQS_STAGING_DATA som källdatabas om du har kopierat dina källdata till den här databasen och välj sedan lämplig tabell/vy som innehåller dina källdata. Annars väljer du källdatabasen och lämplig tabell/vy. Källdatabasen måste finnas i samma SQL Server-instans som Data Quality Server för att vara tillgänglig i listrutan Database.
Excel-fil: Klicka på Bläddraoch välj den Excel-fil som innehåller de data som ska rensas. Microsoft Excel måste vara installerat på datakvalitetsklientdatorn för att välja en Excel-fil. Annars är knappen Bläddra inte tillgänglig och du får ett meddelande under den här textrutan om att Microsoft Excel inte är installerat. Lämna också kryssrutan Använd första raden som rubrik markerad om den första raden i Excel-filen innehåller rubrikdata.
Under Mappningarmappar du datakolumnerna i dina källdata med lämpliga domäner i kunskapsbasen genom att välja en källkolumn i listrutan i kolumnen Källkolumn och sedan välja en domän i listrutan i kolumnen Domain på samma rad. Upprepa det här steget för att mappa alla kolumner i dina källdata med lämpliga domäner i kunskapsbasen. Om det behövs kan du klicka på ikonen Lägg till en kolumnmappning för att lägga till rader i mappningstabellen.
Not
Du kan mappa dina källdata till en DQS-domän för att endast utföra datarensning om källdatatypen stöds i DQS och matchar DQS-domänens datatyp. Information om källdatatyper som stöds finns i SQL Server- och SSIS-datatyper som stöds för DQS-domäner.
Klicka på förhandsgranskningsdatakälla-ikonen för att se data i SQL Server-tabellen eller vyn som du har valt, eller det Excel-kalkylblad som du har valt.
Klicka på Visa/Välj sammansatta domäner om du vill visa en lista över de sammansatta domäner som är mappade till en källkolumn. Den här knappen är endast tillgänglig om du har minst en sammansatt domän mappad till en källkolumn.
Klicka på Nästa för att gå vidare till den datorstödda rengöringsfasen (Rensa sidan).
Computer-Assisted rengöringssteg
I den datorstödda rensningsfasen kör du en automatiserad datarensningsprocess som analyserar källdata mot de mappade domänerna i kunskapsbasen och gör/föreslår dataändringar.
På sidan Rensa i guiden för datakvalitet klickar du på Starta för att köra den datorstödda rensningsprocessen. DQS använder avancerade algoritmer och konfidensnivåer baserat på de tröskelvärden som angetts för att analysera dina data mot den valda kunskapsbasen och rensa dem sedan. Detaljerad information om hur datorassisterad rensning sker i DQS finns i Datorassisterad rensning i Data Cleansing.
Viktig
När dataanalysen har slutförts omvandlas knappen Starta till en knappen Starta om. Om resultatet från den tidigare analysen inte har sparats ännu kommer du att förlora tidigare data genom att klicka på Starta om. När analysen körs lämnar du inte sidan, annars avslutas analysprocessen.
Om kunskapsbasen som användes för rensningsprojektet uppdaterades och publicerades efter den tidpunkt då rensningsprojektet skapades uppmanas du att klicka på Starta om du vill använda den senaste kunskapsbasen för rensning. Detta kan vanligtvis inträffa om du skapade ett datakvalitetsprojekt med hjälp av en kunskapsbas, stängde rensningsprojektet i mitten genom att klicka på Stängoch sedan öppnade datakvalitetsprojektet igen vid ett senare tillfälle för att utföra rensningen. Under tiden uppdaterades och publicerades kunskapsbasen som användes i rensningsprojektet.
På samma sätt, om kunskapsbasen som användes för rensningsprojektet uppdaterades och publicerades efter den senaste gången du körde datorassisterad rensning, uppmanas du att klicka på Starta om om du vill använda den senaste kunskapsbasen för rensning.
I båda fallen klickar du på Ja för att använda den uppdaterade kunskapsbasen för datorassisterad rensning. Om det finns några konflikter mellan aktuella mappningar och den uppdaterade kunskapsbasen (till exempel domäner har tagits bort eller domändatatypen har ändrats) uppmanas du också att åtgärda de aktuella mappningarna för att använda den uppdaterade kunskapsbasen. Om du klickar på Ja tar dig till sidan Map där du kan åtgärda mappningarna innan du fortsätter med den datorstödda rensningen.
Under den datorstödda rensningsfasen kan du aktivera profileraren genom att klicka på fliken Profiler för att visa dataprofilering och meddelanden i realtid. Mer information finns i Profiler Statistics.
Om du inte är nöjd med resultatet klickar du på Bakåt för att återgå till sidan Mappa, ändra en eller flera mappningar efter behov, gå tillbaka till sidan Rensa och klicka sedan på Starta om.
När den datorstödda rensningsprocessen är klar klickar du på Nästa för att gå vidare till den interaktiva rensningsfasen (hantera och visa resultat sidan).
Interaktiv rengöringsfas
I den interaktiva rensningsfasen kan du se de ändringar som DQS har föreslagit och bestämma om du vill implementera dem eller inte genom att godkänna eller avvisa ändringarna. I den vänstra rutan på sidan Hantera och visa resultat visar DQS en lista över alla domäner som du mappade tidigare i mappningssteget tillsammans med antalet värden i källdata som analyserats mot varje domän under den datorstödda rensningsfasen. I den högra rutan på sidan Hantera och visa resultat, baserat på efterlevnad av domänregler, syntaxfelregler och avancerade algoritmer, kategoriserar DQS data under fem flikar med hjälp av konfidensnivå. Konfidensnivå anger graden av säkerhet som DQS har för korrigeringen eller förslaget och baseras på följande tröskelvärden:
tröskelvärde för automatisk korrigering: Alla värden som har en konfidensnivå över det här tröskelvärdet korrigeras automatiskt av DQS. Dataförvaltaren kan dock åsidosätta ändringen under interaktiv rensning. Du kan ange tröskelvärdet för automatisk korrigering på fliken Allmänna inställningar på skärmen Konfiguration. Mer information finns i Konfigurera tröskelvärden för rensning och matchning.
tröskelvärde för automatiska förslag: Alla värden som har en konfidensnivå över det här tröskelvärdet, men under tröskelvärdet för automatisk korrigering, föreslås som ett ersättningsvärde. DQS gör ändringen endast om dataförvaltaren godkänner den. Du kan ange tröskelvärdet för automatiskt förslag på fliken Allmänna inställningar på skärmen Konfiguration. Mer information finns i Konfigurera tröskelvärden för rensning och matchning.
Övrigt: Alla värden under tröskelvärdet för automatiska förslag lämnas oförändrade av DQS.
Baserat på konfidensnivån visas värdena under följande fem flikar:
Flik | Beskrivning |
---|---|
Föreslagna | Visar de domänvärden för vilka DQS hittade de föreslagna värdena som har en konfidensnivå som är högre än tröskelvärdet för automatiskt förslag men lägre än tröskelvärde för automatisk korrigering värde. De föreslagna värdena visas i kolumnen Korrigera till mot det ursprungliga värdet. Du kan klicka på alternativknappen i kolumnen Godkänn eller Avvisa mot ett värde i det övre rutnätet för att acceptera eller avvisa förslaget för alla instanser av värdet. I det här fallet flyttas det godkända värdet till fliken Korrigerad och det avvisade värdet flyttas till fliken Ogiltig. |
Ny | Visar den giltiga domän för vilken DQS inte har tillräckligt med information och därför inte kan mappas till någon annan flik. Dessutom innehåller den här fliken även värden som har en konfidensnivå som är lägre än tröskelvärdet för automatiskt förslag, men som är tillräckligt högt för att markeras som giltigt. Om du tror att värdet är korrekt klickar du på alternativknappen i kolumnen Godkänn. Annars klickar du på alternativknappen i kolumnen Avvisa. Det godkända värdet flyttas till fliken Korrigera och det avvisade värdet flyttas till fliken Ogiltig. Du kan också ange rätt värde manuellt som en ersättning för det ursprungliga värdet i kolumnen Korrigera till mot värdet och klicka sedan på alternativknappen i kolumnen Godkänn för att acceptera ändringen. I det här fallet flyttas värdet till fliken Korrigerad. |
Ogiltig | Visar de domänvärden som har markerats som ogiltiga i domänen i kunskapsbasen eller värden som misslyckades med en domänregel. Den här fliken innehåller också värden som avvisades av användaren på någon av de övriga fyra flikarna. Men om du tror att värdet är korrekt kan du klicka på alternativknappen i kolumnen Godkänn. Det godkända värdet flyttas till fliken Korrigera. Du kan också ange rätt värde manuellt som en ersättning för det ursprungliga värdet i kolumnen Korrigera till mot värdet och klicka sedan på alternativknappen i kolumnen Godkänn för att acceptera ändringen. I det här fallet flyttas värdet till fliken Korrigerad. |
korrigerade | Visar de domänvärden som korrigeras av DQS under den automatiserade rensningsprocessen eftersom DQS hittade en korrigering för värdet med konfidensnivå över tröskelvärdet för automatisk korrigering. De korrigerade värdena visas i kolumnen Korrigera till mot det ursprungliga värdet. Som standard är alternativknappen i kolumnen Godkänn mot värdet markerad. Om det behövs kan du avvisa den föreslagna korrigeringen genom att klicka på alternativknappen i kolumnen Avvisa för att flytta den till fliken Ogiltig eller manuellt skriva rätt värde i kolumnen Rätt till och klicka sedan på alternativknappen i kolumnen Godkänn för att acceptera ändringen. och flytta den till fliken Korrigerad. |
Rätt | Visar de domänvärden som hittades korrekta. Till exempel matchade värdet ett domänvärde. Den här fliken innehåller också värden som godkänts av användaren genom att klicka på alternativknappen i kolumnen Godkänn i flikarna Ny och Ogiltig. Som standardinställning markeras alternativknappen i kolumnen Godkänn för varje värde. Men om du anser att ett värde på den här fliken är felaktigt kan du antingen klicka på alternativknappen i kolumnen Avvisa bredvid värdet för att flytta det till fliken Ogiltig, eller manuellt ange det korrekta värdet som ersättning i kolumnen Korrigera till. Klicka sedan på alternativknappen i kolumnen Godkänn för att acceptera förändringen och flytta den till fliken Korrigerad. |
Så här rensar du data interaktivt:
På sidan Hantera och visa resultat i guiden rensa datakvalitet klickar du på ett domännamn i den vänstra rutan.
Granska domänvärdena under de fem flikarna och vidta lämpliga åtgärder enligt beskrivningen tidigare.
Det övre högra fönstret visar följande information för varje värde i den valda domänen: ursprungligt värde, antal instanser (poster), en ruta för att ange ett annat (korrekt) värde, konfidensnivån (inte tillgänglig för värdena under fliken Rätt), orsaken till DQS-åtgärden för värdet och alternativet att godkänna och avvisa korrigeringar och förslag för värdet.
Tips
Du kan godkänna eller avvisa alla värden i den valda domänen i det övre högra fönstret genom att klicka på Godkänn alla villkor eller Avvisa alla termer ikonen. Alternativt kan du högerklicka på ett värde i den valda domänen och klicka på Acceptera alla eller Avvisa alla på snabbmenyn.
Det nedre fönstret visar enskilda förekomster av det domänvärde som valts i det högra övre fönstret. Följande information visas: en ruta för att ange ett annat (korrekt) värde, konfidensnivån (inte tillgänglig för värdena under fliken Korrigera), orsaken till DQS-åtgärden för värdet, alternativet att godkänna och avvisa korrigeringar och förslag för värdet och det ursprungliga värdet.
Om du har aktiverat funktionen Speller för en domän när du skapar den, visas vågiga röda understreck mot sådana domänvärden som identifieras som potentiella fel. Understrecket visas för hela värdet. Om till exempel "New York" är felaktigt stavat som "Neu York" visar stavaren rött understreck under "Neu York" och inte bara "Neu". Om du högerklickar på värdet visas föreslagna korrigeringar. Om det finns fler än 5 förslag kan du klicka på Fler förslag i snabbmenyn för att visa resten av dem. Precis som med felmeddelandet är förslagen ersättningar för hela värdet. Till exempel visas "New York" som ett förslag i föregående exempel, och inte bara "New". Du kan välja något av förslagen eller lägga till ett värde i ordlistan som ska visas för det värdet. Värden lagras i ordlistan på användarkontonivå. När du väljer ett förslag från snabbmenyn för stavningsprogrammet läggs det valda förslaget till i kolumnen Korrigera till. Men om du väljer ett förslag i kolumnen Korrigera till ersätts värdet i kolumnen med det valda förslaget.
Stavningsfunktionen är aktiverad som standard i den interaktiva rensningsfasen. Du kan inaktivera stavningskontrollen i det interaktiva rensningsstadiet genom att klicka på ikonen Aktivera/inaktivera stavningskontroll eller högerklicka i området för domänvärden och sedan klicka på Stavning på snabbmenyn. Om du vill aktivera den igen gör du samma sak.
Not
Stavningsfunktionen är endast tillgänglig i det övre fönstret (domänvärden). Dessutom kan du inte aktivera eller inaktivera stavningsprogram för sammansatta domäner. De underordnade domänerna i en sammansatt domän som är av strängtyp och är aktiverade för stavningsfunktionen har som standard stavningsfunktionen aktiverad i den interaktiva rensningsfasen.
Under den interaktiva rensningsfasen kan du aktivera profileraren genom att klicka på fliken Profiler för att visa dataprofilering och meddelanden i realtid. Mer information finns i Profiler Statistics.
När du har granskat alla domänvärden klickar du på Nästa för att gå vidare till exportsteget.
Exportsteg
I exportsteget anger du parametrarna för att exportera dina rensade data: vad och var du ska exportera.
På sidan Exportera i guiden rensa datakvalitet väljer du måltypen för att exportera dina rensade data: SQL Server, CSV-fileller Excel-fil.
Viktig
Om du använder 64-bitarsversionen av Excel kan du inte exportera dina rensade data till en Excel-fil. du kan bara exportera till en SQL Server-databas eller till en .csv fil.
SQL Server-: Välj DQS_STAGING_DATA som måldatabas om du vill exportera dina data här och ange sedan ett tabellnamn som ska skapas för att lagra dina exporterade data. Annars väljer du en annan databas om du vill exportera data till en annan databas och anger sedan ett tabellnamn som ska skapas för att lagra dina exporterade data. Måldatabasen måste finnas i samma SQL Server-instans som Data Quality Server för att vara tillgänglig i listrutan Database.
CSV-fil: Klicka på Bläddraoch ange namnet och platsen för den .csv fil där du vill exportera rensade data. Du kan också skriva filnamnet för .csv-filen tillsammans med den fullständiga sökvägen där du vill exportera rensade data. Till exempel "c:\ExportedData.csv". Filen sparas på den dator där datakvalitetsservern är installerad.
Excel-fil: Klicka på Bläddraoch ange namnet och platsen för Excel-filen där du vill exportera rensade data. Du kan också skriva filnamnet för Excel-filen tillsammans med den fullständiga sökvägen där du vill exportera rensade data. Till exempel "c:\ExportedData.xlsx". Filen sparas på den dator där datakvalitetsservern är installerad.
Markera kryssrutan Standardisera utdata för att standardisera utdata baserat på det utdataformat som valts för domänen. Du kan till exempel ändra strängvärdet till versaler eller göra den första bokstaven i ordet stor. Information om hur du anger utdataformatet för en domän finns i listan Formatera utdata till i Ange domänegenskaper.
Välj sedan datautdata: exportera bara rensade data eller exportera rensade data tillsammans med rensningsinformationen.
Endast rensade data: Klicka på alternativknappen för att exportera endast de rensade uppgifterna.
Data och Rensningsinformation: Klicka på radioknappen för att exportera följande data för varje domän:
<Domain>_Source: Det ursprungliga värdet i domänen.
<Domain>_Output: De rensade värdena i domänen.
<Domain>_Reason: Orsaken som angetts för korrigeringen av värdet.
<Domain>_Confidence: Konfidensnivån för alla termer som har korrigerats. Det visas som det decimalvärde som motsvarar motsvarande procentvärde. Till exempel visas en konfidensnivå på 95% som .95000000.
<Domain>_Status: Status för domänvärdet efter datarensning. Till exempel Föreslagen, Ny, Ogiltig, Korrigerad, eller Korrekt.
Poststatus: Förutom att ha ett statusfält för varje mappad domän (<DomainName>_Status) visar fältet Poststatus status för en post. Om någon av domänens status i posten är New eller Correct, anges Record Status till Correct. Om någon av domänens status i posten är Föreslagen, Ogiltigeller Korrigeradanges poststatus till respektive värde. Om någon av domänens status i posten till exempel är Föreslagen, sätts postens status till Föreslagen.
Not
Om du använder referensdatatjänsten för rensningsåtgärden finns även ytterligare data om domänvärdet tillgängliga för export. Mer information finns i Rensa data med hjälp av referensdata (extern) kunskap.
Klicka på Exportera för att exportera data till det valda datamålet. Om du har valt:
SQL Server som datamål skapas en ny tabell med det angivna namnet i den valda databasen.
CSV-fil som datamål kommer filen .csv att skapas på den angivna platsen på datakvalitetsserverdatorn med det filnamn som du tidigare angav i rutan för CSV-fil-namn.
Excel-fil som datamål skapas en Excel-fil på platsen på datakvalitetsserverdatorn med det filnamn som du angav tidigare i rutan Excel-filnamn.
Klicka på Slutför för att stänga datakvalitetsprojektet.
Profilerstatistik
Fliken Profiler innehåller statistik som anger källdatans kvalitet. Profilering hjälper dig att utvärdera effektiviteten i datarensningsaktiviteten, och du kan potentiellt avgöra i vilken utsträckning datarensningen kunde förbättra datakvaliteten.
Fliken Profiler innehåller följande statistik för källdata, efter fält och domän:
Records: Hur många poster i dataexemplet analyserades för datarensning
Korrekta poster: Hur många poster som befanns vara korrekta
Korrigerade poster: Hur många poster som korrigerades
Föreslagna poster: Hur många poster som föreslogs
Ogiltiga poster: Hur många poster som var ogiltiga
Fältstatistiken innehåller följande:
Field: Namn på fältet i källdata
Domain: Namnet på domänen som mappar till fältet
Korrigerade värden: Antalet domänvärden som korrigerades
föreslagna värden: Antalet domänvärden som föreslogs
Fullständighet: Fullständigheten för varje källfält som mappas för rensningsaktiviteten
Noggrannhet: Noggrannheten för varje källfält som mappas för rensningsaktiviteten
DQS-profilering ger två dimensioner för datakvalitet: fullständighet (i vilken utsträckning data finns) och noggrannhet (i vilken utsträckning data kan användas för den avsedda användningen). Om profilering talar om för dig att ett fält är relativt ofullständigt kanske du vill ta bort det från kunskapsbasen för ett datakvalitetsprojekt. Profilering kanske inte ger tillförlitlig fullständighetsstatistik för sammansatta domäner. Om du behöver fullständighetsstatistik använder du enskilda domäner i stället för sammansatta domäner. Om du vill använda sammansatta domäner kanske du vill skapa en kunskapsbas med enskilda domäner för profilering, fastställa fullständighet och skapa en annan domän med en sammansatt domän för rensningsprocessen. Profilering kan till exempel visa 95% fullständighet för adressposter med hjälp av en sammansatt domän, men det kan finnas en mycket högre nivå av ofullständighet för en av kolumnerna, till exempel en postkodkolumn (postnummer). I det här exemplet kanske du vill mäta hela postnummerkolumnen med en enda domän. Profilering ger sannolikt tillförlitlig noggrannhetsstatistik för sammansatta domäner eftersom du kan mäta noggrannheten för flera kolumner tillsammans. Värdet för dessa data finns i den sammansatta aggregeringen, så du kanske vill mäta noggrannheten med en sammansatt domän.
Noggrannhetsstatistik kräver sannolikt mer tolkning om du inte använder en referensdatatjänst. Om du använder en referensdatatjänst för datarensning har du ett förtroende för noggrannhetsstatistik. Mer information om datarensning med hjälp av referensdatatjänsten finns i Rensa data med hjälp av referensdata (extern) kunskap.
Rensningsmeddelanden
Följande villkor resulterar i meddelanden:
Det finns inga korrigeringar eller förslag för ett fält. Du kanske vill ta bort den från mappningen, köra kunskapsidentifiering först eller använda en annan kunskapsbas.
Det finns relativt få korrigeringar eller förslag för ett fält. Du kanske vill ta bort den från mappningen, köra kunskapsidentifiering först eller använda en annan kunskapsbas.
Fältets noggrannhetsnivå är mycket låg. Du kanske vill verifiera mappningen eller överväga att köra kunskapsupptäckning först.
Mer information om profilering finns i Dataprofilering och meddelanden i DQS.