Rensa data med hjälp av (externa) kunskapsreferensdata – Data Quality Services (DQS)
gäller för:SQL Server
Det här avsnittet beskriver hur du rensar data med hjälp av kunskap från referensdataprovidrar. Även om alla steg för att genomföra en rensningsaktivitet förblir desamma när du använder kunskap från referensdataleverantörer, som beskrivs i Rensa data med DQS (intern) kunskap, innehåller detta avsnitt information specifikt för datarensning med hjälp av referensdatatjänsten i Data Quality Services (DQS).
Viktig
I den här artikeln nämns referensdatatjänster från tredje part som tidigare var tillgängliga från Azure DataMarket. DataMarket och Data Services – inklusive Melissa-adressdata, till exempel – upphörde efter den 12/31/2016. Därför kan du inte längre köra exemplen i den här artikeln med de angivna tjänsterna från DataMarket. Du kan fortfarande använda referensdatatjänster som är tillgängliga direkt online från tredjepartsleverantörer av referensdata.
När du använder funktionen referensdatatjänst i DQS för att rensa dina data skickar DQS-rensningsprocessen de mappade domänvärdena till referensdatatjänstleverantören som en batchbegäran. Referensdatatjänsten svarar med följande information:
Föreslagen korrigering
Självförtroende
Ytterligare information om den mappade domänen. Referensdata kan också standardisera, parsa eller berika källan med ytterligare data. Den här informationen finns i ytterligare fält i svaret.
När du har fått svaret från referensdatatjänsten sker följande i DQS under rensningsaktiviteten:
Baserat på tröskelvärdet för automatisk korrigering och minimikonfidens värdena som anges vid mappning av domänerna med referensdatatjänst, korrigeras eller föreslås de domänvärdena automatiskt baserat på konfidensnivån.
Not
De tröskelvärden som du anger när du mappar en domän till en referensdatatjänst tillämpas när du rensar data med hjälp av kunskapen i referensdatatjänsten, och inte de som anges på fliken Allmänna inställningar i avsnittet Konfiguration. Information om hur du anger tröskelvärden för rensning av referensdata finns i steg 9 i Bifoga domän eller sammansatt domän till referensdata.
Domänvärden kategoriseras i följande: Föreslagna, Ny, Ogiltig, Korrigeradoch Korrekt.
Ytterligare data läggs till i källan och informationen är tillgänglig tillsammans med rensade data för export.
Innan du börjar
Förutsättningar
Du måste ha mappat nödvändiga domäner i en DQS-kunskapsbas till lämplig referensdatatjänst. Dessutom måste kunskapsbasen innehålla kunskap om vilken typ av data du vill rensa. Om du till exempel vill rensa källdata som innehåller amerikanska adresser måste du mappa dina domäner till en referensdatatjänstleverantör som tillhandahåller data av hög kvalitet för amerikanska adresser. Mer information finns i Koppla domän eller sammansatt domän till referensdata.
Säkerhet
Behörigheter
Du måste ha rollen dqs_kb_editor eller dqs_kb_operator på DQS_MAIN-databasen för att kunna utföra datarensning.
Rensa dina data med hjälp av kunskap om referensdata
Vi fortsätter med samma exempel på hur du använder de domäner som vi mappade i föregående avsnitt, Koppla domän eller sammansatt domän till referensdatamed Melissa Data-tjänsten på Azure Marketplace. Nu ska vi använda samma domäner för att rensa vissa exempeladresser i USA. Stegen för att rensa data är desamma som beskrivs i Rensa data med hjälp av DQS-kunskap (intern). Vi kommer dock att uppmärksamma dig när det behövs under processen.
Skapa ett datakvalitetsprojekt och välj aktiviteten Cleansing. Se Skapa ett datakvalitetsprojekt.
På sidan Mappa mappar du följande 4 domäner med lämpliga kolumner i dina källdata: Adressrad, City, Stateoch Zip. Klicka på Nästa.
Notera
Eftersom du har mappat alla de 4 domänerna i -adressverifiering sammansatt domän görs datarensningen nu på den sammansatta domännivån och inte på den enskilda domännivån.
På sidan Rensa kör du den datorstödda rensningsprocessen genom att klicka på Starta. När rensningen är över klickar du på Nästa.
Obs
På sidan Rensa visar DQS information om de domäner som är kopplade till referensdatatjänsten på följande två sätt:
- Ett meddelande visas under knappen Starta: "Domäner <Domain1>, <Domain2>,... <DomainN> rensas med hjälp av referensdatatjänstprovidern." I det här exemplet visas följande meddelande: "Domänadressverifiering rensas med hjälp av referensdatatjänstprovidern."
- En ikon,
, visas i området Profiler mot domänerna som är kopplade till referensdatatjänstleverantören. I det här exemplet kommer ikonen att visas mot den sammansatta domänen för Adressverifiering.
Granska dina domänvärden på sidan Hantera och visa resultat. Referensdatatjänsten kan visa fler än ett förslag, om tillgängligt, för ett värde beroende på det maximala antalet förslag som anges i rutan Föreslagna kandidater under mappningen av domänen till referensdatatjänsten. Till exempel visas två förslag för följande USA-adress:
originalvärde:
Adressrad Stad Stat Zip 1 msft väg Redmond 98052 Föreslagna värden:
Adressrad Stad Stat Zip 1 Microsoft Way Redmond WA 98052 PO Box 1 Redmond WA 98073 Notera
För sammansatta domäner markerar DQS även de enskilda domänerna i en annan färg som korrigerades under den datorstödda rensningsprocessen. I det här fallet korrigerades till exempel domänerna adressraden och State och markeras därför i cyan.
När du är klar med att granska alla domänvärden klickar du på Nästa för att exportera data.
På sidan Exportera ser du att förutom den vanliga informationen om rensningsaktiviteten för varje domän (källa, orsak, konfidens och status) finns det ytterligare information från referensdatatjänsten Melissa Data om dina adressdata, till exempel latitud och longitud för din adress, länsnamn, adresstyp (highrise, o.s.v.) och så vidare.
Exportera dina data till det mål som krävs (SQL Server, CSV eller Excel) och klicka på Slutför för att stänga projektet.
Viktig
Om du använder 64-bitarsversionen av Excel kan du inte exportera rensade data till en Excel-fil. du kan bara exportera till en SQL Server-databas eller till en .csv fil.